본문 바로가기
반응형

분류 전체보기90

Fairseq 란? Fairseq - 기계번역을 위해서 페이스북에서 개발한 모델 - 원래 기계번역 분야에서는 RNN 이 주로 사용되었고, 최근에는 CNN 을 시퀀스 처리에 사용함 - Fairseq 는 CNN 과 Attention 을 사용해 기계번역에서 state-of-the-art 갱신함 - CNN 을 통해 전체 문맥을 한꺼번에 봄 + 단어를 하나씩 처리하는 RNN 보다 더 효율적으로 GPU 를 사용 - 구글의 Neural Machine Translation 과 비교했을 때 더 성능이 높음 - NVidia K40 GPU 에서 9.3 배 빠름, GTX-1080ti 에서 21배 빠름 - 영어-프랑스어, 영어-독일어, 영어-루마니아어에 대한 pre-trained 모델 github 에 공개 Reference https://tens.. 2022. 5. 27.
NVIDIA의 APEX - 학습 시간 단축, 성능 개선 wav2vec2.0 실험을 위한 fairseq 를 설치하는 중 나중에 빠른 학습을 하려면 NVIDIA's apex 라이브러리를 설치하면 좋다는 글을 봤다. git clone https://github.com/NVIDIA/apex 위 깃헙에서 다운로드 받을 수 있고, apex 가 뭔지 알아보고자 한다. 먼저 모델 훈련을 하다보면 더 빨리 학습시키고 싶어서 다양하게 파라미터들을 조정하게 된다. 이 때 엔비디아의 툴킷인 APEX (A Pytorch Extension) 을 사용하면 pytorch 에서 쉽게 분산학습과 mixed precision 을 사용할 수 있다고 한다. APEX (A Pytorch EXtension) APEX 패키지에는 mixed precision training 과 distributed t.. 2022. 5. 26.
파이썬으로 파일 읽기/쓰기(2) - CSV 모듈 사용 (이 글은 '언어와정보처리' 과목에서 '파이썬 기초' 수업 내용을 정리한 글이다.) pytorch 에 대해 들어가기 전, python 기초를 간단하게 리뷰하고 넘어가려한다. 앞의 포스팅에서 아래 예제를 풀었었는데, csv 모듈을 사용한 방법으로도 풀어보겠다. 예제) grade.txt : 성적-점수 표 정보 student_list.txt : 학생별 성적 리스트 평균이 3.7이 넘는 학생에게는 장학금을 주려고 한다. 위 두 개의 텍스트 파일을 활용하여, 학생별로 누가 장학금을 받을 수 있는지 결과를 result.txt 라는 새 파일에 저장하시오. result.txt 는 아래와 같이 각 줄이 (학생) : (장학금 여부) 형태로 되어 있어야 함. Python : Scholarship! Phaethon : No .. 2022. 4. 22.
Multi-modal processing of speech and language (Metze) - Interspeech 2019 Survey Talks 이 글은 Interspeech 2019 Survey Talks 의 Multi-modal processing of speech and language (Metze) 강연을 듣고 정리한 노트이다. Interspeech 2019 Survey Talks – Multi-modal processing of speech and language (Metze) 이 강연에서는 음성 언어를 multi-modal 로 처리했을 때에 대해 설명하고, multi-modality를 시스템 수준, 인간 수준, AI 수준으로 구분했다. 먼저 multimodal learning은 인간이 정보 학습을 위해 다양한 감각 기관으로부터 수집되는 데이터로 학습하는 것처럼, 컴퓨터도 이 인지적 학습법을 모방하여 다양한 형태의 데이터로 학습하는 방법.. 2022. 4. 22.
Biosignal Processing for Human-Machine Interaction (Tanja Schultz) - Interspeech 2019 Keynote Talks 이 글은 Interspeech 2019 Keynote Talks 의 Biosignal Processing for Human-Machine Interaction (Tanja Schultz) 강연을 듣고 정리한 노트이다. 이 강연에서는 여러 바이오 시그널들을 활용하여 음성을 합성할 수 있는 다양한 방안을 제시하 고, 특히 muscle activities, brain activities를 통한 음성 합성 연구에 대해 설명하였다. Acoustic signal 을 뛰어 넘어 여러 생체 시그널들을 이용하여 연구를 진행하면 acoustics signal 처리를 통 해서는 얻을 수 없었던 다양한 benefits 들이 존재하고, 그러한 연구들을 위해서는 다양한 lab 간 의 교류를 통해 다채로운 연구가 필요하다고 설명하.. 2022. 4. 22.
인지과학 차원의 뇌과학 뇌연구 : 두 가지 접근법 - 분자세포신경과학 : 유전자, 세포 - 인지신경과학, 신경심리학 : 뇌영역, 행동 --> '인지과학' 차원의 뇌과학 현미경 발달전, 뇌 연구는 위의 그림처럼 뇌가 다치거나 일부 손상된 사람들을 통해서 연구를 진행했다. 위 예시는 뇌에 손상이 간 후 성격이 난폭해진 경우인데, 이 경우에는 뇌의 앞부분이 손상될 때 이성적 판단을 내리는데 영향을 미친다고 알 수 있다. 이 시기에는 유골을 통해 두개골을 연구하는 방식으로 뇌과학 연구가 진행되었다. "골상학" - 뇌는 감각, 운동 뿐만 아니라 여러 정신 작용도 담당할 수 있다 라는 생각이 퍼지기 시작. - 비과학적이라고 할 수 있지만, 한정된 정보에서 의미있는 것을 끌어내기 위한 여러가지 노력들 - 현재 관상을 보듯이 골상을 봄 - .. 2022. 3. 23.
음성언어처리, 인간의 청지각과정, 베이즈정리, HMM 에 대하여 speech text interpretation 의 전환 과정을 다루는 음성언어처리의 연구 분야 - 음성언어처리는 음성신호처리와 자연언어처리, 그리고 언어학이 융합된 연구분야이다. speech에서 text로 전환되는 과정에서 '음성 인식'이 이루어지고, 그 반대 과정에서 '음성 합성'이 이루어진다. 그리고 이 두 과정을 연구하는 분야가 '음성신호처리'이다. text 에서 interpretation 으로 전환되는 과정에서 '텍스트 이해' 가 이루어지고, 그 반대 과정에서 '텍스트 생성' 이 이루어진다. 그리고 이 두 과정을 연구하는 분야가 '자연언어처리' 이다. speech 에서 interpretation 으로 전환되는 과정에서 음성언어 이해가 필요하고, 그렇게 해서 interpretation 이 되면 다.. 2022. 3. 10.
한국어 음성인식에 대해서 * 음성인식의 현황 - 2009년 Toronto 대학의 Geoffrey Hinton 교수가 음성인식기의 acoustic model 을 neural network 로 대체하는 것에 성공하면서 음성인식기의 성능이 23% 개선됨 - 그 결과로 구글 등 세계적인 IT 기업이 음성인식에 주목하기 시작하고, 많은 기업에서 음성인식기에 DNN을 접목하여 성능 20% 이상 향상 (기존의 오랜 노력 뒤집는 효과) - 최근에는 transcription을 하면 Microsoft 의 general model 같은 경우 오류발생률이 5% 정도의 수준 (실제로 사람이 받아쓰는 수준) = STT(Speech to Text) 의 경우 사람에 버금가는 수준으로 발전함 - Kaldi 라는 오픈소스의 등장으로 음성인식의 기술들이 많이 통.. 2022. 3. 10.
음성인식(Speech recognition) 이란? 음성인식이란? - 음성인식이란 기계로 하여금 인간의 말소리를 인식하고 그 결과를 문자로 출력해주는 시스템 ex) "나 지금 학교에 왔어" 라고 인간이 말했을 때 기계는 이 음성을 분석하여 인식 과정을 거친 뒤 최종적으로 "나 지금 학교에 왔어" 라는 음성인식 결과를 문자 형태로 적어줌 - 음성인식 기술 --> 대표적으로 애플의 시리, 삼성의 빅스비 - 인간의 말소리를 이해하기 위해 사용됨 음성인식 구현 * 인간이 언어를 배우고 인식하는 과정 먼저 이해해보기 - 영어를 이제껏 한 번도 들어본 적 없고 써본 적 없다고 가정했을 때, 영어 문장을 들려줬을 때 그것이 무슨 문장이었는지를 글로 써서 제출해야 하는 과제 - 영어를 전혀 못하는데 영어를 듣고 문장으로 받아쓰기 막막 --> 먼저 영어라는 음성에 대해 .. 2022. 3. 4.
Fairseq로 기계번역기 만들기 기계번역 소스언어를 타겟언어로 번역하는 프로그램 단순하게 data mapping 하는 문제 + 자연어는 생략과 중의성이 많아 컴퓨터가 이해하기 어렵, 표현도 많아서 훨씬 더 복잡한 문제 + 언어마다 다른 특징 기계번역은 NLP 에서 어려운 task 에 속함 예전에는 기계번역기 만들 때 많은 resource + 복잡한 규칙 + 많은 통계규칙들 다 활용하여 여러 개의 모듈들을 따로 만들어 합침 but 최근에 데이터 많아지고 + 딥러닝 등장 = 하나의 모듈에서 모든 일을 처리하는 방식으로 바뀜 예전보다는 상대적으로 쉽게 개발 가능 준비물 1 - 오픈소스 : Fairseq 기계번역을 위한 여러 오픈 소스 존재 그 중 facebook 에서 만든 fairseq WMT 라는 기계번역 대회에서 fairseq 가 활발하.. 2022. 1. 13.
반응형