반응형 Spoken Language Processing33 딥러닝으로 음향모델 모델링 (End-to-end algorithm) 이 글은 ETRI 박전규 박사님의 언어교육 성과 특강 강의를 듣고 정리한 글입니다. 딥러닝을 통한 음향모델의 모델링 (end-to-end) 왼쪽 그림이 전통적인 음성인식 모델 : 음향, 언어, 발음 모델 다 별도로 모델링. 이전에는 음성인식 디코딩을 위해 음향모델링, 언어모델링, 발음변환기 다 따로 전문가가 만들어야했음. 음성인식기 하나 만드려고 하면 대략 10명 정도가 개발. (음향 전문가 2, 언어전문가 2, 발음전문가 2, 후처리 등등..) E2E 는 한사람이 개발 가능 - 음성 파형 & 음성 파형이 무엇을 나타내느냐(전사정보) 위 두 가지 정보만 넣어주면 모델 완성. E2E 모델 : acoustic 모델, language 모델 implicit 하게 다 가지고 있다고 보면 됨. (E2E 가 강력한 .. 2022. 6. 3. 음향모델의 모델링 - ASR 의 acoustic model 이 글은 ETRI 박전규 박사님의 언어교육 성과 특강 강의를 듣고 정리한 글입니다. 음향 모델의 모델링 음향모델 = 어떻게 음소를 잘 모델링하느냐 한국어 음소의 경우, 초성 중성 종성 음가를 40개 남짓의 함수로 표현? - 이렇게 하면 성능 매우 떨어짐. - 100개 중 하나, 1000개 중 하나로 표현하는 것도 어려움 - 따라서 triphone 사용 - triphone modeling : 음소를 거의 10만개, 15만개까지 표현 - 굉장피 복잡한 음소 표현 방법론들이 많음 - 여기서 중요한건, 그 기저 단위는 '음소' 라는 것. 음소를 얼마나 잘 classify 하느냐가 음소인식의 task 이고 acoutic modeling 의 핵심이다. 음향 모델을 모델링할 때 고려해야 하는 것들 Speech and.. 2022. 6. 3. 음성인식(ASR)의 과정과 기본 구조 이 글은 ETRI 박전규 박사님의 언어교육 성과 특강 강의를 듣고 정리한 글입니다. 음성인식의 기본 구조 위 사진은 음성인식의 가장 기본적인 설계구조 음성인식, 음성합성 모두 acoustic model 이 존재 - 전통적인 방식으로는 HMM 모델 사용 Acoustic model : '소리'를 다루는 것 - speech 음성 자체를 이용해 통계자료로 모델링해서 만든 모델 - 음소, 아 / 에 / 이 / 오 / 우 등을 다루는 것 Language model : '텍스트'를 이용해 모델링 - 형태소, 어절 등의 통계적인 접속 정보 / 어휘의 쓰임새를 모델링 Vocabulary dictionary : 발음사전. 요즘 음성인식 트렌드에서는 발음사전 거의 안씀. - but 여전히 최신 트렌드에서 acoustic, .. 2022. 6. 3. Fairseq - Wav2vec 2.0 Pretraining (1) 입력 데이터 준비하기 Wav2vec 2.0 - wav2vec 2.0 은 speech representation 의 self-suprvised learning 을 위한 프레임워크이고, 레이블이 없는 데이터에 대한 음성 표현을 학습한다. (wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations (Baevski et al., 2020) - wav2vec 2.0 XLSR 모델은 다국어를 위해 사전 훈련된 모델이다. - 다국어 사전훈련을 위해 MLS : Multilingual LibriSpeech (8 languages, 50.7k hours), CommonVoice (36 languages, 3.6k hours), Babel (17 languag.. 2022. 5. 27. Fairseq 란? Fairseq - 기계번역을 위해서 페이스북에서 개발한 모델 - 원래 기계번역 분야에서는 RNN 이 주로 사용되었고, 최근에는 CNN 을 시퀀스 처리에 사용함 - Fairseq 는 CNN 과 Attention 을 사용해 기계번역에서 state-of-the-art 갱신함 - CNN 을 통해 전체 문맥을 한꺼번에 봄 + 단어를 하나씩 처리하는 RNN 보다 더 효율적으로 GPU 를 사용 - 구글의 Neural Machine Translation 과 비교했을 때 더 성능이 높음 - NVidia K40 GPU 에서 9.3 배 빠름, GTX-1080ti 에서 21배 빠름 - 영어-프랑스어, 영어-독일어, 영어-루마니아어에 대한 pre-trained 모델 github 에 공개 Reference https://tens.. 2022. 5. 27. Multi-modal processing of speech and language (Metze) - Interspeech 2019 Survey Talks 이 글은 Interspeech 2019 Survey Talks 의 Multi-modal processing of speech and language (Metze) 강연을 듣고 정리한 노트이다. Interspeech 2019 Survey Talks – Multi-modal processing of speech and language (Metze) 이 강연에서는 음성 언어를 multi-modal 로 처리했을 때에 대해 설명하고, multi-modality를 시스템 수준, 인간 수준, AI 수준으로 구분했다. 먼저 multimodal learning은 인간이 정보 학습을 위해 다양한 감각 기관으로부터 수집되는 데이터로 학습하는 것처럼, 컴퓨터도 이 인지적 학습법을 모방하여 다양한 형태의 데이터로 학습하는 방법.. 2022. 4. 22. Biosignal Processing for Human-Machine Interaction (Tanja Schultz) - Interspeech 2019 Keynote Talks 이 글은 Interspeech 2019 Keynote Talks 의 Biosignal Processing for Human-Machine Interaction (Tanja Schultz) 강연을 듣고 정리한 노트이다. 이 강연에서는 여러 바이오 시그널들을 활용하여 음성을 합성할 수 있는 다양한 방안을 제시하 고, 특히 muscle activities, brain activities를 통한 음성 합성 연구에 대해 설명하였다. Acoustic signal 을 뛰어 넘어 여러 생체 시그널들을 이용하여 연구를 진행하면 acoustics signal 처리를 통 해서는 얻을 수 없었던 다양한 benefits 들이 존재하고, 그러한 연구들을 위해서는 다양한 lab 간 의 교류를 통해 다채로운 연구가 필요하다고 설명하.. 2022. 4. 22. 음성언어처리, 인간의 청지각과정, 베이즈정리, HMM 에 대하여 speech text interpretation 의 전환 과정을 다루는 음성언어처리의 연구 분야 - 음성언어처리는 음성신호처리와 자연언어처리, 그리고 언어학이 융합된 연구분야이다. speech에서 text로 전환되는 과정에서 '음성 인식'이 이루어지고, 그 반대 과정에서 '음성 합성'이 이루어진다. 그리고 이 두 과정을 연구하는 분야가 '음성신호처리'이다. text 에서 interpretation 으로 전환되는 과정에서 '텍스트 이해' 가 이루어지고, 그 반대 과정에서 '텍스트 생성' 이 이루어진다. 그리고 이 두 과정을 연구하는 분야가 '자연언어처리' 이다. speech 에서 interpretation 으로 전환되는 과정에서 음성언어 이해가 필요하고, 그렇게 해서 interpretation 이 되면 다.. 2022. 3. 10. 한국어 음성인식에 대해서 * 음성인식의 현황 - 2009년 Toronto 대학의 Geoffrey Hinton 교수가 음성인식기의 acoustic model 을 neural network 로 대체하는 것에 성공하면서 음성인식기의 성능이 23% 개선됨 - 그 결과로 구글 등 세계적인 IT 기업이 음성인식에 주목하기 시작하고, 많은 기업에서 음성인식기에 DNN을 접목하여 성능 20% 이상 향상 (기존의 오랜 노력 뒤집는 효과) - 최근에는 transcription을 하면 Microsoft 의 general model 같은 경우 오류발생률이 5% 정도의 수준 (실제로 사람이 받아쓰는 수준) = STT(Speech to Text) 의 경우 사람에 버금가는 수준으로 발전함 - Kaldi 라는 오픈소스의 등장으로 음성인식의 기술들이 많이 통.. 2022. 3. 10. 음성인식(Speech recognition) 이란? 음성인식이란? - 음성인식이란 기계로 하여금 인간의 말소리를 인식하고 그 결과를 문자로 출력해주는 시스템 ex) "나 지금 학교에 왔어" 라고 인간이 말했을 때 기계는 이 음성을 분석하여 인식 과정을 거친 뒤 최종적으로 "나 지금 학교에 왔어" 라는 음성인식 결과를 문자 형태로 적어줌 - 음성인식 기술 --> 대표적으로 애플의 시리, 삼성의 빅스비 - 인간의 말소리를 이해하기 위해 사용됨 음성인식 구현 * 인간이 언어를 배우고 인식하는 과정 먼저 이해해보기 - 영어를 이제껏 한 번도 들어본 적 없고 써본 적 없다고 가정했을 때, 영어 문장을 들려줬을 때 그것이 무슨 문장이었는지를 글로 써서 제출해야 하는 과제 - 영어를 전혀 못하는데 영어를 듣고 문장으로 받아쓰기 막막 --> 먼저 영어라는 음성에 대해 .. 2022. 3. 4. 이전 1 2 3 4 다음 반응형