본문 바로가기
반응형

분류 전체보기94

Fairseq - Wav2vec 2.0 Pretraining (3) pretraining 시키기 앞 글에 이어 fairseq 의 examples 의 wav2vec2.0 pretraining 글입니다. 2. wav2vec 2.0 모델 학습시키기 Train a wav2vec 2.0 base model fairseq-hydra-train \ task.data=/path/to/data \ --config-dir /path/to/fairseq-py/examples/wav2vec/config/pretraining \ --config-name wav2vec2_base_librispeech 위 configuration은 wav2vec 2.0 논문의 Libispeech 데이터 세트에 대해 훈련된 기본 모델 입력은 16000 Hz 로 샘플링된 단일 채널이어야 함 데이터, 모델 파라미터 설정을 위한 config 정보 .. 2022. 6. 14.
Fairseq - Wav2vec 2.0 Pretraining (2) Preprocess 전처리하기 CLI 툴킷을 사용해 새 모델 학습시켜보기 2. Preprocess - vocabulary 파일 생성하기 fairseq에 내장된 fairseq-preprocess 명령어 또는 'libri_labels.py' 파이썬 파일을 통해 전처리 할 수 있음 4개의 파일 : 'dict.ltr.txt', 'train.tsv', 'train.wrd', 'train.ltr' fairseq 장점 : 메모리가 넉넉해서 훈련 잘 됨 (huggingface 에서 했을 때 잘 안되었던 것 fairseq 로 잘됨) - huggingface 는 캐시메모리 폴더를 만들고 거기에 저장 - 용량 차지 많이 함 - 따라서 하드 메모리 부족하기도 함 --> cuda out of memory... 에러메세지 많이 뜸 --> huggingface.. 2022. 6. 14.
CNN-RNN-CTC Based End-to-End Mispronunciation Detection and Diagnosis - Leung, W. K., Liu, X., & Meng, H. @ ICASSP 2019 CNN-RNN-CTC Based End-to-End Mispronunciation Detection and Diagnosis - Leung, W. K., Liu, X., & Meng, H. @ ICASSP 2019 논문 리뷰 글입니다. Abstract main point : CNN-RNN-CTC 구조를 가진 모델을 제안 : E2E 모델이 MDD task 에 처음으로 적용된 논문 phonemic, graphemic 정보가 필요 없고, forced alignment 도 필요없기 때문에 유용하게 사용될 것으로 기대됨 다양한 baseline 모델들의 성능과 비교한 결과 - F1 measure 에서 다 이김 Model Relative Increase Extended Recognition Network (ERN) .. 2022. 6. 6.
Phoneme mispronunciation detection by jointly learning to align - Binghuai Lin, Liyuan Wang @ ICASSP 2022 Phoneme mispronunciation detection by jointly learning to align - Binghuai Lin, Liyuan Wang @ ICASSP 2022 논문 리뷰 글입니다. Abstract 주제 : phoneme mispronunciation detection 아이디어 : 발음 오류 탐지를 위해 alignment 도 동시에 같이 학습하겠다. multi task learning 을 통해 phoneme alignment 와 mispronunciation detection 을 같이 최적화하겠다. alignment 를 하기 위해 음성과 텍스트 정보가 필요 - 그리고 이로부터 각각 acoustic representations, canonical phoneme represent.. 2022. 6. 6.
트랜스포머(Transformer) (4) - multi-head attention 4. 어텐션 (Attention) 첫번째 인코더 레이어에 입력 값이 들어오고 여러 개의 인코더 레이어 반복해서 거침 Multi-Head Attention 레이어 Reference https://www.youtube.com/watch?v=AA621UofTUA 이 글은 나동빈님의 'Transformer : Attention Is All You Need' 논문 리뷰 영상을 보고 정리한 글입니다. 2022. 6. 4.
트랜스포머(Transformer) (4) - 인코더와 디코더 인코더 (Encoder) 트랜스포머는 하나의 인코더 층이 총 두개의 서브 층으로 이루어짐 : 셀프어텐션, 피드포워드 신경망 1) 셀프어텐션 : multi-head self-attention 블록으로 셀프 어텐션을 병렬적으로 사용함 2) 피드포워드 신경망 : position-wise FFNN 블록으로 그냥 일반적인 피드 포워드 신경망임 self-attention : 인코더 파트에서 수행하는 어텐션 - 각각의 단어가 서로 어떤 연관성을 가지고 있는지 구하기 위해 사용 ex) I am a teacher : 문장을 구성하는 각각의 단어 I, am, a, teacher 에 대해서 각각의 단어끼리 attention score 을 구해서 서로 어떤 단어와 높은 연관성을 갖는지에 대한 정보를 학습시킴 어텐션을 통해 전.. 2022. 6. 4.
트랜스포머(Transformer) (3) - 구조, 동작원리, 포지셔널 인코딩(Positional Encoding), 어텐션(Attention) 트랜스포머의 구조 - Attention Is All You Need 트랜스포머는 어텐션 기법만 쓰기 때문에 RNN, CNN 은 전혀 사용하지 않음 - 그래도 기존의 seq2seq 의 인코더-디코더 구조는 유지 - 인코더에서 입력 시퀀스를 입력받고, 디코더에서 출력 시퀀스를 출력 그렇기 때문에 문장 안에 포함된 각각의 단어들의 순서에 대한 정보를 주기 어려움 문장내 각각 단어의 순서에 대한 정보를 알려주기 위해 positional encoding 사용 이러한 아키텍쳐는 BERT 와 같은 향상된 네트워크에서도 채택됨 어텐션 과정 한번만 사용하는 것이 아니라 여러 레이어를 거쳐서 반복하도록 만듦 인코더와 디코더 N 번 만큼 중첩되어 사용하도록 만듦. - 이전 seq2seq 구조에서는 인코더 / 디코더 하나에서.. 2022. 6. 4.
딥러닝으로 음향모델 모델링 (End-to-end algorithm) 이 글은 ETRI 박전규 박사님의 언어교육 성과 특강 강의를 듣고 정리한 글입니다. 딥러닝을 통한 음향모델의 모델링 (end-to-end) 왼쪽 그림이 전통적인 음성인식 모델 : 음향, 언어, 발음 모델 다 별도로 모델링. 이전에는 음성인식 디코딩을 위해 음향모델링, 언어모델링, 발음변환기 다 따로 전문가가 만들어야했음. 음성인식기 하나 만드려고 하면 대략 10명 정도가 개발. (음향 전문가 2, 언어전문가 2, 발음전문가 2, 후처리 등등..) E2E 는 한사람이 개발 가능 - 음성 파형 & 음성 파형이 무엇을 나타내느냐(전사정보) 위 두 가지 정보만 넣어주면 모델 완성. E2E 모델 : acoustic 모델, language 모델 implicit 하게 다 가지고 있다고 보면 됨. (E2E 가 강력한 .. 2022. 6. 3.
음향모델의 모델링 - ASR 의 acoustic model 이 글은 ETRI 박전규 박사님의 언어교육 성과 특강 강의를 듣고 정리한 글입니다. 음향 모델의 모델링 음향모델 = 어떻게 음소를 잘 모델링하느냐 한국어 음소의 경우, 초성 중성 종성 음가를 40개 남짓의 함수로 표현? - 이렇게 하면 성능 매우 떨어짐. - 100개 중 하나, 1000개 중 하나로 표현하는 것도 어려움 - 따라서 triphone 사용 - triphone modeling : 음소를 거의 10만개, 15만개까지 표현 - 굉장피 복잡한 음소 표현 방법론들이 많음 - 여기서 중요한건, 그 기저 단위는 '음소' 라는 것. 음소를 얼마나 잘 classify 하느냐가 음소인식의 task 이고 acoutic modeling 의 핵심이다. 음향 모델을 모델링할 때 고려해야 하는 것들 Speech and.. 2022. 6. 3.
음성인식(ASR)의 과정과 기본 구조 이 글은 ETRI 박전규 박사님의 언어교육 성과 특강 강의를 듣고 정리한 글입니다. 음성인식의 기본 구조 위 사진은 음성인식의 가장 기본적인 설계구조 음성인식, 음성합성 모두 acoustic model 이 존재 - 전통적인 방식으로는 HMM 모델 사용 Acoustic model : '소리'를 다루는 것 - speech 음성 자체를 이용해 통계자료로 모델링해서 만든 모델 - 음소, 아 / 에 / 이 / 오 / 우 등을 다루는 것 Language model : '텍스트'를 이용해 모델링 - 형태소, 어절 등의 통계적인 접속 정보 / 어휘의 쓰임새를 모델링 Vocabulary dictionary : 발음사전. 요즘 음성인식 트렌드에서는 발음사전 거의 안씀. - but 여전히 최신 트렌드에서 acoustic, .. 2022. 6. 3.
반응형