본문 바로가기
반응형

분류 전체보기90

G2P(grapheme to phoneme)란? - 발음열 정보의 중요성 음성인식과 발음 모델(G2P) 전통적인 HMM 기반 모델 HMM 기반 모델 : 음향모델, 발음모델, 언어모델로 나눌 수 있음. 발음 모델 : 단어를 음소로 매핑하는 과정에서 발음 모델 사용. 발음 모델 정의할 때는 타겟 언어에 대한 특별한 지식 필요. G2P (Grapheme to Phoneme) = 발음 모델 - 철자와 발음을 매칭하는 모델 - 발음변이 규칙을 찾고 예외처리를 적용해주는 모델 - 이러한 발음 모델(G2P)을 통해 철자와 단어에 대한 발음 사전을 만들어서 음성 정보와 텍스트 정보를 상호 변환해주는 역할 - 즉, 음소 시퀀스를 단어 시퀀스로 변경하기 위해 참고하는 모델 음향 모델 : 입력 오디오와 HMM 상태 간의 매핑을 모델링 - 위에서 발음 모델(G2P)을 통해 발음 사전이 만들어졌다면.. 2022. 9. 28.
Huggingface 튜토리얼 (1) 기초 개념 소개 Tokenizer Tokenizer 가 매우 중요 결국 문장(글자, 텍스트)를 어떻게 숫자로 잘 바꿀 수 있을까가 관건 그렇게 하기 위해 가장 먼저 해야 할 것 - tokenizer - "학교에 가서 수업을 들었다." = 학교에 / 가서 / 수업을 / 들었다. 나누는 방법 다양함 - 띄어쓰기 단위 / 문자 단위 / subword 단위 - 각각의 장 단점이 있음 "오늘 저녁은 맛있었다." 띄어쓰기 단위 : [오늘, 저녁은, 맛있었다] - 명료, 적용 쉬움 - "맛있다, 맛있어요, 맛있었다" 가 모두 다르게 인식됨, 단어사전이 매우 커짐 문자 단위 : [오, 늘, 저, 녁, 은, 맛, 있, 었, 다] - 각 token 이 의미를 담지 못함 subword 단위 : [오늘, 저녁, 은, 맛있, 었, 다] - 띄.. 2022. 9. 15.
Huggingface 로 wav2vec2.0 실습 - 영어 Huggingface Fairseq facebook 에서 처음에는 shell 을 통해 바로 훈련시키는 fairseq 라는 AI 툴킷을 공개함 따라서 이 fairseq 를 통해 pretrained 모델을 가져와 fine-tuning 가능했었음 Huggingface 그 이후 huggingface 에서 python 에서 pretrained 모델을 가져와 fine-tuning 할 수 있도록 만들어줌 Huggingface 는 자연어처리 스타트업에서 개발한 다양한 트랜스포머 모델(transformer.models) 과 학습 스크립트(transformer.Trainer) 를 제공하는 모듈 transformers.models : 트랜스포머 기반의 다양한 모델을 pytorch, tensorflow 로 각각 구현해놓은 모.. 2022. 8. 18.
wav2vec2.0 pretrained 모델로 디코딩하기 Facebook - wav2vec2.0 개념 설명 Facebook 에서 약 5만 시간의 데이터를 훈련시켜 음성인식 pretrained 모델을 만들었음 - 5만 시간이라는 대량의 데이터로 훈련할 수 있었던 이유는 label 이 없는 데이터이기 때문에 가능했었음 - 즉, 라벨이 없는 데이터를 이용하여 자기 자신의 특성(representation)을 배우는 학습 방법인 self-supervised learning (자기지도학습)을 통해 만든 pretrained 모델 물론 finetuning 할 때 더 큰 데이터일수록 좋지만, 960hrs, 100hrs, 10m 비교했을 때 10m 모델로 fine-tuning 해도 충분히 좋은 결과가 나옴 즉, pre-trained 모델만 잘 만들어두면, 내가 가지고 있는 데이.. 2022. 8. 17.
End-to-End ASR : Attention vs RNN-T 음성인식(ASR) 이란? 사용자의 발화를 입력으로 받아 음성인식을 거친 후 텍스트로 전사하는 과정 음성인식 - 사용자의 발화(발음적인 신호 자체에 대한 확률들) = acoustic model - 발화 자체가 있을 법한 문장인가 = language model 위의 두가지 확률들을 합쳐서, 사용자가 발화를 했을 때 그것이 어떤 말인지 가장 있을 법한 텍스트를 추론하는 것 End-to-End(E2E) ASR 기존 음성인식 모델링 입력 음성을 음소 단위로 mapping 음소 단위를 다시 텍스트로 전사하기 위해 수 많은 과정을 거쳐야 함 이렇게 매우 복잡하기 때문에 진입장벽이 매우 높은 분야 중 하나였음 End-to-End(E2E) 로의 전환 기존 방식에서는 음성을 phoneme(음소)으로 모델링 했음 E2E 에.. 2022. 8. 4.
AI 에서의 Interpretability - Explainable AI Why interpretability? AI 에서 왜 interpretability 가 필요할까? It's not JUST about being responsibile. 물론 Interpretability - a tool to improve responsibility + the more we know about what we do, the more we become conscious about what we are doing. Interpretability 는 더 넓은 개념 - fundamental underspecification in the problem ( Humans often don't know exactly what they want ) ex ) safety 자동차 사고를 대비해 모든 사건 c.. 2022. 8. 4.
Fairseq - Wav2vec 2.0 Pretraining (3) pretraining 시키기 앞 글에 이어 fairseq 의 examples 의 wav2vec2.0 pretraining 글입니다. 2. wav2vec 2.0 모델 학습시키기 Train a wav2vec 2.0 base model fairseq-hydra-train \ task.data=/path/to/data \ --config-dir /path/to/fairseq-py/examples/wav2vec/config/pretraining \ --config-name wav2vec2_base_librispeech 위 configuration은 wav2vec 2.0 논문의 Libispeech 데이터 세트에 대해 훈련된 기본 모델 입력은 16000 Hz 로 샘플링된 단일 채널이어야 함 데이터, 모델 파라미터 설정을 위한 config 정보 .. 2022. 6. 14.
Fairseq - Wav2vec 2.0 Pretraining (2) Preprocess 전처리하기 CLI 툴킷을 사용해 새 모델 학습시켜보기 2. Preprocess - vocabulary 파일 생성하기 fairseq에 내장된 fairseq-preprocess 명령어 또는 'libri_labels.py' 파이썬 파일을 통해 전처리 할 수 있음 4개의 파일 : 'dict.ltr.txt', 'train.tsv', 'train.wrd', 'train.ltr' fairseq 장점 : 메모리가 넉넉해서 훈련 잘 됨 (huggingface 에서 했을 때 잘 안되었던 것 fairseq 로 잘됨) - huggingface 는 캐시메모리 폴더를 만들고 거기에 저장 - 용량 차지 많이 함 - 따라서 하드 메모리 부족하기도 함 --> cuda out of memory... 에러메세지 많이 뜸 --> huggingface.. 2022. 6. 14.
CNN-RNN-CTC Based End-to-End Mispronunciation Detection and Diagnosis - Leung, W. K., Liu, X., & Meng, H. @ ICASSP 2019 CNN-RNN-CTC Based End-to-End Mispronunciation Detection and Diagnosis - Leung, W. K., Liu, X., & Meng, H. @ ICASSP 2019 논문 리뷰 글입니다. Abstract main point : CNN-RNN-CTC 구조를 가진 모델을 제안 : E2E 모델이 MDD task 에 처음으로 적용된 논문 phonemic, graphemic 정보가 필요 없고, forced alignment 도 필요없기 때문에 유용하게 사용될 것으로 기대됨 다양한 baseline 모델들의 성능과 비교한 결과 - F1 measure 에서 다 이김 Model Relative Increase Extended Recognition Network (ERN) .. 2022. 6. 6.
Phoneme mispronunciation detection by jointly learning to align - Binghuai Lin, Liyuan Wang @ ICASSP 2022 Phoneme mispronunciation detection by jointly learning to align - Binghuai Lin, Liyuan Wang @ ICASSP 2022 논문 리뷰 글입니다. Abstract 주제 : phoneme mispronunciation detection 아이디어 : 발음 오류 탐지를 위해 alignment 도 동시에 같이 학습하겠다. multi task learning 을 통해 phoneme alignment 와 mispronunciation detection 을 같이 최적화하겠다. alignment 를 하기 위해 음성과 텍스트 정보가 필요 - 그리고 이로부터 각각 acoustic representations, canonical phoneme represent.. 2022. 6. 6.
반응형