반응형 wav2vec2 wav2vec 2.0 기초개념 정리 self-supervised learning (자기지도학습) - 라벨이 없는 데이터를 이용하여 자기 자신의 특성(representation)을 배우는 학습 방법 - 라벨링된 데이터가 부족한 분야에서는 딥러닝이 큰 성능 보이지 못하고 있는데, self-supervised learning을 적용한 pre-trained 모델이 있다면 fine tuning 을 이용해 데이터가 적은 분야에서도 성능향상을 가져올 수 있음. - 전통적인 음성인식 모델들은 전사된 annotated speech audio 에 의해 주로 훈련됨 - 좋은 시스템은 많은 양의 annotated 데이터를 필요로하는데, 이 것은 몇몇 언어에서만 가능함 - 자기지도학습이 unannotated data 을 활용하여 좋은 시스템 만드는 방법을 제공함.. 2023. 2. 16. Fairseq - Wav2vec 2.0 Pretraining (1) 입력 데이터 준비하기 Wav2vec 2.0 - wav2vec 2.0 은 speech representation 의 self-suprvised learning 을 위한 프레임워크이고, 레이블이 없는 데이터에 대한 음성 표현을 학습한다. (wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations (Baevski et al., 2020) - wav2vec 2.0 XLSR 모델은 다국어를 위해 사전 훈련된 모델이다. - 다국어 사전훈련을 위해 MLS : Multilingual LibriSpeech (8 languages, 50.7k hours), CommonVoice (36 languages, 3.6k hours), Babel (17 languag.. 2022. 5. 27. 이전 1 다음 반응형