Speech self-supervised learning
- Learning task-agnostic representation using unlabeled speech data
레이블이 없는 음성 데이터로부터 태스크와 무관한 rerpesentation 을 학습하는 과정 - 그 이후, fine-tuning with task-specific labeled speech data (ex. ASR, speaker verification...)
화자인식이나 음성인식의 데이터셋(labeled speech data)을 통해 fine-tuning 진행 - suppose that learned general representation helps other speech-related tasks
사전학습한 일반적인 음성 representation이 다른 음성 task에 도움이 될 것이라는 가정 - 결과적으로 supervised training objective from unlabeled data
(fine-tuning을 하기에 결과적으로 supervised training 이지만, unlabeled data의 정보를 이용) - 최근 많이 사용하는 모델들 : Wav2vec 2.0, HuBERT, WavLM...
Wav2vec 2.0
- Learning task-agnostic representation using unlabeled speech data
레이블이 없는 음성 데이터로부터 태스크와 무관한 rerpesentation 을 학습하는 과정 - 그 이후, fine-tuning with task-specific labeled speech data (ex. ASR, speaker verification...)
화자인식이나 음성인식의 데이터
Reference
- https://zerojsh00.github.io/posts/Wav2Vec2/
- Speech self-supervised learning을 활용한 단일 화자 한국어 합성음성탐지(엄영식, 김회린, KAIST)
'Spoken Language Processing' 카테고리의 다른 글
SINCNET 음성 feature 추출 (1) - FIR필터 (0) | 2023.02.28 |
---|---|
wav2vec 2.0 기초개념 정리 (1) | 2023.02.16 |
딥러닝 언어모델과 확률적 앵무새 - 2023 서울대학교 AI 연구원 겨울 콜로퀴움 리뷰 (0) | 2023.02.03 |
비원어민 음성인식 및 발음평가 (한국어 발음 교육) (0) | 2023.01.15 |
kaldi 설치하기 (0) | 2022.11.17 |
댓글