Spoken Language Processing
Speech self-supervised learning (음성 자기지도학습)
햇농nongnong
2023. 2. 16. 16:16
Speech self-supervised learning
- Learning task-agnostic representation using unlabeled speech data
레이블이 없는 음성 데이터로부터 태스크와 무관한 rerpesentation 을 학습하는 과정 - 그 이후, fine-tuning with task-specific labeled speech data (ex. ASR, speaker verification...)
화자인식이나 음성인식의 데이터셋(labeled speech data)을 통해 fine-tuning 진행 - suppose that learned general representation helps other speech-related tasks
사전학습한 일반적인 음성 representation이 다른 음성 task에 도움이 될 것이라는 가정 - 결과적으로 supervised training objective from unlabeled data
(fine-tuning을 하기에 결과적으로 supervised training 이지만, unlabeled data의 정보를 이용) - 최근 많이 사용하는 모델들 : Wav2vec 2.0, HuBERT, WavLM...
Wav2vec 2.0
- Learning task-agnostic representation using unlabeled speech data
레이블이 없는 음성 데이터로부터 태스크와 무관한 rerpesentation 을 학습하는 과정 - 그 이후, fine-tuning with task-specific labeled speech data (ex. ASR, speaker verification...)
화자인식이나 음성인식의 데이터
Reference
- https://zerojsh00.github.io/posts/Wav2Vec2/
- Speech self-supervised learning을 활용한 단일 화자 한국어 합성음성탐지(엄영식, 김회린, KAIST)