Speech self-supervised learning (음성 자기지도학습)

Spoken Language Processing

햇농nongnong 2023. 2. 16. 16:16

Learning task-agnostic representation using unlabeled speech data
레이블이 없는 음성 데이터로부터 태스크와 무관한 rerpesentation 을 학습하는 과정
그 이후, fine-tuning with task-specific labeled speech data (ex. ASR, speaker verification...)
화자인식이나 음성인식의 데이터셋(labeled speech data)을 통해 fine-tuning 진행
suppose that learned general representation helps other speech-related tasks
사전학습한 일반적인 음성 representation이 다른 음성 task에 도움이 될 것이라는 가정
결과적으로 supervised training objective from unlabeled data
(fine-tuning을 하기에 결과적으로 supervised training 이지만, unlabeled data의 정보를 이용)
최근 많이 사용하는 모델들 : Wav2vec 2.0, HuBERT, WavLM...

Learning task-agnostic representation using unlabeled speech data
레이블이 없는 음성 데이터로부터 태스크와 무관한 rerpesentation 을 학습하는 과정
그 이후, fine-tuning with task-specific labeled speech data (ex. ASR, speaker verification...)
화자인식이나 음성인식의 데이터