Spoken Language Processing

Speech self-supervised learning (음성 자기지도학습)

햇농nongnong 2023. 2. 16. 16:16

Speech self-supervised learning


  • Learning task-agnostic representation using unlabeled speech data
    레이블이 없는 음성 데이터로부터 태스크와 무관한 rerpesentation 을 학습하는 과정
  • 그 이후, fine-tuning with task-specific labeled speech data (ex. ASR, speaker verification...)
    화자인식이나 음성인식의 데이터셋(labeled speech data)을 통해 fine-tuning 진행
  • suppose that learned general representation helps other speech-related tasks
    사전학습한 일반적인 음성 representation이 다른 음성 task에 도움이 될 것이라는 가정
  • 결과적으로 supervised training objective from unlabeled data
    (fine-tuning을 하기에 결과적으로 supervised training 이지만, unlabeled data의 정보를 이용)
  • 최근 많이 사용하는 모델들 : Wav2vec 2.0, HuBERT, WavLM...

 

 

 

 

Wav2vec 2.0


  • Learning task-agnostic representation using unlabeled speech data
    레이블이 없는 음성 데이터로부터 태스크와 무관한 rerpesentation 을 학습하는 과정
  • 그 이후, fine-tuning with task-specific labeled speech data (ex. ASR, speaker verification...)
    화자인식이나 음성인식의 데이터

 

 

 

 

 Reference