Speech self-supervised learning (음성 자기지도학습)

Learning task-agnostic representation using unlabeled speech data
레이블이 없는 음성 데이터로부터 태스크와 무관한 rerpesentation 을 학습하는 과정
그 이후, fine-tuning with task-specific labeled speech data (ex. ASR, speaker verification...)
화자인식이나 음성인식의 데이터셋(labeled speech data)을 통해 fine-tuning 진행
suppose that learned general representation helps other speech-related tasks
사전학습한 일반적인 음성 representation이 다른 음성 task에 도움이 될 것이라는 가정
결과적으로 supervised training objective from unlabeled data
(fine-tuning을 하기에 결과적으로 supervised training 이지만, unlabeled data의 정보를 이용)
최근 많이 사용하는 모델들 : Wav2vec 2.0, HuBERT, WavLM...

Learning task-agnostic representation using unlabeled speech data
레이블이 없는 음성 데이터로부터 태스크와 무관한 rerpesentation 을 학습하는 과정
그 이후, fine-tuning with task-specific labeled speech data (ex. ASR, speaker verification...)
화자인식이나 음성인식의 데이터

SINCNET 음성 feature 추출 (1) - FIR필터 (0)	2023.02.28
wav2vec 2.0 기초개념 정리 (1)	2023.02.16
딥러닝 언어모델과 확률적 앵무새 - 2023 서울대학교 AI 연구원 겨울 콜로퀴움 리뷰 (0)	2023.02.03
비원어민 음성인식 및 발음평가 (한국어 발음 교육) (0)	2023.01.15
kaldi 설치하기 (0)	2022.11.17

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

nongdevlog