Spoken Language Processing

음성인식을 위한 최신 언어 모델 <2>

햇농nongnong 2023. 4. 10. 20:26

이 글은 Kakao AI Report 의 일부 "음성인식을 위한 최신 언어 모델 리뷰"를 보고 정리한 글입니다.

 

 

 

End-to-End 음성인식


  • 언어모델(language model; LM) : 일련의 단어열에 대해 확률을 결정하는 기술
    • 즉, 앞서 등장한 단어열을 고려하여 뒤에 이어질 단어의 등장 확률 분포 추정하여, 나왔던 단어열 다음에 어떤 단어가 뒤에 나와야 문장이 더 자연스러운지 확률적으로 추정
  • 음성인식기는 크게 GMM-HMM, E2E 음성인식기 두 가지로 나뉨.

 

End-to-End 음성인식

  • 이전 HMM 기반 하이브리드 음성 인식은 학습을 위해 프레임 별 음소 정보가 필요하다는 한계점.
  • CTC(Connectionist Temporal Classification)나 attention과 같이 기존 GMM-HMM 모델을 이용해 alignment 생성과정 없이 학습되는 E2E 음성 인식의 경우,
    • 인식기 대부분의 주요한 구성이 신경망이라 한 번에 학습되며, 프레임 별 음소 정보나 발음사전 미리 생성해줄 필요 없다는 장점.
  • 이러한 E2E 음성인식은 크게 CTC, Transducer, AED(Attention based Encoder Decoder) 3개로 나뉨.

 

 

  • CTCblank 출력과 다대일 매핑 함수인 β function 을 이용해 긴 시계열 입력에서 짧은 단어열 출력을 생성

 

 

  • Transducer는 CTC와 유사하게 β function 을 이용해 가변 길이 처리를 진행하면서 forward backward 알고리즘을 통해 학습됨.
  • AED와 유사하게 encoder와 decoder인 predictor의 joint network로 구성되어 있고, 자기 회기(auto regressive)적인 특징을 가지고 있음.

 

 

  • AED Encoder, Attention, Decoder로 구성되어 있으며 attention module을 이용해 입출력 간 시계열 길이 변화를 모델링.
  • 이전의 음성 인식 모델과 다르게 단조함수(monotonic)의 특성출력 간 조건부 독립을 가정하지 않음으로써 높은 성능을 보임.
  • 자기 회기 모델이전 time step의 출력이 다음 time step의 입력으로 사용됨 - 출력 간의 dependency 모델링 가능.

 

최근에는 E2E 음성 인식기가 추가적인 '외부 LM' 없이도 좋은 성능을 보임

  • 높은 representation learning 능력을 바탕으로
  • 이러한 E2E 방식은 context dependency가 사후분포에 직접 포함되어, 음성인식기가 '내부 LM"을 암묵적으로 학습한다고 볼 수 있음.

 

 

End-to-End 음성인식


  • 언어모델(language model; LM) : 일련의 단어열에 대해 확률을 결정하는 기술
    • 즉, 앞서 등장한 단어열을 고려하여 뒤에 이어질 단어의 등장 확률 분포 추정하여, 나왔던 단어열 다음에 어떤 단어가 뒤에 나와야 문장이 더 자연스러운지 확률적으로 추정
  • 음성인식기는 크게 GMM-HMM, E2E 음성인식기 두 가지로 나뉨.

 

End-to-End 음성인식

  • 이전 HMM 기반 하이브리드 음성 인식은 학습을 위해 프레임 별 음소 정보가 필요하다는 한계점.
  • CTC(Connectionist Temporal Classification)나 attention과 같이 기존 GMM-HMM 모델을 이용해 alignment 생성과정 없이 학습되는 E2E 음성 인식의 경우,

 

 

 Reference

  • Kakao AI Report "음성 인식을 위한 최신 언어 모델 리뷰" - 강지훈