음성인식을 위한 최신 언어 모델 <2>

Spoken Language Processing

음성인식을 위한 최신 언어 모델 <2>

햇농nongnong 2023. 4. 10. 20:26

이 글은 Kakao AI Report 의 일부 "음성인식을 위한 최신 언어 모델 리뷰"를 보고 정리한 글입니다.

End-to-End 음성인식

언어모델(language model; LM) : 일련의 단어열에 대해 확률을 결정하는 기술
- 즉, 앞서 등장한 단어열을 고려하여 뒤에 이어질 단어의 등장 확률 분포 추정하여, 나왔던 단어열 다음에 어떤 단어가 뒤에 나와야 문장이 더 자연스러운지 확률적으로 추정
음성인식기는 크게 GMM-HMM, E2E 음성인식기 두 가지로 나뉨.

End-to-End 음성인식

이전 HMM 기반 하이브리드 음성 인식은 학습을 위해 프레임 별 음소 정보가 필요하다는 한계점.
CTC(Connectionist Temporal Classification)나 attention과 같이 기존 GMM-HMM 모델을 이용해 alignment 생성과정 없이 학습되는 E2E 음성 인식의 경우,
- 인식기 대부분의 주요한 구성이 신경망이라 한 번에 학습되며, 프레임 별 음소 정보나 발음사전 미리 생성해줄 필요 없다는 장점.
이러한 E2E 음성인식은 크게 CTC, Transducer, AED(Attention based Encoder Decoder) 3개로 나뉨.

CTC는 blank 출력과 다대일 매핑 함수인 β function 을 이용해 긴 시계열 입력에서 짧은 단어열 출력을 생성

Transducer는 CTC와 유사하게 β function 을 이용해 가변 길이 처리를 진행하면서 forward backward 알고리즘을 통해 학습됨.
AED와 유사하게 encoder와 decoder인 predictor의 joint network로 구성되어 있고, 자기 회기(auto regressive)적인 특징을 가지고 있음.

AED는 Encoder, Attention, Decoder로 구성되어 있으며 attention module을 이용해 입출력 간 시계열 길이 변화를 모델링.
이전의 음성 인식 모델과 다르게 단조함수(monotonic)의 특성과 출력 간 조건부 독립을 가정하지 않음으로써 높은 성능을 보임.
자기 회기 모델로 이전 time step의 출력이 다음 time step의 입력으로 사용됨 - 출력 간의 dependency 모델링 가능.

최근에는 E2E 음성 인식기가 추가적인 '외부 LM' 없이도 좋은 성능을 보임

높은 representation learning 능력을 바탕으로
이러한 E2E 방식은 context dependency가 사후분포에 직접 포함되어, 음성인식기가 '내부 LM"을 암묵적으로 학습한다고 볼 수 있음.

End-to-End 음성인식

언어모델(language model; LM) : 일련의 단어열에 대해 확률을 결정하는 기술
- 즉, 앞서 등장한 단어열을 고려하여 뒤에 이어질 단어의 등장 확률 분포 추정하여, 나왔던 단어열 다음에 어떤 단어가 뒤에 나와야 문장이 더 자연스러운지 확률적으로 추정
음성인식기는 크게 GMM-HMM, E2E 음성인식기 두 가지로 나뉨.

End-to-End 음성인식

이전 HMM 기반 하이브리드 음성 인식은 학습을 위해 프레임 별 음소 정보가 필요하다는 한계점.
CTC(Connectionist Temporal Classification)나 attention과 같이 기존 GMM-HMM 모델을 이용해 alignment 생성과정 없이 학습되는 E2E 음성 인식의 경우,

Reference

Kakao AI Report "음성 인식을 위한 최신 언어 모델 리뷰" - 강지훈