End-to-End ASR : Attention vs RNN-T

Spoken Language Processing

End-to-End ASR : Attention vs RNN-T

햇농nongnong 2022. 8. 4. 20:05

음성인식(ASR) 이란?

사용자의 발화를 입력으로 받아 음성인식을 거친 후 텍스트로 전사하는 과정
음성인식
- 사용자의 발화(발음적인 신호 자체에 대한 확률들) = acoustic model
- 발화 자체가 있을 법한 문장인가 = language model

위의 두가지 확률들을 합쳐서, 사용자가 발화를 했을 때 그것이 어떤 말인지 가장 있을 법한 텍스트를 추론하는 것

End-to-End(E2E) ASR

기존 음성인식 모델링

입력 음성을 음소 단위로 mapping
음소 단위를 다시 텍스트로 전사하기 위해 수 많은 과정을 거쳐야 함
이렇게 매우 복잡하기 때문에 진입장벽이 매우 높은 분야 중 하나였음

End-to-End(E2E) 로의 전환

기존 방식에서는 음성을 phoneme(음소)으로 모델링 했음
E2E 에서는 입력 음성을 직접적인 텍스트로 전사한다는 장점
- 모델링 과정이 굉장히 축약됨
- 기존 방법에 비해 모델링 방법이 단순해졌음

E2E 기법 : Attention vs RNN-T

(출처 : https://www.youtube.com/watch?v=0YoA3TN4sO4)

Attention

x1 ~ xT : 시간에 따른 음성에 대한 feature
일정 양의 시간에 따른 음성 입력을 받아서 인코딩한 후 attention을 거치고 디코딩을 해서 lu(캐릭터) 텍스트로 전사

RNN-T

attention 과 가장 큰 차이점 : xt 를 입력으로 받음
즉, 실시간 음성을 받아서 그에 맞는 텍스트를 출력함

Attention vs RNN-T

가장 큰 차이점
- Attention : 음성 feature 를 시간에 따라서 다 모아두고 그 다음 처리하는 배치 방식
- RNN-T : 실시간으로 음성을 받을 때마다 처리하는 스트리밍 방식
따라서, attention 이 정확도에서는 더 우수함
- attention 은 일정 부분 음성을 다 받고 처리하기 때문에 문맥 정보의 측면에서 장점이 있음
delay 측면에서는 음성을 다 받고 처리하는 batch 방식인 attention 이 streaming 방식의 RNN-T 보다 느림

Reference

https://www.youtube.com/watch?v=0YoA3TN4sO4https://www.youtube.com/watch?v=dxtJ8QivMTg