Spoken Language Processing

End-to-End ASR : Attention vs RNN-T

햇농nongnong 2022. 8. 4. 20:05

음성인식(ASR) 이란?


  • 사용자의 발화를 입력으로 받아 음성인식을 거친 후 텍스트로 전사하는 과정
  • 음성인식
    - 사용자의 발화(발음적인 신호 자체에 대한 확률들) = acoustic model
    - 발화 자체가 있을 법한 문장인가 = language model

 

 

 위의 두가지 확률들을 합쳐서, 사용자가 발화를 했을 때 그것이 어떤 말인지 가장 있을 법한 텍스트를 추론하는 것

 

 

End-to-End(E2E) ASR


기존 음성인식 모델링

  • 입력 음성을 음소 단위로 mapping
  • 음소 단위를 다시 텍스트로 전사하기 위해 수 많은 과정을 거쳐야 함
  • 이렇게 매우 복잡하기 때문에 진입장벽이 매우 높은 분야 중 하나였음

 

End-to-End(E2E) 로의 전환

  • 기존 방식에서는 음성을 phoneme(음소)으로 모델링 했음
  • E2E 에서는 입력 음성을 직접적인 텍스트로 전사한다는 장점
    - 모델링 과정이 굉장히 축약됨
    - 기존 방법에 비해 모델링 방법이 단순해졌음

 

E2E 기법 : Attention vs RNN-T


(출처 : https://www.youtube.com/watch?v=0YoA3TN4sO4)

 

Attention

  • x1 ~ xT : 시간에 따른 음성에 대한 feature
  • 일정 양의 시간에 따른 음성 입력을 받아서 인코딩한 후 attention을 거치고 디코딩을 해서 lu(캐릭터) 텍스트로 전사

 

RNN-T

  • attention 과 가장 큰 차이점 : xt 를 입력으로 받음
  • 즉, 실시간 음성을 받아서 그에 맞는 텍스트를 출력함

 

Attention vs RNN-T

  • 가장 큰 차이점
    - Attention : 음성 feature 를 시간에 따라서 다 모아두고 그 다음 처리하는 배치 방식
    - RNN-T : 실시간으로 음성을 받을 때마다 처리하는 스트리밍 방식
  • 따라서, attention 이 정확도에서는 더 우수함
    - attention 은 일정 부분 음성을 다 받고 처리하기 때문에 문맥 정보의 측면에서 장점이 있음
  • delay 측면에서는 음성을 다 받고 처리하는 batch 방식인 attentionstreaming 방식의 RNN-T 보다 느림

 

 

 

 

 Reference