RNN-T1 End-to-End ASR : Attention vs RNN-T 음성인식(ASR) 이란? 사용자의 발화를 입력으로 받아 음성인식을 거친 후 텍스트로 전사하는 과정 음성인식 - 사용자의 발화(발음적인 신호 자체에 대한 확률들) = acoustic model - 발화 자체가 있을 법한 문장인가 = language model 위의 두가지 확률들을 합쳐서, 사용자가 발화를 했을 때 그것이 어떤 말인지 가장 있을 법한 텍스트를 추론하는 것 End-to-End(E2E) ASR 기존 음성인식 모델링 입력 음성을 음소 단위로 mapping 음소 단위를 다시 텍스트로 전사하기 위해 수 많은 과정을 거쳐야 함 이렇게 매우 복잡하기 때문에 진입장벽이 매우 높은 분야 중 하나였음 End-to-End(E2E) 로의 전환 기존 방식에서는 음성을 phoneme(음소)으로 모델링 했음 E2E 에.. 2022. 8. 4. 이전 1 다음