본문 바로가기

asr2

End-to-End ASR : Attention vs RNN-T 음성인식(ASR) 이란? 사용자의 발화를 입력으로 받아 음성인식을 거친 후 텍스트로 전사하는 과정 음성인식 - 사용자의 발화(발음적인 신호 자체에 대한 확률들) = acoustic model - 발화 자체가 있을 법한 문장인가 = language model 위의 두가지 확률들을 합쳐서, 사용자가 발화를 했을 때 그것이 어떤 말인지 가장 있을 법한 텍스트를 추론하는 것 End-to-End(E2E) ASR 기존 음성인식 모델링 입력 음성을 음소 단위로 mapping 음소 단위를 다시 텍스트로 전사하기 위해 수 많은 과정을 거쳐야 함 이렇게 매우 복잡하기 때문에 진입장벽이 매우 높은 분야 중 하나였음 End-to-End(E2E) 로의 전환 기존 방식에서는 음성을 phoneme(음소)으로 모델링 했음 E2E 에.. 2022. 8. 4.
음성인식(Speech recognition) 이란? 음성인식이란? - 음성인식이란 기계로 하여금 인간의 말소리를 인식하고 그 결과를 문자로 출력해주는 시스템 ex) "나 지금 학교에 왔어" 라고 인간이 말했을 때 기계는 이 음성을 분석하여 인식 과정을 거친 뒤 최종적으로 "나 지금 학교에 왔어" 라는 음성인식 결과를 문자 형태로 적어줌 - 음성인식 기술 --> 대표적으로 애플의 시리, 삼성의 빅스비 - 인간의 말소리를 이해하기 위해 사용됨 음성인식 구현 * 인간이 언어를 배우고 인식하는 과정 먼저 이해해보기 - 영어를 이제껏 한 번도 들어본 적 없고 써본 적 없다고 가정했을 때, 영어 문장을 들려줬을 때 그것이 무슨 문장이었는지를 글로 써서 제출해야 하는 과제 - 영어를 전혀 못하는데 영어를 듣고 문장으로 받아쓰기 막막 --> 먼저 영어라는 음성에 대해 .. 2022. 3. 4.