Spoken Language Processing

음성인식(ASR)의 과정과 기본 구조

햇농nongnong 2022. 6. 3. 12:20

이 글은 ETRI 박전규 박사님의 언어교육 성과 특강 강의를 듣고 정리한 글입니다.

 

 

음성인식의 기본 구조


  • 위 사진은 음성인식의 가장 기본적인 설계구조
  • 음성인식, 음성합성 모두 acoustic model 이 존재
    - 전통적인 방식으로는 HMM 모델 사용
  • Acoustic model : '소리'를 다루는 것 - speech 음성 자체를 이용해 통계자료로 모델링해서 만든 모델
    - 음소, 아 / 에 / 이 / 오 / 우 등을 다루는 것
  • Language model : '텍스트'를 이용해 모델링 - 형태소, 어절 등의 통계적인 접속 정보 / 어휘의 쓰임새를 모델링
  • Vocabulary dictionary : 발음사전. 요즘 음성인식 트렌드에서는 발음사전 거의 안씀.
    - but 여전히 최신 트렌드에서 acoustic, language model 은 쓰고 있음
  • 전통적인 모델 - 음향모델 언어모델 발음사전 - 이 세개의 knowledge source 를 이용해서 음성인식
  • 그래서 speech signal 을 word sequence 로 표현.
  • 따라서 음성인식을 search & decoding 이라고 표현할 수도 있음.
  • 파형이 들어오면 word sequence 로 변환하는 것이 음성인식의 아주 일반적인 process

 

 

음성인식의 과정


 

 

  1. 10ms 씩 advance 해서 20-25ms 분량의 frame 을 얻고 거기서 feature 추출
  2. 그럼 frame-based feature (every 10ms) 가 나오게 됨
  3. 위 feature 을 기반으로 landmark estimation 진행
    - landmark : 음소열 경계 (phonetic boundary)
    - landmark estimation : segmental 기반 방법론에서 음소열 경계를 찾는 단계를 'landmark estimation' 이라고 함
    - landmark estimation 을 통해 phone boundary 찾기
  4. 이렇게 phone boundary 가 결정되면 각각 어떤 음소가 그 boundary 에 드는지 mapping
    - 이 단계가 '음소인식'
    - 이 단계부터 classification 이 들어가는 것. 이 전까지는 다 signal processing 의 영역
    - 'Model classification' 단계 부터가 음성인식 시작.
    - 음성인식의 가장 하위 단위인 음소인식 - pattern classification 을 통해서
  5. 음소인식 후 그 음소의 sequence 를 봐서 이게 어떤 단어다 하고 추정

 

 

 

 

 

 Reference

  • 2022.06.02 ETRI 언어교육 성과 특강 (ETRI 박전규 박사님)