음성인식(ASR)의 과정과 기본 구조

Spoken Language Processing

햇농nongnong 2022. 6. 3. 12:20

이 글은 ETRI 박전규 박사님의 언어교육 성과 특강 강의를 듣고 정리한 글입니다.

위 사진은 음성인식의 가장 기본적인 설계구조
음성인식, 음성합성 모두 acoustic model 이 존재
- 전통적인 방식으로는 HMM 모델 사용
Acoustic model : '소리'를 다루는 것 - speech 음성 자체를 이용해 통계자료로 모델링해서 만든 모델
- 음소, 아 / 에 / 이 / 오 / 우 등을 다루는 것
Language model : '텍스트'를 이용해 모델링 - 형태소, 어절 등의 통계적인 접속 정보 / 어휘의 쓰임새를 모델링
Vocabulary dictionary : 발음사전. 요즘 음성인식 트렌드에서는 발음사전 거의 안씀.
- but 여전히 최신 트렌드에서 acoustic, language model 은 쓰고 있음
전통적인 모델 - 음향모델 언어모델 발음사전 - 이 세개의 knowledge source 를 이용해서 음성인식
그래서 speech signal 을 word sequence 로 표현.
따라서 음성인식을 search & decoding 이라고 표현할 수도 있음.
파형이 들어오면 word sequence 로 변환하는 것이 음성인식의 아주 일반적인 process

10ms 씩 advance 해서 20-25ms 분량의 frame 을 얻고 거기서 feature 추출
그럼 frame-based feature (every 10ms) 가 나오게 됨
위 feature 을 기반으로 landmark estimation 진행
- landmark : 음소열 경계 (phonetic boundary)
- landmark estimation : segmental 기반 방법론에서 음소열 경계를 찾는 단계를 'landmark estimation' 이라고 함
- landmark estimation 을 통해 phone boundary 찾기
이렇게 phone boundary 가 결정되면 각각 어떤 음소가 그 boundary 에 드는지 mapping
- 이 단계가 '음소인식'
- 이 단계부터 classification 이 들어가는 것. 이 전까지는 다 signal processing 의 영역
- 'Model classification' 단계 부터가 음성인식 시작.
- 음성인식의 가장 하위 단위인 음소인식 - pattern classification 을 통해서
음소인식 후 그 음소의 sequence 를 봐서 이게 어떤 단어다 하고 추정