Spoken Language Processing
음성인식(ASR)의 과정과 기본 구조
햇농nongnong
2022. 6. 3. 12:20
이 글은 ETRI 박전규 박사님의 언어교육 성과 특강 강의를 듣고 정리한 글입니다.
음성인식의 기본 구조
- 위 사진은 음성인식의 가장 기본적인 설계구조
- 음성인식, 음성합성 모두 acoustic model 이 존재
- 전통적인 방식으로는 HMM 모델 사용 - Acoustic model : '소리'를 다루는 것 - speech 음성 자체를 이용해 통계자료로 모델링해서 만든 모델
- 음소, 아 / 에 / 이 / 오 / 우 등을 다루는 것 - Language model : '텍스트'를 이용해 모델링 - 형태소, 어절 등의 통계적인 접속 정보 / 어휘의 쓰임새를 모델링
- Vocabulary dictionary : 발음사전. 요즘 음성인식 트렌드에서는 발음사전 거의 안씀.
- but 여전히 최신 트렌드에서 acoustic, language model 은 쓰고 있음 - 전통적인 모델 - 음향모델 언어모델 발음사전 - 이 세개의 knowledge source 를 이용해서 음성인식
- 그래서 speech signal 을 word sequence 로 표현.
- 따라서 음성인식을 search & decoding 이라고 표현할 수도 있음.
- 파형이 들어오면 word sequence 로 변환하는 것이 음성인식의 아주 일반적인 process
음성인식의 과정
- 10ms 씩 advance 해서 20-25ms 분량의 frame 을 얻고 거기서 feature 추출
- 그럼 frame-based feature (every 10ms) 가 나오게 됨
- 위 feature 을 기반으로 landmark estimation 진행
- landmark : 음소열 경계 (phonetic boundary)
- landmark estimation : segmental 기반 방법론에서 음소열 경계를 찾는 단계를 'landmark estimation' 이라고 함
- landmark estimation 을 통해 phone boundary 찾기 - 이렇게 phone boundary 가 결정되면 각각 어떤 음소가 그 boundary 에 드는지 mapping
- 이 단계가 '음소인식'
- 이 단계부터 classification 이 들어가는 것. 이 전까지는 다 signal processing 의 영역
- 'Model classification' 단계 부터가 음성인식 시작.
- 음성인식의 가장 하위 단위인 음소인식 - pattern classification 을 통해서 - 음소인식 후 그 음소의 sequence 를 봐서 이게 어떤 단어다 하고 추정
Reference
- 2022.06.02 ETRI 언어교육 성과 특강 (ETRI 박전규 박사님)