음성인식 기초개념

Spoken Language Processing

햇농nongnong 2023. 4. 19. 16:37

이 글은 <2023 서울대학교 사범대학 의료빅데이터연구센터 합동 콜로키엄> 에 참가하여 정리한 내용입니다.

1) RNN (Long Short-Term Memory)

Converting a fixed length vector to a sequence

Shared Encoder/Decoder model

Issues with RNN encoder decoder

1) Conventional ASR system vs Neural End-to-End ASR system

conventional ASR system --> E2E system

acoustic한 sequence 를 text 로 바꾸는 과정

Motivation of Attention

인코더 디코더 내에서도 쿼리, 키, value 이용해서 self-attention 하면 성능 잘 나옴.
쿼리 벡터 가지고 키 시퀀스 가지고 correlation 구함
Q, K 관계 구하고 합이 1이 되는 weight 구하고 value 와 곱해서 output
key, value 는 항상 값이 같고, Q, K, V 가 다 같으면 self-attention, q만 디코더면 attention
인코더-디코더 approach는 speech의 경우에 language model 하나 더 붙여서 auto regressive 하게 transducer 구조
- lstm 대신에 self-attention
- 트랜스포머에서 convolution 하면 conformer
어텐션인코더디코더보다 트랜스포머가 레이턴시에서 더 좋음
어텐션인코더디코더 - monotonic chunkwise attention
- 어텐션을 두 단계로. 한단계에서는 어텐션이 하드하게 어텐딩하는 점을 찾고, 그 점 기준 chunk 가정하고
- chunk 내에서는 soft attending 하는 두 단계로.
- 전체 context 다 할 수는 없고, 특정 window 를 정해서 해당 부분만 attention
- 그럼 먼 과거, 미래 정보 알 수 없어서, 그런 정보를 일종의 state 로 저장해서 그 state 와 self-attention

Large-scale Language Model

디코더 구조 기반 인코딩, 디코딩 다 함.
코드 적용한 code 다빈치 나옴. (모델 가장 큰게 다빈치. 더 작으면 에이다.. 등등) - 텍스트 다빈치 - 코드 다빈치 업데이트
- fine-tuning. 강화학습 통해서 성능 고도화 - chatGPT
- 처음에는 pretraining 만 시켰음 (텍스트 기반 토큰으로 다음 토큰 prediction

2023.04.19 <2023 서울대학교 사범대학 의료빅데이터연구센터 합동 콜로키엄>
Sequence-to-Sequence Models for Machine Translation, Speech Recognition, and Large-Scale Generative Language Model - 삼성리서치 김찬우 부사장님