이 글은 Interspeech 2019 Survey Talks 의 Multi-modal processing of speech and language (Metze) 강연을 듣고 정리한 노트이다.
Interspeech 2019 Survey Talks
– Multi-modal processing of speech and language (Metze)
이 강연에서는 음성 언어를 multi-modal 로 처리했을 때에 대해 설명하고, multi-modality를 시스템 수준, 인간 수준, AI 수준으로 구분했다.
먼저 multimodal learning은 인간이 정보 학습을 위해 다양한 감각 기관으로부터 수집되는 데이터로 학습하는 것처럼, 컴퓨터도 이 인지적 학습법을 모방하여 다양한 형태의 데이터로 학습하는 방법이다.
이러한 멀티 모달리티 학습법은 전통적인 관점으로는 오류를 수정하거나 중복성을 제거하기 위해 사용했다.
노이즈가 있는 상황에서 single-modal 일 때는 오류가 발생하기 쉽기 때문에, 다른 modalities를 통해 정보를 복구하고 수정해야 한다는 것이다. 인간 수준의 멀티 모달리티 학습법은 grounding과 context이다. 서로 다른 modalities 의 요소들이 일치하는지 결정하기 위해 예전에는 hard-coding 방식을 사용했었지만, 이제는 context와 grounding을 이용하여 혼합해야한다. 매우 다른 형태의 정보를 융합하기 위해서 features, states 정도의 수준을 합치는 것이 아니라, “shared representations” 을 학습해야 한다.
Multi-modal representation learning에서 grounding 을 위한 첫번째 단계는 shared representations을 학습하는 것이다. CUAVE audio-visual digits 데이터로 실험했을 때 visual speech classification 성능을 비교해보면, 영상만 사용했을 때 가장 성능이 좋았고, bi-modal을 사용했을 때도 좋은 성능이 나왔다.
Audio-visual speech classification 의 성능을 비교해보면, audio와 video를 합쳤을 때, 즉 bi-modal deep auto encoder을 사용했을 때 더 향상된 결과를 가져왔다. 오디오와 영상의 연속, 즉 bi-modality였을 때 두 가지를 합친 특성이 하나의 특성을 보완해 줄 수 있다는 것이다. 분산 표현을 위해 임베딩을 사용할 수 있는데, 임베딩 공간에서 물체들 사이의 유사성을 계산할 수 있다. 어떤 것이든 벡터로 변환할 수 있기 때문에, 단어나 문맥, 하위 단어까지도 임베딩을 계산할 수 있다. 초기에는 신경 언어 모델을 사용하여 임베딩을 계산하기도 했고, 현재는 음향에 대한 단어 모델을 훈련시키고 최종 레이어에서 임베딩을 학습시켜, 삼중 손실을 이용하여 텍스트의 임베딩을 근사화한다.
여기서 중요한 것은 서로 다른 양식인 오디오와 텍스트를 조합하면 인식에 도움이 되는데, 과연 ‘의미적’ 수준에서 융합을 진행할 수 있느냐이다. 의미적 임베딩은 ImageNet으로 추출한 임베딩을 사용한다. 전통적인 audio-visual ASR은 스피커의 입 움직임을 기반으로 하기 때문에 오디오 프레임과 비디오 프레임 간의 동기화가 필요하다. 오픈 도메인 이미지/영상에서는 입 정보를 사용할 수 없기 때문에 의미적 정보가 유용할 수 있다. AI 수준에서의 멀티모달리티는 자율적인 학습이다. 워드 임베딩 아이디어를 이미지 및 오디오 시퀀스로 확장시키고, correspondences를 localize할 수 있도록 학습 패러다임을 배우는 것이다.
이 강연을 통해 멀티모달리티에 대해 알게되었고, 특징 차원이 다른 데이터를 동시에 학습시키기 위한 아이디어도 얻을 수 있었다. 그리고 다른 양식의 데이터를 이용하기 위해서는 각 데이터의 특성을 잘 통합해야 한다는 것도 알게 되었고, 임베딩을 사용하여 데이터 차원의 통합을 할 수 있고, 특성이 같은 데이터로 추출할 수 있다는 것을 배울 수 있었다. 싱글 모달보다 다중 모달을 적용하여 데이터를 통합하면 더 좋은 성능을 내는 실험들을 보고 multi-modality에 대해 더 흥미가 생길 수 있었고, 이러한 방식이 사람의 인지학습법의 과정에서 기인했다는 사실처럼, 사람의 인지 학습법을 더 연구해서 multi-modal 학습을 더 잘 이해하고 싶다는 생각이 들었다.
'Spoken Language Processing' 카테고리의 다른 글
Fairseq - Wav2vec 2.0 Pretraining (1) 입력 데이터 준비하기 (0) | 2022.05.27 |
---|---|
Fairseq 란? (0) | 2022.05.27 |
Biosignal Processing for Human-Machine Interaction (Tanja Schultz) - Interspeech 2019 Keynote Talks (0) | 2022.04.22 |
음성언어처리, 인간의 청지각과정, 베이즈정리, HMM 에 대하여 (0) | 2022.03.10 |
한국어 음성인식에 대해서 (0) | 2022.03.10 |
댓글