본문 바로가기

paper review8

CNN-RNN-CTC Based End-to-End Mispronunciation Detection and Diagnosis - Leung, W. K., Liu, X., & Meng, H. @ ICASSP 2019 CNN-RNN-CTC Based End-to-End Mispronunciation Detection and Diagnosis - Leung, W. K., Liu, X., & Meng, H. @ ICASSP 2019 논문 리뷰 글입니다. Abstract main point : CNN-RNN-CTC 구조를 가진 모델을 제안 : E2E 모델이 MDD task 에 처음으로 적용된 논문 phonemic, graphemic 정보가 필요 없고, forced alignment 도 필요없기 때문에 유용하게 사용될 것으로 기대됨 다양한 baseline 모델들의 성능과 비교한 결과 - F1 measure 에서 다 이김 Model Relative Increase Extended Recognition Network (ERN) .. 2022. 6. 6.
Phoneme mispronunciation detection by jointly learning to align - Binghuai Lin, Liyuan Wang @ ICASSP 2022 Phoneme mispronunciation detection by jointly learning to align - Binghuai Lin, Liyuan Wang @ ICASSP 2022 논문 리뷰 글입니다. Abstract 주제 : phoneme mispronunciation detection 아이디어 : 발음 오류 탐지를 위해 alignment 도 동시에 같이 학습하겠다. multi task learning 을 통해 phoneme alignment 와 mispronunciation detection 을 같이 최적화하겠다. alignment 를 하기 위해 음성과 텍스트 정보가 필요 - 그리고 이로부터 각각 acoustic representations, canonical phoneme represent.. 2022. 6. 6.
Mixtures of Deep Neural Experts for Automated Speech Scoring - Papi et al. (2020) (Interspeech2020) Mixtures of Deep Neural Experts for Automated Speech Scoring Abstract Task : automatic assessment of second language proficiency - CALL(computer assisted language learning) task 중 하나 - 이 논문의 주제는 second language proficiency 에 대한 자동 평가 - 이 때 다양한 모달리티 중 spoken responses 를 통한 실험 - 뉴럴 네트워크로 여러 experts 를 만들고 이것들을 섞어서 기존의 방법보다 더 좋은 성능을 내려는 노력 - 독일어 이 논문의 접근법의 주요 두가지 모듈 1) an automatic speech recognitio.. 2022. 1. 11.
Multi-domain Knowledge Distillation via Uncertainty-Matching for End-to-End ASR Models - Kim, H. et al. (2021) (3) 앞 게시글에 이어서 Kim, H. et al. (2021) Multi-domain Knowledge Distillation via Uncertainty-Matching for End-to-End ASR Models 논문 리뷰를 이어가겠습니다. 이제 음성인식에 불확실성을 적용해보자면, 음성 인식의 불확실성은 일반적으로 소음 레이블링, 스피커간의 변화, 또는 혼동되는 발음에서 발생합니다. 예를 들어, 그림 1은 ground-truth token 이 주어졌을 때, 왼쪽 토큰 수준 class 확률과 오른쪽aleatoric 불확실성 인식 결과를 보여주는데, - 입력 발음에 모호한 발음이 있을 경우, 인식 결과는 HEAR 과 HOR 사이의 혼동 발음 오류를 보여줍니다. 또 모델은 HEAR 토큰에서 낮은 클래스 확률.. 2021. 11. 16.
Multi-domain Knowledge Distillation via Uncertainty-Matching for End-to-End ASR Models - Kim, H. et al. (2021) (2) 앞 게시글에 이어서 Kim, H. et al. (2021) Multi-domain Knowledge Distillation via Uncertainty-Matching for End-to-End ASR Models 논문 리뷰를 이어가겠습니다. 본 논문이 제안하는 방법론인 KD와 uncertainty 중 지식 증류에 대해 먼저 살펴보겠습니다. E2E ASR 에 지식 증류를 적용하기 위해 기존 KD 처럼 두가지 loss function 을 사용합니다. 먼저 첫번째 loss 를 살펴보겠습니다. 먼저 E2E ASR은 시퀀스 라벨링 작업으로서, 입력 토큰 s 를 가지고 negative log likelihood 를 최소화하여 출력 t 를 예측하는데, 여기서 yi 는 대상 텍스트의 i번째 ground truth 이.. 2021. 11. 16.
Multi-domain Knowledge Distillation via Uncertainty-Matching for End-to-End ASR Models - Kim, H. et al. (2021) (1) Kim, H. et al. (2021) Multi-domain Knowledge Distillation via Uncertainty-Matching for End-to-End ASR Models 논문 리뷰입니다. Multi-domain Knowledge Distillation via Uncertainty-Matching for End-to-End ASR Models ( End-to-End ASR 모델을 위한 불확실성 매칭을 통한 다중 도메인 지식 증류) 논문에 대해 설명드리기 전에, 먼저 본 논문에서 사용한 방법론에서 핵심인 두 가지 개념에 대해 짚고 넘어가려고 합니다. 본 논문에서는 uncertainty와 knowledge distillation 을 다루고 있는데, 먼저 uncertainty에 대해 간.. 2021. 11. 16.
Learning Compositional Rules via Neural Program Synthesis - Maxwell, I. et al. (2020) 논문 Learning Compositional Rules via Neural Program Synthesis - Maxwell, I. et al. (2020) 리뷰를 해보겠다. arxiv.org/abs/2003.05562 앞의 논문에서 다뤘던 SCAN 문제에 대해 neuro-symbolic approach 로 해결한 방법론에 대해 설명해보겠다. 인간은 적은 예로부터 체계적인 규칙을 배우고, 이 규칙들을 결합하여 compositional rule-based systems (구성적인 규칙 기반 시스템)을 형성한다. 반면, 현재의 neural architecture 은 training 과 체계적으로 .. 2021. 2. 4.
Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks - Brenden, L. et al. (2018) 논문 Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks - Brenden, L. et al. (2018) 리뷰를 해보겠다. https://arxiv.org/abs/1711.00350 Compositional generalization 의 benchmark 문제인 SCAN task 에 대한 논문이고, 주로 SCAN 문제에 대해 리뷰해보겠다. Compositional generalization 의 benchmark 문제인 SCAN task SCAN 은 간단한 compositional commands 가 해당 액션 시퀀스와 함께 paired 된 데이터 세트이고 이 논.. 2021. 2. 4.