비원어민 음성인식 및 발음평가 (한국어 발음 교육)

Spoken Language Processing

비원어민 음성인식 및 발음평가 (한국어 발음 교육)

햇농nongnong 2023. 1. 15. 16:39

비원어민 음성인식 및 발음 평가

유창성이 떨어지고 문법/표현 오류가 포함된 비원어민 발성에 강인한 음성인식 기술
- 결국은 데이터. 최대한 많은 비원어민의 잘못된 음성, fluency 낮은 음성을 가지고 학습해야함.
- 어휘적 문제, 음향적 문제 포함된 다양한 측면의 데이터를 최대한 많이 수집해서 모델링해야함.
- 이게 비원어민 음성인식의 목표.
human expert와 machine score 간의 correlation 을 최대화하는 발음 유창성 평가 기술
- 발음 평가 : 기계가 못함. 결국은 사람들이 잘 만들어낸 지식을 활용해야 함.
- 한국인이 /p/, /f/ 구분 잘 못하는데 이걸 어떻게 잘 구분해서 유창성 떨어지는걸 표시할까를 고민
- human rater, 음성학자들이 이러한 지식을 잘 만들어 놓아야 함.
- 우리는 그 지식에 근거해서 거기에 따른 기계 학습을 돌려야 함.
- 아래 그림의 human rater 아래 (feature calculation, feature filtererer, speech recognition) 부분이 E-rater(machine-rater)임.
- 결국 발음 평가는 아래 그림처럼, speech 가 주어졌을 때 human rater 가 다양한 지식을 고려해서 analytic+holistic scores 제공. (해당 음성은 100점 만점에 70점.. 이렇게)
- 공학적 접근 : 우리는 speech를 통해 feature calculation, feature filtererer, speech recognition 등을 통해 파라미터를 뽑아서 --> "features" --> 결국 human rater 의 score를 잘 따라가도록 기계학습 하는 것.
- 음성인식도 중요함.
  - feature calculation, speech recognition 으로부터 나온 feature를 적절하게 조합해서 (feature filterer) --> features(LLD)
  - 인간 score 잘 따라가도록 하는게 비원어민 발음평가의 핵심
  - 이렇게 잘 따라가도록 머신러닝 모델을 만드는 것이 scoring model.
    - 이 모델 기반으로 새로운 test 비원어민 음성이 왔을 때 사람처럼 잘 평가해주는게 비원어민 발음평가의 핵심.
결국은 데이터가 제일 중요
- human rating을 위한 데이터도 매우 중요함.

AI 음성인식 기반 한국어 발음 교육

Q) 훈련과 평가는 별개의 문제다.

평가는 학습을 도와주어야 한다? 훈련과 평가는 전혀 별개의 문제다.
- 발음 교육을 위한 학습 : 원어민의 발음을 모델로 해서 교육시키고 싶음.
- 실제 학습자들에 대한 평가 : 원어민 발음을 기대하는 것은 불합리
기계로 평가를 해야 한다면, 외국인 중에서 제일 말을 잘하는 사람을 모델링해서 넣어야 하는 것 아닌가?
발음 교육의 목표를 우선으로 한다면 사실 비원어민 입장에서는 점수를 매기면서 평가를 해야 함.
- 소프트웨어가 학습자와 대화를 나누면서 학습자의 말을 듣고 피드백을 주어야 함.
- 교육을 할 때는 이러한 상호작용이 중요함.
비원어민 발화는 정말 다양하고 모어의 배경에 따라서 다른 특성을 보임.
- 따라서 상호작용이 필요하다. 모범 답안의 발음을 그대로 해야한다 가 아니라, 모어가 다 다른 비원어민들과 상호작용을 하는 발음 교육용 음성인식기 구축을 위해서 비원어민 발화로 만들어진 한국어 모델이 필요한 것이다.

발음평가 소프트웨어 평가

한국인의 영어 발음 / 중국인의 영어 발음. 다 어떻게 각각 평가하는 것이 바람직할까? 비원어민 입장 평가 기준은 전문가들도 사람마다 의견이 다름. 그 기준이 제각각.
발음 평가 소프트웨어 평가에 있어서는 원래 원어민 발음을 기준으로 하는 것이 주류. 비원어민 발음 모델을 가지고 발음을 평가하는 경우는 없었음.
하지만 상호작용 하는 발음평가용 음성인식기를 위해서는 각각의 모어 백그라운드에 따라 나타나는 여러 발음 phone에 대해서 모델을 다 만들어 음성인식기를 개발할 필요가 있다고 생각함.
언어학자, 음성학자 등의 전문가들의 역할이 특히 크다고 볼 수 있음.
러시아인들의 한국어 발화를 예로 들면, 이런이런 특성이 나타나고 그런 것들이 다른 모어 백그라운드 사람들과 다르기 때문에 나타나는 다른 오류 유형들을 체크.
이런 가이드라인이 나와야 데이터를 보고 계산모델을 더 유효하게 할 수 있음.

평가가 학습을 도와주는 것은 당연한 얘기

훈련과 평가가 전혀 별개의 문제라고 한 것은, 소프트웨어 개발 입장에서 배경에 숨어있는 기술이 다르다는 것.
comprehensibility 전달력에 대해서 평가를 하는 것은 굉장히 issue가 될 수 있는 어려운 문제임.
comprehensibility 에 대해서 인간 전문가들도 consensus 를 만들기가 쉽지 않음.
ETS speechrater 평가에 있어서 80개의 기계적인 특징들이 있었음.
하지만 이 기계적인 특징들은 사람이 이해할 수 없는 파라미터들임. 머신러닝 알고리즘은 사람들이 이해할 수 있는 특징들로 comprehensibility를 평가하는 것이 아니라, 사람이 보기에는 전혀 이해할 수 없는 머신러닝 파라미터들로 comprehensibility를 계산함. 그래서 이런 이해 불가능한 학습 과정과 평가는 기술이 다르다는 것.
comprehensiblity를 정의하기는 힘들지만, 인간 전문가가 실제로 많은 데이터를 가지고 comprehensibility 에 대한 점수를 내면, 그 점수와 상관관계가 높도록 따라갈 수 있는 머신러닝 알고리즘을 개발해서 거의 비슷하게 점수를 낼 수 있음.
거기에 숨어있는 기준은 전혀 받아들일 수 없을 수도 있음. (머신러닝 알고리즘 파라미터는 우리가 모르니까)
전통적인 방법인 지식기반 방법에서는 그나마 기준들이 뚜렷하게 나타나고 어느정도는 이해할 수 있는 부분들이 있었음.
하지만 최근 10여년 주류를 이루는 딥러닝 기반의 neural network은 특히 E2E approach가 가장 좋은 성능을 내는데, 이 기술은 인풋과 아웃풋만 주고 내부에서 알아서 학습하기 때문에 블랙박스임.
실제로 어떤 기준을 가지고 유사한 좋은 점수가 나왔는지 설명할 수 없음.
그래서 설명가능한 AI 를 연구해야하는 것임.
comprehensibility 에 대해서도 역시 딥러닝 기반으로 모델링을 해서 비슷하게 점수를 내도 설명할 수 없는 기술의 한계가 있음.

말하기 평가에서의 전달력

발음평가와 말하기평가는 다름.
말하기 평가에서의 전달력은 분절음, 초분절음 등 발음평가가 위주로 들어가는 것임.

Reference

2022.06.02 ETRI 언어교육 성과 특강 (ETRI 박전규 박사님)
2022 세계 한국어 한마당 "한국어 발음 교육의 미래를 말하다 - AI 음성인식 기술에 기반한 한국어 발음 교육의 현재와 미래"