Spoken Language Processing

비원어민 음성인식 및 발음평가 (한국어 발음 교육)

햇농nongnong 2023. 1. 15. 16:39

비원어민 음성인식 및 발음 평가


 

 

  • 유창성이 떨어지고 문법/표현 오류가 포함된 비원어민 발성에 강인한 음성인식 기술
    • 결국은 데이터. 최대한 많은 비원어민의 잘못된 음성, fluency 낮은 음성을 가지고 학습해야함.
    • 어휘적 문제, 음향적 문제 포함된 다양한 측면의 데이터를 최대한 많이 수집해서 모델링해야함.
    • 이게 비원어민 음성인식의 목표.
  • human expert와 machine score 간의 correlation 을 최대화하는 발음 유창성 평가 기술
    • 발음 평가 : 기계가 못함. 결국은 사람들이 잘 만들어낸 지식을 활용해야 함.
    • 한국인이 /p/, /f/ 구분 잘 못하는데 이걸 어떻게 잘 구분해서 유창성 떨어지는걸 표시할까를 고민
    • human rater, 음성학자들이 이러한 지식을 잘 만들어 놓아야 함.
    • 우리는 그 지식에 근거해서 거기에 따른 기계 학습을 돌려야 함.
    • 아래 그림의 human rater 아래 (feature calculation, feature filtererer, speech recognition) 부분이 E-rater(machine-rater)임.
    • 결국 발음 평가는 아래 그림처럼, speech 가 주어졌을 때 human rater 가 다양한 지식을 고려해서 analytic+holistic scores 제공. (해당 음성은 100점 만점에 70점.. 이렇게)
    • 공학적 접근 : 우리는 speech를 통해 feature calculation, feature filtererer, speech recognition 등을 통해 파라미터를 뽑아서 --> "features" --> 결국 human rater 의 score를 잘 따라가도록 기계학습 하는 것. 
    • 음성인식도 중요함. 
      • feature calculation, speech recognition 으로부터 나온 feature를 적절하게 조합해서 (feature filterer) --> features(LLD)
      • 인간 score 잘 따라가도록 하는게 비원어민 발음평가의 핵심
      • 이렇게 잘 따라가도록 머신러닝 모델을 만드는 것이 scoring model.
        • 이 모델 기반으로 새로운 test 비원어민 음성이 왔을 때 사람처럼 잘 평가해주는게 비원어민 발음평가의 핵심.
  • 결국은 데이터가 제일 중요
    • human rating을 위한 데이터도 매우 중요함.

 

 

 

 

AI 음성인식 기반 한국어 발음 교육


Q) 훈련과 평가는 별개의 문제다.

  • 평가는 학습을 도와주어야 한다? 훈련과 평가는 전혀 별개의 문제다.
    - 발음 교육을 위한 학습 : 원어민의 발음을 모델로 해서 교육시키고 싶음.
    - 실제 학습자들에 대한 평가 : 원어민 발음을 기대하는 것은 불합리
      기계로 평가를 해야 한다면, 외국인 중에서 제일 말을 잘하는 사람을 모델링해서 넣어야 하는 것 아닌가?
  • 발음 교육의 목표를 우선으로 한다면 사실 비원어민 입장에서는 점수를 매기면서 평가를 해야 함.
    - 소프트웨어가 학습자와 대화를 나누면서 학습자의 말을 듣고 피드백을 주어야 함. 
    - 교육을 할 때는 이러한 상호작용이 중요함. 
  • 비원어민 발화는 정말 다양하고 모어의 배경에 따라서 다른 특성을 보임. 
    - 따라서 상호작용이 필요하다. 모범 답안의 발음을 그대로 해야한다 가 아니라, 모어가 다 다른 비원어민들과 상호작용을 하는 발음 교육용 음성인식기 구축을 위해서 비원어민 발화로 만들어진 한국어 모델이 필요한 것이다. 

 

발음평가 소프트웨어 평가

  • 한국인의 영어 발음 / 중국인의 영어 발음. 다 어떻게 각각 평가하는 것이 바람직할까? 비원어민 입장 평가 기준은 전문가들도 사람마다 의견이 다름. 그 기준이 제각각.
  • 발음 평가 소프트웨어 평가에 있어서는 원래 원어민 발음을 기준으로 하는 것이 주류. 비원어민 발음 모델을 가지고 발음을 평가하는 경우는 없었음. 
  • 하지만 상호작용 하는 발음평가용 음성인식기를 위해서는 각각의 모어 백그라운드에 따라 나타나는 여러 발음 phone에 대해서 모델을 다 만들어 음성인식기를 개발할 필요가 있다고 생각함. 
  • 언어학자, 음성학자 등의 전문가들의 역할이 특히 크다고 볼 수 있음.
  • 러시아인들의 한국어 발화를 예로 들면, 이런이런 특성이 나타나고 그런 것들이 다른 모어 백그라운드 사람들과 다르기 때문에 나타나는 다른 오류 유형들을 체크. 
  • 이런 가이드라인이 나와야 데이터를 보고 계산모델을 더 유효하게 할 수 있음. 

 

평가가 학습을 도와주는 것은 당연한 얘기

  • 훈련과 평가가 전혀 별개의 문제라고 한 것은, 소프트웨어 개발 입장에서 배경에 숨어있는 기술이 다르다는 것. 
  • comprehensibility 전달력에 대해서 평가를 하는 것은 굉장히 issue가 될 수 있는 어려운 문제임.
  • comprehensibility 에 대해서 인간 전문가들도 consensus 를 만들기가 쉽지 않음.
  • ETS speechrater 평가에 있어서 80개의 기계적인 특징들이 있었음.
  • 하지만 이 기계적인 특징들은 사람이 이해할 수 없는 파라미터들임. 머신러닝 알고리즘은 사람들이 이해할 수 있는 특징들로 comprehensibility를 평가하는 것이 아니라, 사람이 보기에는 전혀 이해할 수 없는 머신러닝 파라미터들로 comprehensibility를 계산함. 그래서 이런 이해 불가능한 학습 과정과 평가는 기술이 다르다는 것.
  • comprehensiblity를 정의하기는 힘들지만, 인간 전문가가 실제로 많은 데이터를 가지고 comprehensibility 에 대한 점수를 내면, 그 점수와 상관관계가 높도록 따라갈 수 있는 머신러닝 알고리즘을 개발해서 거의 비슷하게 점수를 낼 수 있음. 
  • 거기에 숨어있는 기준은 전혀 받아들일 수 없을 수도 있음. (머신러닝 알고리즘 파라미터는 우리가 모르니까)
  • 전통적인 방법인 지식기반 방법에서는 그나마 기준들이 뚜렷하게 나타나고 어느정도는 이해할 수 있는 부분들이 있었음.
  • 하지만 최근 10여년 주류를 이루는 딥러닝 기반의 neural network은 특히 E2E approach가 가장 좋은 성능을 내는데, 이 기술은 인풋과 아웃풋만 주고 내부에서 알아서 학습하기 때문에 블랙박스임.
  • 실제로 어떤 기준을 가지고 유사한 좋은 점수가 나왔는지 설명할 수 없음.
  • 그래서 설명가능한 AI 를 연구해야하는 것임.
  • comprehensibility 에 대해서도 역시 딥러닝 기반으로 모델링을 해서 비슷하게 점수를 내도 설명할 수 없는 기술의 한계가 있음.

 

말하기 평가에서의 전달력

  • 발음평가와 말하기평가는 다름.
  • 말하기 평가에서의 전달력은 분절음, 초분절음 등 발음평가가 위주로 들어가는 것임.

 

 

 Reference

  • 2022.06.02 ETRI 언어교육 성과 특강 (ETRI 박전규 박사님)
  • 2022 세계 한국어 한마당 "한국어 발음 교육의 미래를 말하다 - AI 음성인식 기술에 기반한 한국어 발음 교육의 현재와 미래"