kaldi CSID (substitution, insertion, deletion) 발음 오류 패턴 분석, wer 계산
2022 AI 학습 데이터 활용 해커톤에 참여하게 되면서 외국인 학습자들의 한국어 발음 분석을 해보았다. 외국인의 한국어 발화 데이터를 활용하여 권역별(국가별) 발음 오류 패턴을 비교 분석하는 과제이고, 최종적으로 Chinese, Spanish, English L1 학습자의 한국어 발음 오류 패턴을 제시하였다. 발음 오류 패턴 분석을 위하여 CSID (correct, substitution, deletion, insertion) 오류를 사용함 위의 CSID 를 구하기 위해 칼디 툴킷을 사용함 ref 와 hyp 파일 만들기 CSID 발음 오류 패턴 분석은 정답 음소열과 음소인식기를 돌린 결과 음소열을 일대일 대응시켜 해당 자리에 정답 음소열이 있는지 비교하는 것임 Substitution 치환, Deleti..
2022. 11. 17.