kaldi CSID (substitution, insertion, deletion) 발음 오류 패턴 분석, wer 계산
2022 AI 학습 데이터 활용 해커톤에 참여하게 되면서 외국인 학습자들의 한국어 발음 분석을 해보았다. 외국인의 한국어 발화 데이터를 활용하여 권역별(국가별) 발음 오류 패턴을 비교 분석하는 과제이고, 최종적으로 Chinese, Spanish, English L1 학습자의 한국어 발음 오류 패턴을 제시하였다. 발음 오류 패턴 분석을 위하여 CSID (correct, substitution, deletion, insertion) 오류를 사용함 위의 CSID 를 구하기 위해 칼디 툴킷을 사용함 ref 와 hyp 파일 만들기 CSID 발음 오류 패턴 분석은 정답 음소열과 음소인식기를 돌린 결과 음소열을 일대일 대응시켜 해당 자리에 정답 음소열이 있는지 비교하는 것임 Substitution 치환, Deleti..
2022. 11. 17.
Huggingface 튜토리얼 (1) 기초 개념 소개
Tokenizer Tokenizer 가 매우 중요 결국 문장(글자, 텍스트)를 어떻게 숫자로 잘 바꿀 수 있을까가 관건 그렇게 하기 위해 가장 먼저 해야 할 것 - tokenizer - "학교에 가서 수업을 들었다." = 학교에 / 가서 / 수업을 / 들었다. 나누는 방법 다양함 - 띄어쓰기 단위 / 문자 단위 / subword 단위 - 각각의 장 단점이 있음 "오늘 저녁은 맛있었다." 띄어쓰기 단위 : [오늘, 저녁은, 맛있었다] - 명료, 적용 쉬움 - "맛있다, 맛있어요, 맛있었다" 가 모두 다르게 인식됨, 단어사전이 매우 커짐 문자 단위 : [오, 늘, 저, 녁, 은, 맛, 있, 었, 다] - 각 token 이 의미를 담지 못함 subword 단위 : [오늘, 저녁, 은, 맛있, 었, 다] - 띄..
2022. 9. 15.