본문 바로가기

언어모델4

음성인식을 위한 최신 언어 모델 <2> 이 글은 Kakao AI Report 의 일부 "음성인식을 위한 최신 언어 모델 리뷰"를 보고 정리한 글입니다. End-to-End 음성인식 언어모델(language model; LM) : 일련의 단어열에 대해 확률을 결정하는 기술 즉, 앞서 등장한 단어열을 고려하여 뒤에 이어질 단어의 등장 확률 분포 추정하여, 나왔던 단어열 다음에 어떤 단어가 뒤에 나와야 문장이 더 자연스러운지 확률적으로 추정 음성인식기는 크게 GMM-HMM, E2E 음성인식기 두 가지로 나뉨. End-to-End 음성인식 이전 HMM 기반 하이브리드 음성 인식은 학습을 위해 프레임 별 음소 정보가 필요하다는 한계점. CTC(Connectionist Temporal Classification)나 attention과 같이 기존 GMM-.. 2023. 4. 10.
음성인식을 위한 최신 언어 모델 <1> 이 글은 Kakao AI Report 의 일부 "음성인식을 위한 최신 언어 모델 리뷰"를 보고 정리한 글입니다. 언어모델이란? 언어모델(language model; LM) : 일련의 단어열에 대해 확률을 결정하는 기술 즉, 앞서 등장한 단어열을 고려하여 뒤에 이어질 단어의 등장 확률 분포 추정하여, 나왔던 단어열 다음에 어떤 단어가 뒤에 나와야 문장이 더 자연스러운지 확률적으로 추정 다음 단어를 추론하고 '생성'하기 때문에 text generation 이라고도 불림. ex) '오 필승' 단어열 관측, 다음 단어 예측하는데 있어 '코리아' 라는 단어 나타날 확률이 높을 것이고, 가장 자연스러운 단어열일 것임 자연스러운 단어열을 찾아야하는 특성 상 2가지 특징 가짐. context-dependent : 이전.. 2023. 4. 6.
딥러닝 언어모델과 확률적 앵무새 - 2023 서울대학교 AI 연구원 겨울 콜로퀴움 리뷰 2023 서울대학교 AI 연구원 겨울 콜로퀴움 송상헌 교수님의 "딥러닝 언어모델과 확률적 앵무새" 강연을 듣고 리뷰를 남깁니다. 확률적 앵무새 (Stochastic Parrots) 메타인지 인공지능 언어모델은 자연 언어에 대한 실질적인 이해(understanding)를 하고 있는 것이 아니라 단순히 확률에 기반하여 단어의 조합을 결과값으로 반환(return)한다는 점에서 확률적 앵무새. 소통 가능성 (communicability) : 학습 데이터의 문제, 모라베크의 역설, 아스퍼커 증후군(행간의 의미), 맥락 지식(항진 명제) 세계에 대한 지식과 경험을 패턴화 데이터 간섭 현상 사람은 한두번만으로도 대상에 대한 패턴 정보를 얻는 것이 가능 컴퓨터는 충분한 양의 데이터를 통해서 학습을 해야 함. 메타인지 .. 2023. 2. 3.
음성인식(Speech recognition) 이란? 음성인식이란? - 음성인식이란 기계로 하여금 인간의 말소리를 인식하고 그 결과를 문자로 출력해주는 시스템 ex) "나 지금 학교에 왔어" 라고 인간이 말했을 때 기계는 이 음성을 분석하여 인식 과정을 거친 뒤 최종적으로 "나 지금 학교에 왔어" 라는 음성인식 결과를 문자 형태로 적어줌 - 음성인식 기술 --> 대표적으로 애플의 시리, 삼성의 빅스비 - 인간의 말소리를 이해하기 위해 사용됨 음성인식 구현 * 인간이 언어를 배우고 인식하는 과정 먼저 이해해보기 - 영어를 이제껏 한 번도 들어본 적 없고 써본 적 없다고 가정했을 때, 영어 문장을 들려줬을 때 그것이 무슨 문장이었는지를 글로 써서 제출해야 하는 과제 - 영어를 전혀 못하는데 영어를 듣고 문장으로 받아쓰기 막막 --> 먼저 영어라는 음성에 대해 .. 2022. 3. 4.