본문 바로가기

음성인식5

음성인식 기초개념 이 글은 에 참가하여 정리한 내용입니다. Seq-to-Seq Models for Speech Recognition 1) RNN (Long Short-Term Memory) Converting a fixed length vector to a sequence forget, input, output gate 3개의 gate 사용 input cell의 dimension과 output dimension 같음 : start of sentence 임의의 길이의 sequence input이 들어가도 output으로는 fixed length가 나옴. 2014년 RNN기반 encoder-decoder 모델 나옴 Shared Encoder/Decoder model 인코더 없이 디코더만도 가능 Issues with RNN e.. 2023. 4. 19.
음성인식을 위한 최신 언어 모델 <2> 이 글은 Kakao AI Report 의 일부 "음성인식을 위한 최신 언어 모델 리뷰"를 보고 정리한 글입니다. End-to-End 음성인식 언어모델(language model; LM) : 일련의 단어열에 대해 확률을 결정하는 기술 즉, 앞서 등장한 단어열을 고려하여 뒤에 이어질 단어의 등장 확률 분포 추정하여, 나왔던 단어열 다음에 어떤 단어가 뒤에 나와야 문장이 더 자연스러운지 확률적으로 추정 음성인식기는 크게 GMM-HMM, E2E 음성인식기 두 가지로 나뉨. End-to-End 음성인식 이전 HMM 기반 하이브리드 음성 인식은 학습을 위해 프레임 별 음소 정보가 필요하다는 한계점. CTC(Connectionist Temporal Classification)나 attention과 같이 기존 GMM-.. 2023. 4. 10.
음성인식을 위한 최신 언어 모델 <1> 이 글은 Kakao AI Report 의 일부 "음성인식을 위한 최신 언어 모델 리뷰"를 보고 정리한 글입니다. 언어모델이란? 언어모델(language model; LM) : 일련의 단어열에 대해 확률을 결정하는 기술 즉, 앞서 등장한 단어열을 고려하여 뒤에 이어질 단어의 등장 확률 분포 추정하여, 나왔던 단어열 다음에 어떤 단어가 뒤에 나와야 문장이 더 자연스러운지 확률적으로 추정 다음 단어를 추론하고 '생성'하기 때문에 text generation 이라고도 불림. ex) '오 필승' 단어열 관측, 다음 단어 예측하는데 있어 '코리아' 라는 단어 나타날 확률이 높을 것이고, 가장 자연스러운 단어열일 것임 자연스러운 단어열을 찾아야하는 특성 상 2가지 특징 가짐. context-dependent : 이전.. 2023. 4. 6.
음성인식(Speech recognition) 이란? 음성인식이란? - 음성인식이란 기계로 하여금 인간의 말소리를 인식하고 그 결과를 문자로 출력해주는 시스템 ex) "나 지금 학교에 왔어" 라고 인간이 말했을 때 기계는 이 음성을 분석하여 인식 과정을 거친 뒤 최종적으로 "나 지금 학교에 왔어" 라는 음성인식 결과를 문자 형태로 적어줌 - 음성인식 기술 --> 대표적으로 애플의 시리, 삼성의 빅스비 - 인간의 말소리를 이해하기 위해 사용됨 음성인식 구현 * 인간이 언어를 배우고 인식하는 과정 먼저 이해해보기 - 영어를 이제껏 한 번도 들어본 적 없고 써본 적 없다고 가정했을 때, 영어 문장을 들려줬을 때 그것이 무슨 문장이었는지를 글로 써서 제출해야 하는 과제 - 영어를 전혀 못하는데 영어를 듣고 문장으로 받아쓰기 막막 --> 먼저 영어라는 음성에 대해 .. 2022. 3. 4.
2021 한국음성학회 가을 학술대회 리뷰 (2) 2021.11.19-20 에 진행된 한국음성학회 가을 학술대회 발표를 듣고 리뷰를 남깁니다. 1. 특강 - "AI 시대, 음성학의 방향" - 남호성 교수님(고려대) - 상반기 주요 그룹, 대기업 공채 합격자 중 이공계 출신 비율이 매우 높음 - 4차 산업 혁명 : 융합의 시대. 여러 사람들이 한번에 모여있다고 융합이 일어나는 것이 아니다. 한 사람의 머릿 속에 심리학, 언어학, 수학, 전자공학, 물리학, 전산학 등등이 다양하게 있어서 융합적인 생각이 일어나는 것임. - 언어학이 엄청나게 융합적인 학문 --> 화학시간에 물질 - 원자 - 원자핵,전자 - 원자핵은 양성자,중성자 - 쿼크 --> 이런식으로 쪼갤 수 있는 것처럼.. --> '나는 학생이다' 문장 - '나는/ 학생이다' 어절 - '나/는/ 학생/.. 2021. 12. 4.