반응형 Spoken Language Processing33 LLM - Large Language Models에 대해서 (OpenAI 특강) (1) 연구자들이 가져야 할 자세, 언어모델 구조 기초 이 글은 OpenAI의 정형원 박사님의 ChatGPT Large Language Model 강연을 정리한 글입니다. 먼저, 학자들이 갖춰야 할 자세에 대해 좋은 말씀을 해주셔서 정리해보았습니다. Perspecive of "yet" This idea does not work --> This idea does not work yet we are used to operating in an environment where underlying axioms do not change. 과학 실험에서도 지금 안되는 것 3년 후 30년 후 안되는 것 알고 있을 때가 있다. --> underlying axioms 언어모델에서도 이러한 axioms? = the most capable model now. GPT4가 나왔을 때.. 2023. 9. 7. 음성인식 기초개념 이 글은 에 참가하여 정리한 내용입니다. Seq-to-Seq Models for Speech Recognition 1) RNN (Long Short-Term Memory) Converting a fixed length vector to a sequence forget, input, output gate 3개의 gate 사용 input cell의 dimension과 output dimension 같음 : start of sentence 임의의 길이의 sequence input이 들어가도 output으로는 fixed length가 나옴. 2014년 RNN기반 encoder-decoder 모델 나옴 Shared Encoder/Decoder model 인코더 없이 디코더만도 가능 Issues with RNN e.. 2023. 4. 19. 음성인식을 위한 최신 언어 모델 <2> 이 글은 Kakao AI Report 의 일부 "음성인식을 위한 최신 언어 모델 리뷰"를 보고 정리한 글입니다. End-to-End 음성인식 언어모델(language model; LM) : 일련의 단어열에 대해 확률을 결정하는 기술 즉, 앞서 등장한 단어열을 고려하여 뒤에 이어질 단어의 등장 확률 분포 추정하여, 나왔던 단어열 다음에 어떤 단어가 뒤에 나와야 문장이 더 자연스러운지 확률적으로 추정 음성인식기는 크게 GMM-HMM, E2E 음성인식기 두 가지로 나뉨. End-to-End 음성인식 이전 HMM 기반 하이브리드 음성 인식은 학습을 위해 프레임 별 음소 정보가 필요하다는 한계점. CTC(Connectionist Temporal Classification)나 attention과 같이 기존 GMM-.. 2023. 4. 10. 음성인식을 위한 최신 언어 모델 <1> 이 글은 Kakao AI Report 의 일부 "음성인식을 위한 최신 언어 모델 리뷰"를 보고 정리한 글입니다. 언어모델이란? 언어모델(language model; LM) : 일련의 단어열에 대해 확률을 결정하는 기술 즉, 앞서 등장한 단어열을 고려하여 뒤에 이어질 단어의 등장 확률 분포 추정하여, 나왔던 단어열 다음에 어떤 단어가 뒤에 나와야 문장이 더 자연스러운지 확률적으로 추정 다음 단어를 추론하고 '생성'하기 때문에 text generation 이라고도 불림. ex) '오 필승' 단어열 관측, 다음 단어 예측하는데 있어 '코리아' 라는 단어 나타날 확률이 높을 것이고, 가장 자연스러운 단어열일 것임 자연스러운 단어열을 찾아야하는 특성 상 2가지 특징 가짐. context-dependent : 이전.. 2023. 4. 6. 음성특징벡터와 스펙트로그램 이 글은 Kakao AI Report 의 일부 "커스텀 음성 합성 : 한문장 녹음으로 내 목소리 만들기"를 보고 정리한 글입니다. 음성 특징 벡터 음성합성에서의 음성특징벡터 음성 특징벡터 (feature vector) : 텍스트에서 음성으로 변환할 때 곧바로 사람들이 이해하는 음성으로 변환하지 않고, 변환 과정 중 효율적인 음성 정보 표현을 생성. 이를 음성 특징벡터라고 함. 텍스트를 입력받아 음성 특징 벡터를 출력하는 모듈이 음향 모델(acoustic model) 음성 특징 벡터의 역할 음성에 들어있는 정보(발음 종류, 성별, 음색, 높이)는 음성 신호 자체에서 쉽게 얻어낼 수 없고, 수학적인 신호 처리 거쳐서 추출. 이 정보를 추출하기 위해서는 주파수 관점에서 관측해야 함. 주파수 : 신호가 1초에 .. 2023. 4. 6. GPT 언어모델과 언어모델링에 대해서 이 글은 ETRI 박전규 박사님의 언어교육 성과 특강 강의를 듣고 정리한 글입니다. 언어 모델링 (Language Modeling) - language prediction 한 단어 다음에 어떤 단어가 나올지 예측하는 것이 언어 모델(LM). 역시 중요한 것은 학습 데이터. 학습 데이터에 잘 나타나지 않은 단어들은? balance의 문제 : "the" 라는 단어가 "loom" 같은 특정 단어보다 많이 나옴 이런 balance 의 문제도 잘 다뤄야 함. Different domains, different distributions 4시 15분이 아닌, 4:15 같은 표현. 신조어 의학, 법학 - 도메인별 단어 또 다 다름 따라서 language model 도 그 때 그 때 fine-tuning 이 필요할 수 .. 2023. 3. 21. SINCNET 음성 feature 추출 (1) - FIR필터 FIR필터 filtering (필터링) : 측정된 신호를 처리하고 그 중에서 필요 성분만 추출해내는 것 filter (필터) : 위의 필터링 처리를 하는 장치 또는 소자 디지털 필터 : 특정 성질의 결과를 얻기 위해서 이산 신호를 처리하는 알고리즘 및 장치 필터처리 : 입력신호에서 입력신호에 포함되어 있는 원하는 정보만을 추출하여 출력신호로 내보내는 과정 임펄스 응답 특성에 따라서 크게 FIR / IIR 필터로 분류 FIR (Finite Impulse Infinite Response, 유한충격응답) 필터 신호처리 분야에서 널리 사용되고 있는 필터 비순환형 입력신호의 일정한(유한한, finite) 값들만을 가지고 필터링 수행 따라서 필터의 특성함수인 임펄스 응답을 구해보면 유한한 길이 위상 - 선형 다양한.. 2023. 2. 28. wav2vec 2.0 기초개념 정리 self-supervised learning (자기지도학습) - 라벨이 없는 데이터를 이용하여 자기 자신의 특성(representation)을 배우는 학습 방법 - 라벨링된 데이터가 부족한 분야에서는 딥러닝이 큰 성능 보이지 못하고 있는데, self-supervised learning을 적용한 pre-trained 모델이 있다면 fine tuning 을 이용해 데이터가 적은 분야에서도 성능향상을 가져올 수 있음. - 전통적인 음성인식 모델들은 전사된 annotated speech audio 에 의해 주로 훈련됨 - 좋은 시스템은 많은 양의 annotated 데이터를 필요로하는데, 이 것은 몇몇 언어에서만 가능함 - 자기지도학습이 unannotated data 을 활용하여 좋은 시스템 만드는 방법을 제공함.. 2023. 2. 16. Speech self-supervised learning (음성 자기지도학습) Speech self-supervised learning Learning task-agnostic representation using unlabeled speech data 레이블이 없는 음성 데이터로부터 태스크와 무관한 rerpesentation 을 학습하는 과정 그 이후, fine-tuning with task-specific labeled speech data (ex. ASR, speaker verification...) 화자인식이나 음성인식의 데이터셋(labeled speech data)을 통해 fine-tuning 진행 suppose that learned general representation helps other speech-related tasks 사전학습한 일반적인 음성 represe.. 2023. 2. 16. 딥러닝 언어모델과 확률적 앵무새 - 2023 서울대학교 AI 연구원 겨울 콜로퀴움 리뷰 2023 서울대학교 AI 연구원 겨울 콜로퀴움 송상헌 교수님의 "딥러닝 언어모델과 확률적 앵무새" 강연을 듣고 리뷰를 남깁니다. 확률적 앵무새 (Stochastic Parrots) 메타인지 인공지능 언어모델은 자연 언어에 대한 실질적인 이해(understanding)를 하고 있는 것이 아니라 단순히 확률에 기반하여 단어의 조합을 결과값으로 반환(return)한다는 점에서 확률적 앵무새. 소통 가능성 (communicability) : 학습 데이터의 문제, 모라베크의 역설, 아스퍼커 증후군(행간의 의미), 맥락 지식(항진 명제) 세계에 대한 지식과 경험을 패턴화 데이터 간섭 현상 사람은 한두번만으로도 대상에 대한 패턴 정보를 얻는 것이 가능 컴퓨터는 충분한 양의 데이터를 통해서 학습을 해야 함. 메타인지 .. 2023. 2. 3. 이전 1 2 3 4 다음 반응형