반응형 Spoken Language Processing34 Wav2Vec2.0 임베딩을 활용한 자동 발음 평가, 그리고 임베딩 분석 (논문소개) 지난 글에서는 음성 데이터를 Wav2Vec2.0 모델에 입력했을 때, 음성이 어떤 과정을 거쳐 임베딩 벡터로 바꾸는지를 정리했습니다. 이번 글에서는 그 임베딩 벡터를 활용해서 어떻게 자동발음평가 모델을 만들고, 실제로 점수를 예측할 수 있는지 정리해봅니다.End-to-End 자동 발음 평가 전체 구조 요약 Wav2Vec2.0 모델과 같은 self-supervised 모델은 파인튜닝을 통해 발음 평가 모델로 사용할 수 있다.음성 입력을 모델에 넣으면 점수가 output으로 산출되는 end-to-end 자동 발음 평가 모델 전체 구조는 다음과 같다: 1. 음성 입력 → Wav2Vec2.0 → (T, 1024)의 임베딩 시퀀스 생성2. time step마다 나온 벡터들을 평균 (mean pooling) → (.. 2025. 6. 15. 음성 raw waveform에서 Wav2Vec2.0모델의 임베딩 벡터로 변환하는 과정 음성 데이터를 처음 다뤘을 때 raw waveform이 어떻게 Wav2Vec2.0 모델에 들어가서 벡터로 변환되는지, 길이가 다른 발화들은 어떻게 처리되는지 궁금했던 부분을 정리해보았습니다. 입력 : raw waveform Wav2Vec2.0 모델은 전통적인 feature extraction 없이 raw audio waveform을 입력으로 받아, 음향적 특성과 의미적 정보를 담은 고차원 임베딩으로 변환하는 self-supervised 음성 표현 학습 모델이다.음성은 샘플링을 통해 소리를 일정 시간마다 잘라서 숫자로 바꿀 수 있다.보통 샘플링 레이트는 16kHz로, 1초당 16,000개의 숫자로 구성된 벡터를 통해 해당 구간의 소리를 표현한다.예를 들어, 3초짜리 음성이 있다면 16,000 x 3 = .. 2025. 6. 15. 음성인식 기초개념 이 글은 에 참가하여 정리한 내용입니다. Seq-to-Seq Models for Speech Recognition 1) RNN (Long Short-Term Memory) Converting a fixed length vector to a sequence forget, input, output gate 3개의 gate 사용 input cell의 dimension과 output dimension 같음 : start of sentence 임의의 길이의 sequence input이 들어가도 output으로는 fixed length가 나옴. 2014년 RNN기반 encoder-decoder 모델 나옴 Shared Encoder/Decoder model 인코더 없이 디코더만도 가능 Issues with RNN e.. 2023. 4. 19. 음성인식을 위한 최신 언어 모델 <2> 이 글은 Kakao AI Report 의 일부 "음성인식을 위한 최신 언어 모델 리뷰"를 보고 정리한 글입니다. End-to-End 음성인식 언어모델(language model; LM) : 일련의 단어열에 대해 확률을 결정하는 기술 즉, 앞서 등장한 단어열을 고려하여 뒤에 이어질 단어의 등장 확률 분포 추정하여, 나왔던 단어열 다음에 어떤 단어가 뒤에 나와야 문장이 더 자연스러운지 확률적으로 추정 음성인식기는 크게 GMM-HMM, E2E 음성인식기 두 가지로 나뉨. End-to-End 음성인식 이전 HMM 기반 하이브리드 음성 인식은 학습을 위해 프레임 별 음소 정보가 필요하다는 한계점. CTC(Connectionist Temporal Classification)나 attention과 같이 기존 GMM-.. 2023. 4. 10. 음성인식을 위한 최신 언어 모델 <1> 이 글은 Kakao AI Report 의 일부 "음성인식을 위한 최신 언어 모델 리뷰"를 보고 정리한 글입니다. 언어모델이란? 언어모델(language model; LM) : 일련의 단어열에 대해 확률을 결정하는 기술 즉, 앞서 등장한 단어열을 고려하여 뒤에 이어질 단어의 등장 확률 분포 추정하여, 나왔던 단어열 다음에 어떤 단어가 뒤에 나와야 문장이 더 자연스러운지 확률적으로 추정 다음 단어를 추론하고 '생성'하기 때문에 text generation 이라고도 불림. ex) '오 필승' 단어열 관측, 다음 단어 예측하는데 있어 '코리아' 라는 단어 나타날 확률이 높을 것이고, 가장 자연스러운 단어열일 것임 자연스러운 단어열을 찾아야하는 특성 상 2가지 특징 가짐. context-dependent : 이전.. 2023. 4. 6. 음성특징벡터와 스펙트로그램 이 글은 Kakao AI Report 의 일부 "커스텀 음성 합성 : 한문장 녹음으로 내 목소리 만들기"를 보고 정리한 글입니다. 음성 특징 벡터 음성합성에서의 음성특징벡터 음성 특징벡터 (feature vector) : 텍스트에서 음성으로 변환할 때 곧바로 사람들이 이해하는 음성으로 변환하지 않고, 변환 과정 중 효율적인 음성 정보 표현을 생성. 이를 음성 특징벡터라고 함. 텍스트를 입력받아 음성 특징 벡터를 출력하는 모듈이 음향 모델(acoustic model) 음성 특징 벡터의 역할 음성에 들어있는 정보(발음 종류, 성별, 음색, 높이)는 음성 신호 자체에서 쉽게 얻어낼 수 없고, 수학적인 신호 처리 거쳐서 추출. 이 정보를 추출하기 위해서는 주파수 관점에서 관측해야 함. 주파수 : 신호가 1초에 .. 2023. 4. 6. GPT 언어모델과 언어모델링에 대해서 이 글은 ETRI 박전규 박사님의 언어교육 성과 특강 강의를 듣고 정리한 글입니다. 언어 모델링 (Language Modeling) - language prediction 한 단어 다음에 어떤 단어가 나올지 예측하는 것이 언어 모델(LM). 역시 중요한 것은 학습 데이터. 학습 데이터에 잘 나타나지 않은 단어들은? balance의 문제 : "the" 라는 단어가 "loom" 같은 특정 단어보다 많이 나옴 이런 balance 의 문제도 잘 다뤄야 함. Different domains, different distributions 4시 15분이 아닌, 4:15 같은 표현. 신조어 의학, 법학 - 도메인별 단어 또 다 다름 따라서 language model 도 그 때 그 때 fine-tuning 이 필요할 수 .. 2023. 3. 21. SINCNET 음성 feature 추출 (1) - FIR필터 FIR필터 filtering (필터링) : 측정된 신호를 처리하고 그 중에서 필요 성분만 추출해내는 것 filter (필터) : 위의 필터링 처리를 하는 장치 또는 소자 디지털 필터 : 특정 성질의 결과를 얻기 위해서 이산 신호를 처리하는 알고리즘 및 장치 필터처리 : 입력신호에서 입력신호에 포함되어 있는 원하는 정보만을 추출하여 출력신호로 내보내는 과정 임펄스 응답 특성에 따라서 크게 FIR / IIR 필터로 분류 FIR (Finite Impulse Infinite Response, 유한충격응답) 필터 신호처리 분야에서 널리 사용되고 있는 필터 비순환형 입력신호의 일정한(유한한, finite) 값들만을 가지고 필터링 수행 따라서 필터의 특성함수인 임펄스 응답을 구해보면 유한한 길이 위상 - 선형 다양한.. 2023. 2. 28. wav2vec 2.0 기초개념 정리 self-supervised learning (자기지도학습) - 라벨이 없는 데이터를 이용하여 자기 자신의 특성(representation)을 배우는 학습 방법 - 라벨링된 데이터가 부족한 분야에서는 딥러닝이 큰 성능 보이지 못하고 있는데, self-supervised learning을 적용한 pre-trained 모델이 있다면 fine tuning 을 이용해 데이터가 적은 분야에서도 성능향상을 가져올 수 있음. - 전통적인 음성인식 모델들은 전사된 annotated speech audio 에 의해 주로 훈련됨 - 좋은 시스템은 많은 양의 annotated 데이터를 필요로하는데, 이 것은 몇몇 언어에서만 가능함 - 자기지도학습이 unannotated data 을 활용하여 좋은 시스템 만드는 방법을 제공함.. 2023. 2. 16. Speech self-supervised learning (음성 자기지도학습) Speech self-supervised learning Learning task-agnostic representation using unlabeled speech data 레이블이 없는 음성 데이터로부터 태스크와 무관한 rerpesentation 을 학습하는 과정 그 이후, fine-tuning with task-specific labeled speech data (ex. ASR, speaker verification...) 화자인식이나 음성인식의 데이터셋(labeled speech data)을 통해 fine-tuning 진행 suppose that learned general representation helps other speech-related tasks 사전학습한 일반적인 음성 represe.. 2023. 2. 16. 이전 1 2 3 4 다음 반응형