fairseq4 Fairseq - Wav2vec 2.0 Pretraining (2) Preprocess 전처리하기 CLI 툴킷을 사용해 새 모델 학습시켜보기 2. Preprocess - vocabulary 파일 생성하기 fairseq에 내장된 fairseq-preprocess 명령어 또는 'libri_labels.py' 파이썬 파일을 통해 전처리 할 수 있음 4개의 파일 : 'dict.ltr.txt', 'train.tsv', 'train.wrd', 'train.ltr' fairseq 장점 : 메모리가 넉넉해서 훈련 잘 됨 (huggingface 에서 했을 때 잘 안되었던 것 fairseq 로 잘됨) - huggingface 는 캐시메모리 폴더를 만들고 거기에 저장 - 용량 차지 많이 함 - 따라서 하드 메모리 부족하기도 함 --> cuda out of memory... 에러메세지 많이 뜸 --> huggingface.. 2022. 6. 14. Fairseq - Wav2vec 2.0 Pretraining (1) 입력 데이터 준비하기 Wav2vec 2.0 - wav2vec 2.0 은 speech representation 의 self-suprvised learning 을 위한 프레임워크이고, 레이블이 없는 데이터에 대한 음성 표현을 학습한다. (wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations (Baevski et al., 2020) - wav2vec 2.0 XLSR 모델은 다국어를 위해 사전 훈련된 모델이다. - 다국어 사전훈련을 위해 MLS : Multilingual LibriSpeech (8 languages, 50.7k hours), CommonVoice (36 languages, 3.6k hours), Babel (17 languag.. 2022. 5. 27. Fairseq 란? Fairseq - 기계번역을 위해서 페이스북에서 개발한 모델 - 원래 기계번역 분야에서는 RNN 이 주로 사용되었고, 최근에는 CNN 을 시퀀스 처리에 사용함 - Fairseq 는 CNN 과 Attention 을 사용해 기계번역에서 state-of-the-art 갱신함 - CNN 을 통해 전체 문맥을 한꺼번에 봄 + 단어를 하나씩 처리하는 RNN 보다 더 효율적으로 GPU 를 사용 - 구글의 Neural Machine Translation 과 비교했을 때 더 성능이 높음 - NVidia K40 GPU 에서 9.3 배 빠름, GTX-1080ti 에서 21배 빠름 - 영어-프랑스어, 영어-독일어, 영어-루마니아어에 대한 pre-trained 모델 github 에 공개 Reference https://tens.. 2022. 5. 27. Fairseq로 기계번역기 만들기 기계번역 소스언어를 타겟언어로 번역하는 프로그램 단순하게 data mapping 하는 문제 + 자연어는 생략과 중의성이 많아 컴퓨터가 이해하기 어렵, 표현도 많아서 훨씬 더 복잡한 문제 + 언어마다 다른 특징 기계번역은 NLP 에서 어려운 task 에 속함 예전에는 기계번역기 만들 때 많은 resource + 복잡한 규칙 + 많은 통계규칙들 다 활용하여 여러 개의 모듈들을 따로 만들어 합침 but 최근에 데이터 많아지고 + 딥러닝 등장 = 하나의 모듈에서 모든 일을 처리하는 방식으로 바뀜 예전보다는 상대적으로 쉽게 개발 가능 준비물 1 - 오픈소스 : Fairseq 기계번역을 위한 여러 오픈 소스 존재 그 중 facebook 에서 만든 fairseq WMT 라는 기계번역 대회에서 fairseq 가 활발하.. 2022. 1. 13. 이전 1 다음