이 글은 ETRI 박전규 박사님의 언어교육 성과 특강 강의를 듣고 정리한 글입니다.
언어 모델링 (Language Modeling) - language prediction
- 한 단어 다음에 어떤 단어가 나올지 예측하는 것이 언어 모델(LM).
- 역시 중요한 것은 학습 데이터.
- 학습 데이터에 잘 나타나지 않은 단어들은?
- balance의 문제 : "the" 라는 단어가 "loom" 같은 특정 단어보다 많이 나옴
- 이런 balance 의 문제도 잘 다뤄야 함.
- Different domains, different distributions
- 4시 15분이 아닌, 4:15 같은 표현.
- 신조어
- 의학, 법학 - 도메인별 단어 또 다 다름
- 따라서 language model 도 그 때 그 때 fine-tuning 이 필요할 수 있음.
- 문맥이 예측을 돕는다.
- 카네기.. ? - 홀, 멜론
- 이게 GPT 같은 사전학습모델에서 중요한 이슈.
전통적인 모델은 n-gram models
- 지구 상에 이론적으로 존재하는 모든 텍스트 시퀀스를 표현할 방법이 없으니까 이것을 통계적으로 모델링.
- n-gram models : unigram, bigram, trigram, n-gram
- unigram : single word 기반 특정 단어 나올 확률
- bigram : 두 단어가 동시에 나올 확률; 특정 sequence 두 개가 동시에 나올 확률
- 예를 들어 5만 단어를 trigrams 으로 표현한다면 어마어마한 함수가 나옴.
- 못함.. 모든 텍스트 시퀀스 반영할 수 없어서 통계적 확률 모델 쓰는 것.
- 5만 단어의 경우, 대략 40 테라의 trigrams 으로 표현하면 가능.
- 이런것들도 변수가 됨.
- limit vocabulary < 1M
- make them all UPPER CASE : Upper, uPper, upPer, uppEr, uppeR --> UPPER
- 모델에선 위 5개를 다 다르게 인식하기 때문에 같은 "UPPER"로 normalization
- remove punctuation <-- people don't say punctuation
- have a "unknown word" token --> replace all low frequency words with UNK
- collapse similar word --> all numbers to NUM, call cities to CITY : NUM과 CITY 가 일종의 class 를 반영하도록.
- 이런식으로 언어모델의 perplexity를 확 줄이기
GPT
- 2022년 기준 가장 진보된 언어 알고리즘이 GPT-3.
- 현재 시대에서 가장 똑똑한 인공지능이 GPT라고 할 수 있음.
- 언어 모델이 단지 텍스트 시퀀스만 예측하는 것이 아니라 사칙연산도 하고 글도 쓰고 소설도 쓰고 하는 일이 많음.
- GPT-3는 기사도 작성하고, 두 자리 수 덧셈도 잘하고, 컴퓨터 프로그램도 잘 짬.
- 연산을 학습시킨 적도 없고, 그냥 대규모 언어뭉치 던져줬더니 사칙연산도 잘 하는 것임.
- 버전이 1년마다 공개되고 있음.
- version 1 : Improving language understanding by GPT : self-supervision
- task-specific fine tuning, 1.1B
- version 2 : Language Models are unsupervised multitask learners
- zero-shot task learning, 15B
- version 3 : Language Models are few-shot learners
- few-shot learning, 175B
- Extras : Dialog GPT, Instruct GPT
NLP에서 다루는 문제
- A, B 문장이 얼마나 유사하냐
- Q&A : 위키피디아 article 하나 던져주고 질문 주고 풀기
Reference
- 2022.06.02 ETRI 언어교육 성과 특강 (ETRI 박전규 박사님)
'Spoken Language Processing' 카테고리의 다른 글
음성인식을 위한 최신 언어 모델 <1> (0) | 2023.04.06 |
---|---|
음성특징벡터와 스펙트로그램 (0) | 2023.04.06 |
SINCNET 음성 feature 추출 (1) - FIR필터 (0) | 2023.02.28 |
wav2vec 2.0 기초개념 정리 (1) | 2023.02.16 |
Speech self-supervised learning (음성 자기지도학습) (0) | 2023.02.16 |
댓글