GPT 언어모델과 언어모델링에 대해서

이 글은 ETRI 박전규 박사님의 언어교육 성과 특강 강의를 듣고 정리한 글입니다.

한 단어 다음에 어떤 단어가 나올지 예측하는 것이 언어 모델(LM).
역시 중요한 것은 학습 데이터.
학습 데이터에 잘 나타나지 않은 단어들은?
- balance의 문제 : "the" 라는 단어가 "loom" 같은 특정 단어보다 많이 나옴
- 이런 balance 의 문제도 잘 다뤄야 함.
Different domains, different distributions
- 4시 15분이 아닌, 4:15 같은 표현.
- 신조어
- 의학, 법학 - 도메인별 단어 또 다 다름
- 따라서 language model 도 그 때 그 때 fine-tuning 이 필요할 수 있음.
문맥이 예측을 돕는다.
- 카네기.. ? - 홀, 멜론
- 이게 GPT 같은 사전학습모델에서 중요한 이슈.

전통적인 모델은 n-gram models

2022년 기준 가장 진보된 언어 알고리즘이 GPT-3.
현재 시대에서 가장 똑똑한 인공지능이 GPT라고 할 수 있음.
언어 모델이 단지 텍스트 시퀀스만 예측하는 것이 아니라 사칙연산도 하고 글도 쓰고 소설도 쓰고 하는 일이 많음.
GPT-3는 기사도 작성하고, 두 자리 수 덧셈도 잘하고, 컴퓨터 프로그램도 잘 짬.
- 연산을 학습시킨 적도 없고, 그냥 대규모 언어뭉치 던져줬더니 사칙연산도 잘 하는 것임.
버전이 1년마다 공개되고 있음.
version 1 : Improving language understanding by GPT : self-supervision
- task-specific fine tuning, 1.1B
version 2 : Language Models are unsupervised multitask learners
- zero-shot task learning, 15B
version 3 : Language Models are few-shot learners
- few-shot learning, 175B
Extras : Dialog GPT, Instruct GPT

NLP에서 다루는 문제

음성인식을 위한 최신 언어 모델 <1> (0)	2023.04.06
음성특징벡터와 스펙트로그램 (0)	2023.04.06
SINCNET 음성 feature 추출 (1) - FIR필터 (0)	2023.02.28
wav2vec 2.0 기초개념 정리 (1)	2023.02.16
Speech self-supervised learning (음성 자기지도학습) (0)	2023.02.16

nongdevlog