딥러닝 언어모델과 확률적 앵무새 - 2023 서울대학교 AI 연구원 겨울 콜로퀴움 리뷰

Spoken Language Processing

딥러닝 언어모델과 확률적 앵무새 - 2023 서울대학교 AI 연구원 겨울 콜로퀴움 리뷰

햇농nongnong 2023. 2. 3. 14:02

2023 서울대학교 AI 연구원 겨울 콜로퀴움 송상헌 교수님의 "딥러닝 언어모델과 확률적 앵무새" 강연을 듣고 리뷰를 남깁니다.

확률적 앵무새 (Stochastic Parrots)

메타인지
인공지능 언어모델은 자연 언어에 대한 실질적인 이해(understanding)를 하고 있는 것이 아니라 단순히 확률에 기반하여 단어의 조합을 결과값으로 반환(return)한다는 점에서 확률적 앵무새.
소통 가능성 (communicability) : 학습 데이터의 문제, 모라베크의 역설, 아스퍼커 증후군(행간의 의미), 맥락 지식(항진 명제)

세계에 대한 지식과 경험을 패턴화

데이터 간섭 현상

사람은 한두번만으로도 대상에 대한 패턴 정보를 얻는 것이 가능
컴퓨터는 충분한 양의 데이터를 통해서 학습을 해야 함.

메타인지

사람은 내가 무엇에 대한 패턴을 만드는지를 의식적으로 인지함.
컴퓨터는 자신이 무엇을 학습하는지를 모르고 수행함.

현황 : Beyond the Imitation Game

benchmark

기준점, 표준점
조사 대상을 여러 가지 방법으로 측정하여 누구라도 인정할 수 있도록 표준화하는 과정

언어 인공지능을 위한 종합시험 : GLUE, SuperGLUE (General Language Understanding Evaluation)
SuperGLUE 는 대규모 언어 모형 평가를 목적으로 공개되었지만, 고작 18개월 만에 평정자의 수행 점수를 넘어섰음.
GPT-3 의 크기를 1,000배에서 10,000배로 키우면 평정자의 수행 점수를 넘어설 것으로 예측됨.
인공지능이 사람의 언어를 뛰어넘은 것인가?
- nope. 아직까지는 섣부르다.
- 앞으로의 언어 인공지능의 발전을 위해서는 이 이상의 것을 생각해야 한다. <beyond the imitation game>
Imitation Game(Turing test의 원래 이름)
- 이 시기를 넘어가면 사람을 단순히 imitation 하는 것이 아닌 새로운 평가 체계가 필요.
- 차세대의 평가 체계가 필요한 것이 2022년, 2023년 현재의 상황

최근의 흐름

자연언어를 컴퓨터로 하여금 이해하고 처리하게 만드는 이전 시기 전산언어학과 무엇이 다른가? 방식만 조금 개선된 것이지 않은가?
딥러닝 언어모델이 인간의 점수를 상회하고 있는 상황에서, 더 이상 무엇을 해 볼 수 있는가?

표층 이상의 것

(똑똑한) 사람을 흉내내기(intelligence) : 수학 풀이, 체스, 원소기호
행간의 의미 (언어로 포장된 것) : 상식
상식 (common sense) : 사람들이 보통 알고 있거나 알아야 하는 지식. 일반적 견문과 함께 이해력, 판단력, 사리 분별. 특정 사회의 구성원이 특별한 교육을 거치지 않고도 암묵적으로 공유하고 있는 지식체계
- 이런 것들은 학습 데이터에 명시적으로 나타나있지 않음.
설명을 위한 도구 : 상식적 판단은 예상 가능한 범주 안에 들어야 하므로, 여러 현상에 대한 설명의 도구로서 기능한다.
세계 지식의 패턴화 : 관찰을 통해 유추적 패턴을 만들어 상식적 판단을 생성할 수도 있다.
- 유추를 통해 세계 지식을 패턴화하는 것이 인간이 가지고 있는 중요한 능력.
상식과 윤리 : 상식은 윤리도덕, 예의범절, 규범질서 등과 같은 선상에서 취급된다.
상식은 언어가 아니다. 하지만 언어로 포장되어 있다.
- 나는 책가방을 싸서 (나이트클럽, 도서관, 스타벅스)에 갔다. -> 도서관!

가추 추론 : abductive reasoning

추론

이미 알고 있는 정보로부터 논리적 결론을 도출하는 행위 또는 과정
어떠한 판단을 근거로 삼아 다른 판단을 이끌어 내는 것
특정한 명제에서 다른 명제를 이끌어내는 과정

가설적 추론

(놀라운) 현상이나 사건을 가장 잘 설명할 것 같은 가설을 선택하는 방법
주어진 사실로부터 시작해서 가장 그럴 듯한 최선의 설명을 도출
의식하지 못하지만 일상 생활에서 가장 많이 사용하는 추론 방식

(상식을 바탕으로 인공지능을 평가하는 철학적인 배경)

“말발굽 소리를 들었을 때, 그 소리가 ‘말’이 아니라 ‘얼룩말’의 것일 수 있다는 가능성을 항상 생각해야 한다”

** 말 발굽 소리를 들으면 얼룩말 생각하지 말고 그냥 말을 생각해라.

ex) 환자가 허리가 아파서 병원에 왔을 때, 허리가 아픈 것은 적은 빈도. 일부러 억지스러운 상황을 생각해서 치료를 한다면, 치료시기를 놓치게 됨. 환자가 병원에 왔을 때 환자의 증상에 맞춰 가장 일반적인, 상식적인 상황에 집중해서 치료해라
-> 가추 추론적인 상식

인간의 사고 패턴을 모방할 수 있는가?

가추추론이 왜 중요한가?

패턴에 대한 과정
인간의 언어를 모델링하기 앞서 인간의 사고 패턴을 모델링하는 것이 확률적 앵무새의 문제를 피해가기 위한 근원적인 대책 --> 그래서 가추 추론이 중요하다.
사람이 세계에 대해서 인식하고 판단하기 위한 첫번째 과정이 "가추추론"
가추 추론을 거치고 연역법, 귀납법으로 보다 더 논리적인 사고를 함.

가설을 도입하기 위한 예비 추정

연역법과 귀납법에 전제되는 가설들은 추론에 앞서 선험적으로 존재하는 것이 아니므로, 현상을 탐구하고 추론하는 과정에서 가설의 형성 단계를 간과할 수 없음.
가추 추론은 모든 탐구의 가장 첫번째 단계에 해당

인간 뇌 작동의 고유 특성

몇 번의 시도 만에 가장 그럴듯한 가설을 제시할 수 있는 인간의 능력은 진화의 과정에서 파생됨.
가추추론 능력은 인간의 지성이 자연법칙의 이해와 설명에 특별히 적응된 결과물이다.

적대적 사례 (adversarial examples)

문제를 꼬아서 내고, 헷갈리게 만들고, 함정 답안도 넣고.
아주 어려운 수능이라고 생각하면 됨. 물수능, 불수능이 아닌 용암수능을 만드는 과정.
적대적 사례 : 평가 데이터를 매우 어렵게 만듦.
- 사람은 (음운적으로) 조금씩만 바뀐 데이터에 대해 유연하게 대처 가능. <-> 컴퓨터는 아님.

랑그와 파롤의 관점에서 본 딥러닝 언어모델 (langue et parole)

(Q&A 세션에서 사회자님께서 말씀해주신 부분인데 인상깊어서 적는다.)

랑그와 파롤

스위스의 언어학자 페르디낭 드 소쉬르가 처음으로 제시한 개념.
소쉬르는 언어의 구조를 통해 인간의 사고가 결정된다고 주장하며 언어를 랑그와 파롤로 구분.
소쉬르는 인간의 언어 활동에서 탐구해야할 대상은 개인의 구체적인 언어 활동이 아닌 언어의 기본적이고 보편적인 체계인 "랑그"라고 주장.
다만 랑그와 파롤의 구분은 객관적이지 않음.
- 예를 들어 축구경기에서 정해진 규칙은 랑그, 개별 경기는 파롤.
- 전술 : 최초에는 '파롤'이었다가 점차 규칙으로 통용되어가는 과정을 거쳐 '랑그'로 인식됨.
- 즉, 랑그와 파롤의 구분은 개인의 관점에 영향을 받음.

랑그

"문법" 이라고 보면 됨.
언어 활동에서 체계적이고 구조적인 측면을 뜻함.
언어를 사용하는 공동체 구성원 사이에서 맺어지는 규칙과 문법 등
소쉬르는 발화자는 랑그의 체계를 따를 뿐, 혼자서 랑그를 만들어내거나 변화시킬 수는 없다고 봄.
소쉬르는 랑그는 언어를 사용하는 공동체 구성원 모두에게 잠재되어 있다고 봄.

파롤

"문법에 맞추어 발화되는 것들"
각각의 발화자들이 랑그를 따라 발화하는 각각 다른 양태들.
소쉬르는 '파롤' 은 '랑그'가 개인의 언어 활동으로 인해 현실화된 것이라고 봄.

딥러닝 언어 모델의 관점에서의 랑그와 파롤

어린아이는 머릿 속에 형성된 representation(랑그) 바탕으로 말을 해서 파롤을 형성.
이와 반대로 딥러닝 언어모델은 파롤들을 바탕으로 학습해서 파롤들을 산출.
이 사이에서 딥러닝 언어모델이 랑그 같은 representation 을 만들어내는지는 의문.
인간은 구체적인 경험은 파롤을 통해서 하게 되지만, 이 경험(파롤)들을 통해 '랑그' 를 만들어 저장.
딥러닝 언어모델은 input과 output인 파롤만 있을 뿐, 그 안의 랑그 같은게 저장되어 있지 않음.
- input, output 사이의 mapping 관계에 대한 일종의 수학적 규칙이 있을 뿐.
(내 생각 - 아마 mappiing 관계의 function 은 존재하지만(나름의 최적의 가중치들로 구성된), ~면 ~~다 의 명확한 규칙 및 문법인 랑그는 존재하지 않는 느낌)

현재 딥러닝 언어 모델 평가 및 추측

(Q&A 세션의 인상깊은 내용들 정리)

저빈도의 데이터인지 노이즈인지 어떻게 구분?

현재 딥러닝 언어 모델은 단순한 표면적인 현상만 캐치하는 것이 아니라, 심층적인 의미까지도 캐치함.
그래서 어떤 두 언어 표현이 표면적으로는 달라도 의미가 유사하다면 가까운 벡터로 표현할 수 있음.
저빈도의 패턴이 있다는 것은 표면적으로 저빈도로 나타나는 것.
- 실제 오류 노이즈라서 저빈도 표현 : 표면적으로 저빈도로 나타날 뿐만 아니라, 심층적인 의미 패턴에서도 유사한 다른 예가 없음.
- 노이즈가 아닌 정말 저빈도 표현 : 표면적으로는 저빈도로 드문 사례지만, 심층적인 의미 패턴에서는 유사한 사례들이 꽤 있어서 normal 하다라고 판단 가능.
위와 같이 노이즈인지 저빈도의 표현인지 판단할 수 있는 능력이 현재 딥러닝 언어모델이 가지고 있는 능력이라고 추론됨. (현재 딥러닝 언어모델이 잘하고 있는 측면이라고 할 수 있음) (검증 불가/뇌피셜이긴 함)

실제 사고/수학 능력인지 '요령' 인지?

(내 생각)

실제로 수능에서 수학 문제를 잘 푸는 것을 생각했을 때, 누군가는 진짜 논리적 사고능력이 있어서, 똑똑해서 처음 본 유형이었지만 잘 풀 수 있는 사람이 있음.
누군가는 학원에서 기출을 반복적으로 풀어서 기출 풀이로 인해 '요령'을 배워서 문제를 보자마자 잘 풀 수 있음.
- 이건 수학을 잘 한다기보다는 문제를 잘 푸는 것.
- 수학을 배운 것이 아니라 '요령'을 배운 것.
- 진짜 천재는 기출 없이 본인의 지식과 논리로 잘 풀 수 있을 것 같다.
(근데 또 아이큐가 높은 미친 천재가 아닌 이상, 본인도 어느 정도는 공부했을테니까.. 소량의 데이터로 정답을 낼 수 있는 few shot learning 같은 것이 천재인가 싶기도 하고.. )
어떻게 보면, 딥러닝도 여러 기출들을 통해서 '요령'(가중치)을 배우는 것이라고 생각한다.
- 그래서 수학 능력 성능 테스트를 할 때 고등 수학 문제보다 초등 산수 문제를 샘플로 결정한 교수님 - 고등수학문제보다 더 일반화 능력을 테스트할 수 있을 것이라고 판단하셨다고 함.

Reference

2023 서울대학교 AI 연구원 겨울 콜로퀴움 송상헌 교수님 강연 "딥러닝 언어모델과 확률적 앵무새"
https://namu.wiki/w/%EB%9E%91%EA%B7%B8%EC%99%80%20%ED%8C%8C%EB%A1%A4