LLM

In-Context Learning and Algorithmic Reasoning of LLMs (1)

햇농nongnong 2024. 11. 20. 14:30

이 글은 서울대학교 '최신 인공지능 기술' 강의 중 류경석 교수님의 'In-Context Learning and Algorithmic Reasoning of LLMs' 강의를 듣고 정리한 글입니다.

 

수업 전, 꿀팁!

  • 논문은 좋은 논문의 모양을 띄고 있는 것이 굉장히 중요함. 예를 들어 그래프도 엑셀보다 파이썬 matplotlib으 로 그리는 것이 훨씬 좋음.. 엑셀로 그리게 되면 리뷰어들에게 bias를 주게 됨.. --> formatting 이 깔끔한 것이 중요함.. 단어 선택도 좋은 논문처럼 쓰고.. 맞춤법 절대 틀리면 안되고.. 이런 식으로 좋은 논문의 모양을 띄고 있어야 안 좋은 논문이라는 편견을 안받을 수 있음. 허술한 그림/표현은 편견 때문에 reject 될 가능성 큼.
    --> 좋은 논문들 읽다보면 좋은 논문의 공통적인 format이 계속해서 보일텐데 그런걸 빨리 깨달아야함.

 

전체적인 강연 내용은 'LLM에 기반한 AI가 세상을 바꿀 것이다' 에 대한 믿음에 대한 서술.

  • 인터넷이 우리의 사회를 바꿔놓은 것처럼, 인터넷이 생겨서 인간의 삶의 본질이 바뀌지는 않았지만 우리의 경제/사회활동 등 모든 것에 영향을 줌. time scale 측면에서 인터넷이 1970년대 개발되어 일상에 밀접하게 다가오는 데 40년의 시간이 걸렸다면, 그것과 마찬가지의 규모 time scale에 맞춰, 인공지능이 곧 우리의 일상 및 과학기술에 밀접하게 녹아들 것임. 이 믿음이 기술적/수학적 근거가 명확히 있어서 믿는 것은 아니지만 그래도 어느정도는 근거가 있다고 생각. 그래서 이 믿음에 대해 교수님께서 느끼시는 바를 연구 내용을 소개하시면서 설명.
  • LLM이 헛소리 / hallucination 문제가 있어서 신뢰하고 사용하기에는 부족한 기술이긴 하지만, LLM의 기능/능력/사고력에 대해 체계적인 연구가 되어 있고, 어떤 식의 사고를 하는지에 대한 이해도 어느정도 되어있음. 이런 이해가 점차 만들어지고 있기 때문에 부족한 부분들도 차근차근 개선이 될 것이라고 생각하심.

 


Intro : LLM의 dimensional analysis

LLM은 어떤 규모?

LLM을 훈련시키기 위한 단계별 절차를 따라가보고 어느정도의 scale인지 한번 느껴보자.

 

Step 1. Get internet-scale text data. All books, all writings ever written by humans.

첫번째 단계는 우선 데이터를 모아야함. 인터넷 스케일; 인간이 작성한 모든 글, 기록이 된 전자화된 모든 글을 다 가져와서 데이터로 삼음.

 

 

1 library bookshelf = 10 million tokens

 

  • 2017 Original Transformer - 100 Million Tokens (10 Library shelves)
    1억 토큰.. 위 사진의 책장 10개정도의 규모..
  • 2018 GPT1 - 600 Million Tokens (60 shelves) ; 책장 60개...
  • 2019 GPT2 - 28 Billion Tokens (2800 shelves) ; 책장 2800개...
  • 2020 GPT3 - 300 Billion Tokens (30,000 shelves) ; 책장 3만개...
  • 2022 PALM - 780 Million Tokens (78,000 shelves) ; 책장 7만 8천개...
  • 2023 GPT4 - 1.3 Trillion Tokens (130,000 shelves = 650km of shelves side by side)
    GPT4의 훈련 디테일은 공개되지 않아 추정치이긴 하지만, 13만개의 책장 규모.. 책장 하나 가로길이가 5m라고 치면, 하나씩 나열했을 때 650km 길이.. 서울-부산보다 더 먼 거리의 책장을 다 읽으면서 훈련시키는 정도..

 

 

 

 


Part 1 : Emergence of Common Sense Reasoning

 

Information in Real Life


  • 정보라는 것은 모든 학문에서 사용하는 단어. 학문 분야마다 정보가 의미하는 바는 다 다름.
  • ex) Where is the robber? I just saw the robber running to the park.
    - 위 문장에서 정보는 무엇일까? common 하b b  게는 robber 가 존재하고, 배경은 park 이고...
    - 머신러닝/엔지니어링 관점에서 가장 큰 문제는, 정보를 quantify 할 수 있느냐임!
    - 정보가 크다/작다를 숫자로 표현할 수 없음. 이건 100만큼의 정보다, 이건 7만큼 작은 정보다. 이런 식으로 표현할 수 없음. --> 수식 based 머신러닝 동네에서는 정보 개념을 제대로 사용할 수 없음.
  • 결국 우리가 필요한 것은 "quantitative definition of information"
    -->  다른 동네에서는 이런 개념은 거의 없음. Shannon information에는 존재함.

 

 

 

 

 

 Reference 

  • In-Context Learning and Algorithmic Reasoning of LLMs  - Prof. Ernest K. Ryu, Seoul National University