본문 바로가기

transformer3

LLM - Large Language Models에 대해서 (OpenAI 특강) (1) 연구자들이 가져야 할 자세, 언어모델 구조 기초 이 글은 OpenAI의 정형원 박사님의 ChatGPT Large Language Model 강연을 정리한 글입니다. 먼저, 학자들이 갖춰야 할 자세에 대해 좋은 말씀을 해주셔서 정리해보았습니다. Perspecive of "yet" This idea does not work --> This idea does not work yet we are used to operating in an environment where underlying axioms do not change. 과학 실험에서도 지금 안되는 것 3년 후 30년 후 안되는 것 알고 있을 때가 있다. --> underlying axioms 언어모델에서도 이러한 axioms? = the most capable model now. GPT4가 나왔을 때.. 2023. 9. 7.
트랜스포머(Transformer) (4) - multi-head attention 4. 어텐션 (Attention) 첫번째 인코더 레이어에 입력 값이 들어오고 여러 개의 인코더 레이어 반복해서 거침 Multi-Head Attention 레이어 Reference https://www.youtube.com/watch?v=AA621UofTUA 이 글은 나동빈님의 'Transformer : Attention Is All You Need' 논문 리뷰 영상을 보고 정리한 글입니다. 2022. 6. 4.
트랜스포머(Transformer) (1) - Seq2Seq 모델의 한계점 이 글은 나동빈님의 'Transformer : Attention Is All You Need' 논문 리뷰 영상을 보고 정리한 글입니다. 트랜스포머 (Transformer - Attention Is All You Need) '어텐션' 이라는 메커니즘을 전적으로 활용하는 아키텍쳐 많은 최신 자연어 처리 모델이 활용하고 있는 아키텍쳐 - 트랜스포머 제안 Transformer 의 메인 아이디어는 BERT, GPT 와 같은 최신 아키텍처에 채택되어 Google 번역기, 파파고 등에 활용되고 있음 딥러닝 기반의 기계 번역 발전 과정 2021년 기준 최신 고성능 모델들은 트랜스포머 아키텍쳐를 기반으로 하고 있음 GPT : 트랜스포머의 '디코더(decoder)' 아키텍처 활용 BERT : 트랜스포머의 '인코더(enco.. 2022. 6. 2.