Huggingface 튜토리얼 (1) 기초 개념 소개
Tokenizer Tokenizer 가 매우 중요 결국 문장(글자, 텍스트)를 어떻게 숫자로 잘 바꿀 수 있을까가 관건 그렇게 하기 위해 가장 먼저 해야 할 것 - tokenizer - "학교에 가서 수업을 들었다." = 학교에 / 가서 / 수업을 / 들었다. 나누는 방법 다양함 - 띄어쓰기 단위 / 문자 단위 / subword 단위 - 각각의 장 단점이 있음 "오늘 저녁은 맛있었다." 띄어쓰기 단위 : [오늘, 저녁은, 맛있었다] - 명료, 적용 쉬움 - "맛있다, 맛있어요, 맛있었다" 가 모두 다르게 인식됨, 단어사전이 매우 커짐 문자 단위 : [오, 늘, 저, 녁, 은, 맛, 있, 었, 다] - 각 token 이 의미를 담지 못함 subword 단위 : [오늘, 저녁, 은, 맛있, 었, 다] - 띄..
2022. 9. 15.