안녕하세요.
ChatGPT와 같은 LLM (Large Language Model)이 세상을 떠들썩하게 만들고 있는 요즘. 인공지능에 대한 학문적 관심도 많이 높아졌을 것이라고 생각이 드는데요. 인공지능을 조금 공부해 보신 분들은 아시겠지만 현재 대부분의 언어 모델뿐만 아니라 컴퓨터 비전에 사용되는 많은 모델의 근간은 바로 아래 그림에서 보이는 Transformer 라는 구조 입니다.
트랜스포머는 구글 브레인과 구글 리서치의 공동 연구로 제안된 뉴럴 네트워크 기반의 구조로 Attention Is All You Need ( Vaswani, Ashish, et al.) 라는 논문에 처음 소개되었습니다.
그런데, 해당 논문을 읽어본 많은 연구자분들은 아실 거예요. 논문의 내용이 굉장히 어렵다는 것을요.
해당 논문의 핵심은 Transformer의 구조를 파악하는 것인데, 논문을 읽다 보면 내용이 그렇게 친절하고 쉽게 설명되어 있지 않다는 것을 느끼실 수 있으실 겁니다.
따라서 많은 사람들이 이런 Transformer 구조를 쉽게 설명하는 글을 작성하였는데요.
저는 그중에서 쉽고 상세하게 잘 작성했다고 느꼈던 글들을 모아봤습니다.
Transformer 쉽게 설명한 사이트 정리
수학을 통해 하나씩 알아가는 트랜스포머
(영어) 한 단계, 한 단계 예시를 통해 설명하는데 지금까지 봤던 것들 중에 제일 상세하고 쉬웠음.
다만 Encoder의 Multi-Head Attention 부분까지의 설명만 있고
저자가 Part. 2를 작성할 계획이 없다고 함.
그리고 과정에 대한 상세 설명이지 각 스텝이 무엇을 의미하는지 등의 직관을 주지는 않음.
- https://codingopera.tistory.com/43
초등학생도 이해하는 자연어처리
(한국어) 제목처럼 초등학생도 이해할 수 있을지는 모르겠지만 원리부터 자세히 설명되어 있으면서도 아주 쉽게 잘 쓰인 글이다. 좋은 글이라고 여겨질 만큼 글의 구성도 좋고 글에서 정성이 느껴짐.
딥 러닝을 이용한 자연어처리 입문 시리즈
(한국어) 좀 더 체계적이지만 그렇다고 어렵게 작성되지 않았음.
위의 두 글은 인코더 부분까지만 설명하지만 이 글은 디코더 부분까지 설명이 돼 있음.
예시 코드도 글에 함께 포함됨.
- https://www.blossominkyung.com/deeplearning/transfomer-positional-encoding
트랜스포머 파헤치기
(한국어) 과정이 하나 하나 아주 쉽게 설명되어 있고, 무엇보다 저자가 직접 생성한 gif와 여러 이미지를 통해 이해를 도움.
글에서 정성이 느껴지고 제일 쉽게 작성된 글 중 하나.
https://huggingface.co/learn/nlp-course/chapter1/4
허깅페이스 NLP Course
(영어) NLP 개발 라이브러리로 유명한 허깅페이스에서 제공하는 코스에도 Transformer 설명이 있음.
전체를 공부하기에는 양이 좀 많지만 과정이 체계적이고 내용도 어렵지 않음.
'데이터 > ML' 카테고리의 다른 글
메모리를 절약하여 희소 행렬 (Sparse Matrix)을 표현하는 방법들 (0) | 2023.10.10 |
---|