본문 바로가기

데이터/ML

Transformer 논문, 쉽게 설명한 사이트 정리 안녕하세요. ChatGPT와 같은 LLM (Large Language Model)이 세상을 떠들썩하게 만들고 있는 요즘. 인공지능에 대한 학문적 관심도 많이 높아졌을 것이라고 생각이 드는데요. 인공지능을 조금 공부해 보신 분들은 아시겠지만 현재 대부분의 언어 모델뿐만 아니라 컴퓨터 비전에 사용되는 많은 모델의 근간은 바로 아래 그림에서 보이는 Transformer 라는 구조 입니다. 트랜스포머는 구글 브레인과 구글 리서치의 공동 연구로 제안된 뉴럴 네트워크 기반의 구조로 Attention Is All You Need ( Vaswani, Ashish, et al.) 라는 논문에 처음 소개되었습니다. 그런데, 해당 논문을 읽어본 많은 연구자분들은 아실 거예요. 논문의 내용이 굉장히 어렵다는 것을요. 해당 논.. 더보기
메모리를 절약하여 희소 행렬 (Sparse Matrix)을 표현하는 방법들 희소 행렬 (Sparse Matrix)이란? 희소 행렬이란 행렬의 값이 대부분 0인 경우를 가리키는 표현으로 '성긴 행렬'이라고도 불린다. 전체 행렬의 값 중에 0인 요소들의 비율을 희소성 (sparsity)라고 하며 행렬에 0이 많이 포함될 수록 희소성이 높다고 할 수 있다. 희소 행렬은 그 자체로 수학적인 관점에서 큰 의미를 가지고 있지 않을 수 있지만 인접 행렬 (Adjacency matrix)과 같이 현실에 존재하는 특정한 관계성을 표현하는 과정에서는 흔히 등장하는 개념이다. 예를 들어, e-commerce 서비스에서 각 유저가 구입한 상품의 수를 행렬로 표현한다면 각 유저는 모든 상품 중 일부만 구입할 것이므로 그 행렬은 희소 행렬에 가까울 것이다. 마찬가지로 넷플릭스나 tving과 같은 OTT.. 더보기