목록2025/04/06 (1)
러닝머신 하는 K-공대생
Transformer 제대로 이해하자
Transformer 하면 “Attention is all you need”를 떠올리며 대충 Self-Attention과 MLP가 있고, 이를 반복해서 Encoder와 Decoder가 존재하며 예측한다고 겉핡기로 아는 경우가 많은데 작년에 나온, 3B1B Transformer 영상을 보면 self-attention과 MLP에 대해 더 깊은 의미를 생각해볼 수 있고 후속 연구들도 이런 해석을 지지하고 있어, 이런 내용을 포함해 Transformer의 작동 원리를 말로서 정리해보고자 한다. 1. Encoder-Only 구조로 큰 틀에서 이해하기먼저 핵심 원리를 파악하기 위해 Encoder-Only 구조에 대해 먼저 살펴보겠다. Transformer는 입력 문장 내 단어 임베딩들 간의 상호작용을 위해 self..
Machine Learning
2025. 4. 6. 18:33