[논문리뷰] Attention is All You Need (Transformer)

티스토리 뷰

AI/ETC

[논문리뷰] Attention is All You Need (Transformer)

해드위그 2025. 2. 12. 14:30

Intro

* RNN을 사용하지 않고 Attention만으로 Seq2Seq 구조를 구현한 모델

* 기존 모델들은 RCC or CNN에 기초, encoder에서 입력 seq을 vector로 압축할 때 일부 정보가 손실되기 때문에 보정을 위해 Attention을 사용하는 형태였다.

* Attention만으로 encoder&decoder를 만들어보자!

* 논문에 따르면, 이 모델은 병렬처리가 가능하고, 학습 시간이 훨씬 덜 소요된다

Attention Machanism

Sequence-to-Sequence

Recurrent model은 Sequence순으로 데이터가 입력되는데, 이전 데이터의 hidden state $h_{t}$ 가 다음 데이터의 hidden state $h_{t + 1}$ 를 구할 때 사용된다. 즉, 어떠한 시점 t에서 구한 hidden state $h_{t}$ 는 그 전 sequence들( $1, 2, \dots, t - 1$ )의 정보를 함축하고 있다고 볼 수 있다. 따라서 위 이미지를 예로 들어 설명하면, tomorrow를 입력으로 받아 출력되는 encoder의 마지막 hidden state는 그 이전 단어들(are, you, free)에 대한 정보까지, 즉 문장의 모든 단어들에 대한 정보를 함축하고 있는 것이다

긴 sequence 데이터를 처리해야할 때, 제한된 크기의 vector로 모든 정보를 담아내야하기 때문에 정보의 손실이 커지고 이에 따라 성능의 병목현상이 일어난다.

Model Architecture

* Encoder : N = 6 Layers / sub -layer 1. multi-head- 2. feed-forward

=> 모든 차원을 512 임베딩

* Decoder : N = 6 Layers / sub-layer 3. Encoder스택의 출력을 통해 multi-head-attention수행

Scaled Dot-Product Attention

- input: Query(Q), Key(K), Value(V) / Query는 물어보는 주체, Key는 반대로 Query에 의해 물어봄을 당하는 주체, Values는 데이터의 값들을 의미

- softmax 함수는 연관성에 대해 확률분포형태로 만들어주는 것이다.

Multi-Head Attention

- 하나의 attention func을 사용하는 것보다, 중간에 값들을 매핑해줘서 각 다른 값들을 입력으로 하는 여러개의 attention func을 만드는 것이 더 효율적이다. 나중에 func들의 출력은 concat되고 다시 linear func을 통해 매핑된다.

- CNN이 여러개의 필터를 통해서 conv output을 구하는 것과 비슷한 효과를 낸다.

Positional Encoding

- sequence 정보를 데이터에 추가해주기 위해 사용하는 기법- 논문에서는 sine과 cosine 함수를 사용한다.

왜 Self-Attention이어야 할까?

1. Sequence length n < Representation dimensionality d 이어야만 complexity가 RNN보다 더 작아지게 됨.

보통 n<d인 경우가 대부분

2. RNN은 input을 순차적으로 받아서 총 n번의 RNN cell을 거치게 되고, self-attention은 input의 모든 position 값을 연결하여 한번에 처리 가능 => parallel system 사용

3. long-range dependencies

input 과 output seq 사이 조합 간 paths가 짧을 수록 long-range dependencies를 더 잘 학습할 수 있다고 한다.

* 결국 transformer는 token을 하나씩 보면서 학습하는 것이 아니라, 전체 문장을 한번에 참조하여 학습할 수 있게한다. 그리고 sequence정보는 따로 positional encoding으로 준다.

저작자표시

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

글 보관함

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

🌍 Hello World :D

티스토리 뷰