📚 논문
Attention is All You Need
BackgroundSeq2Seq 모델Encoder와 Decoder를 각각 RNN으로 구성하는 방식입니다.동작원리‘나는’, ‘호두를’, ‘사랑해’라는 3개의 토큰들을 순차적으로 LSTM 셀에 넣으면 , hidden state를 하나씩 출력합니다.이렇게 토큰들의 hidden state들이 출력되면, 마지막 hidden state는 정보를 압축한 vector가 되고, 이를 Context Vector 라고 칭합니다.Context Vector를 통해 이후 token들을 넣었을 때 다음 token 예측을 위한 hidden state가 출력됩니다.문제점Sequence가 길어지는 경우에는 Gradient Vanishing 문제가 발생하여 Context Vector에 앞 순서 token들의 정보가 소실되는 문제가 발생했..