📚 논문

GPT-1: Improving Language Understanding by Generative Pre-Training

2023.06.20

AbstractNatural language에는 unlabeled text의 데이터 수가 labeled text의 데이터 수보다 훨씬 많다. 해당 사실에 근거하여 OpenAI에서는 다양한 unlabeled text를 활용하여 모델을 generative 하게 pre-train 시킨 GPT 모델을 제시했다. 해당 모델은 이전 모델들보다 훨씬 뛰어난 성능을 보여 그 결과를 증명했다.Introductionunlabeled data로부터 word-level 이상의 정보를 끌어내는 것은 다음과 같은 두 가지의 이유로 어렵다:transfer에 유용한 text 표현을 배우는 것에 어떤한 형태의 최적화 목적 (optimation objectives)가 좋은지 모른다.학습된 표현을 target task에 전달할 가장 좋은..

📚 논문

Attention is All You Need

2023.06.16

BackgroundSeq2Seq 모델Encoder와 Decoder를 각각 RNN으로 구성하는 방식입니다.동작원리‘나는’, ‘호두를’, ‘사랑해’라는 3개의 토큰들을 순차적으로 LSTM 셀에 넣으면 , hidden state를 하나씩 출력합니다.이렇게 토큰들의 hidden state들이 출력되면, 마지막 hidden state는 정보를 압축한 vector가 되고, 이를 Context Vector 라고 칭합니다.Context Vector를 통해 이후 token들을 넣었을 때 다음 token 예측을 위한 hidden state가 출력됩니다.문제점Sequence가 길어지는 경우에는 Gradient Vanishing 문제가 발생하여 Context Vector에 앞 순서 token들의 정보가 소실되는 문제가 발생했..

GPT-1: Improving Language Understanding by Generative Pre-Training

Attention is All You Need

티스토리툴바