[논문 full 번역 + 이해를 위한 추가설명] GTP-1, Improving Language Understanding by Generative Pre-Training
Abstract 자연어 [natural language] 이해는, 텍스트의 함의 [textual entailment], 질문에 대한 답변, 의미론적 유사성 [semantic similarity] 평가, 문서 분류와 같이 넓고 다양한 작업과 관련된다. 레이블링 되지 않은 텍스트 말뭉치 데이터는 많이 존재하는 반면, 학습을 위한 레이블링된 텍스트 데이터는 부족하다. 이러한 상황은 위와 같은 다양한 작업을 위해 모형을 훈련하는 것을 어렵게 한다. 위와 같은 작업에 대하여, 먼저 텍스트를 생성할 수 있는 언어 모델을 레이블링 되지 않은 다양한 텍스트 말뭉치 데이터로 사전학습하고, 이 사전 학습된 모형을 특정 작업에 상응하도록 레이블링된 텍스트 데이터로 fine tuning 함으로써 큰 성능향상을 달성할 수 있다는 점을 입증했다. 이전의 접근법과 다르게, 우리는, fine-tuning 시에, 특정 작업에 적합하도록 입력을 변환하는 방법을 사용했으며, 이러한 접근법은 모형의 구조를 최소한으로 변경하면서 사전학습된 모형의 언어이해를 특정작업에 효율적으로 전달할 수 있게 했다. 자연어 이해에 관한 다양한 benchmark 데이터를 사용하여 우리 방법이 효율적임을 입증했다. 우리가 개발한 특정작업에 의존적이지 않은 일반적인 모형 (사전학습된 GPT) 조차, 특정 작업을 위해 설계되고 훈련된 방식의 모형보다 높은 성능을 보였고, 12개의 작업 종류 중 9개의 작업에서 현존 최고 성능 [SOTA, State Of The Art]를 달성하였다. 구체적으로, 상식 추론[common reasoning] (Stories Cloze Test) 에서 8.9%, 질문답변 (RACE)에서 5.7%, 텍스트 함의 (MultiNLI)에서 1.5%의 향상을 달성하였다. 1 Introduction 자연어처리 분야에서 supervised learning 방법 사용 시 레이블링된 데이터에 의존하게 되는데, 이러한 의존성에서 탈피하려면, 레이블링이 없는 텍스트로부터 효과적으로 학습하는 능력을 갖는것이 중요...