[논문 full 번역 + 이해를 위한 추가설명] DQN, Playing Atari with Deep Reinforcement Learning
[] 안에는 의미를 명확히 하고자 원문 영어 표현이, () 안에는 원문에서 작성된 부연 설명이, <> 안에는 이해를 돕기 위해 번역자가 추가한 부연 설명이 작성되었습니다. 더 나은 표현 및 코멘트를 위해 계속 업데이트 합니다. 최종 수정 2022 10 04 Tue https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf Abstract Reinforcement learning을 사용해 고차원의 sensory input으로부터 control policies를 성공적으로 학습할 수 있는 첫번 째 deep learning model을 제안한다. model은 convolutional neural network로 구현되었고, Q-learning의 변형 방식으로 훈련되었다. Input은 raw pixels이며 output은 future reward를 추정하는 value fuction이다. 우리의 방법을 Arcade Learning Environment로 부터 7개의 Atari 2600 games에 구조 또는 learning algorithm의 조정 없이 적용하였다. 우리의 방법은 7개의 games에서 모든 이전의 접근법들의 성능을 능가하였고, 3개의 games에서는 인간 전문가도 능가하였다. 1 Introduction 시각 또는 음성과 같은 고차원의 sensory inputs으로 부터 agents를 control하는 것을 학습하는 것은 reinforcement learning (RL)의 오랜 도전 과제 중 하나이다. 이러한 domains에서 동작하는 대부분의 성공적인 RL applications는 linear value functions 또는 policy representations와 결합된 hand-crafted features에 의존한다. 당연히, 그러한 systems의 성능은 feature representation의 질적 수준에 강하게 의존한다. deep learning에서의 최근 발전은 raw sensory data로 부터 ...