라벨이 논문 full 번역 and 이해를 위한 추가설명인 게시물 표시

[논문 full 번역 + 이해를 위한 추가설명] DQN, Playing Atari with Deep Reinforcement Learning

이미지
[] 안에는 의미를 명확히 하고자 원문 영어 표현이, () 안에는 원문에서 작성된 부연 설명이, <> 안에는 이해를 돕기 위해 번역자가 추가한 부연 설명이 작성되었습니다. 더 나은 표현 및 코멘트를 위해 계속 업데이트 합니다. 최종 수정 2022 10 04 Tue https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf Abstract Reinforcement learning을 사용해 고차원의 sensory input으로부터 control policies를 성공적으로 학습할 수 있는 첫번 째 deep learning model을 제안한다. model은 convolutional neural network로 구현되었고, Q-learning의 변형 방식으로 훈련되었다. Input은 raw pixels이며 output은 future reward를 추정하는 value fuction이다. 우리의 방법을 Arcade Learning Environment로 부터 7개의 Atari 2600 games에 구조 또는 learning algorithm의 조정 없이 적용하였다. 우리의 방법은 7개의 games에서 모든 이전의 접근법들의 성능을 능가하였고, 3개의 games에서는 인간 전문가도 능가하였다. 1 Introduction 시각 또는 음성과 같은 고차원의 sensory inputs으로 부터 agents를 control하는 것을 학습하는 것은 reinforcement learning (RL)의 오랜 도전 과제 중 하나이다. 이러한 domains에서 동작하는 대부분의 성공적인 RL applications는 linear value functions 또는 policy representations와 결합된 hand-crafted features에 의존한다. 당연히, 그러한 systems의 성능은 feature representation의 질적 수준에 강하게 의존한다. deep learning에서의 최근 발전은 raw sensory data로 부터 ...

[논문 full 번역 + 이해를 위한 추가설명] CRNN, An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

이미지
[] 안에는 의미를 명확히 하고자 원문 영어 표현이, () 안에는 원문에서 작성된 부연 설명이, <> 안에는 이해를 돕기 위해 번역자가 추가한 부연 설명이 작성되었습니다. 더 나은 표현 및 코멘트를 위해 계속 업데이트 합니다. 최종 수정 2022 10 04 Tue https://arxiv.org/pdf/1507.05717.pdf Abstract Image 기반으로 sequence를 인식하는 것은 computer vision분야에서 오랜 연구 주제이다. 이 연구에서, 우리는 image 기반의 sequence 인식에서 가장 중요하고 도전적인 작업인, 장면에서 text를 인식하는 문제를 살펴볼 것이다. Feature 추출, sequence modeling, transcription 을 통합하는 참신한 neural network 구조가 제안된다. Scene text recognition을 위한 이전의 systems와 달리, 제안된 구조는 네개의 뚜렷한 특징을 갖는다. (1) train과 tune이 개별적으로 진행되는 대부분의 기존 algorithm과 달리 end-to-end로 훈련가능하다. (2) 문자 segmentation이나 수평적인 scale 정규화없이도 임의의 길이에 대한 sequences를 다룰 수 있다. (3) 우리의 방법은 사전에 정의된 lexicon에 구속되지 않으며, lexicon-free 및 lexicon-based scene text recognition tasks에서 높은 성능을 달성했다. (4) 효과적이지만 작은 model로 구현되기때문에, real-world application scenarios에서 실용적이다. IIIT-5K, Street View Text 그리고 ICDAR datasets과 같은 표준 benchmarks에서의 실험들은 과거의 연구를 능가하는 제안된 algorithm의 우수성을 입증한다. 더욱이, 제안된 algorithm은 image 기반의 음표 인식 작업에서 잘 동작하며, 이것은 우리 model의 일반화 성능을 ...

[논문 full 번역 + 이해를 위한 추가설명] CRAFT, Character Region Awareness for Text Detection

이미지
[] 안에는 의미를 명확히 하고자 원문 영어 표현이, () 안에는 원문에서 작성된 부연 설명이, <> 안에는 이해를 돕기 위해 번역자가 추가한 부연 설명이 작성되었습니다. 더 나은 표현 및 코멘트를 위해 계속 업데이트 합니다. 최종 수정 2022 09 30 Fri Abstract Neural network에 기반한 scene text detection 방법들은 최근에 도입되었는데, 그 성능이 좋다. 단어 단위의 bounding box로 훈련된 이전의 방법들은 임의의 모양을 가지는 text 영역을 표현할 때 한계가 있었다. 이 CRAFT 연구에서, 우리는 각 문자와 문자들 사이의 affinity를 활용하여 효율적으로 text를 감지할 수 있는 새로운 scene text detection 방법을 제안한다. 문자 단위의 labeling dataset이 적은 문제를 극복하기 위하여, 우리의 제안된 framework는 합성 image dataset으로부터의 문자 단위의 labeling와 훈련된 모형을 사용하여 실제 image에서 예측된 문자단위의 ground-truth 모두를 활용한다. 문자 사이의 affinity를 예측하기 위하여, affinity를 위해 새롭게 제안된 representation을 통해 network는 훈련되었다. 실제 이미지에서 포함된 상당히 curved된 text들을 내포하는 TotalText 및 CTW-1500 dataset을 포함하여 여섯개의 benchmarks를 활용한 광범위한 실험들은 우리의 문자 단위의 text detection이 state-of-the-art detector들의 성능을 뛰어넘는다는 것을 입증한다. 결과에 따르면, 우리의 방법은 임의의 각도로 회전하고 휘어있고 왜곡된 형태를 띄는 복잡한 scene text image에서 text 를 감지할 때, 높은 유연성을 보장한다. 1. Introduction Scene text detection <이미지 내에서 text의 위치를 bounding box로 표시하는...