[논문 full 번역 + 이해를 위한 추가설명] CRNN, An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition
[] 안에는 의미를 명확히 하고자 원문 영어 표현이, () 안에는 원문에서 작성된 부연 설명이, <> 안에는 이해를 돕기 위해 번역자가 추가한 부연 설명이 작성되었습니다. 더 나은 표현 및 코멘트를 위해 계속 업데이트 합니다. 최종 수정 2022 10 04 Tue https://arxiv.org/pdf/1507.05717.pdf Abstract Image 기반으로 sequence를 인식하는 것은 computer vision분야에서 오랜 연구 주제이다. 이 연구에서, 우리는 image 기반의 sequence 인식에서 가장 중요하고 도전적인 작업인, 장면에서 text를 인식하는 문제를 살펴볼 것이다. Feature 추출, sequence modeling, transcription 을 통합하는 참신한 neural network 구조가 제안된다. Scene text recognition을 위한 이전의 systems와 달리, 제안된 구조는 네개의 뚜렷한 특징을 갖는다. (1) train과 tune이 개별적으로 진행되는 대부분의 기존 algorithm과 달리 end-to-end로 훈련가능하다. (2) 문자 segmentation이나 수평적인 scale 정규화없이도 임의의 길이에 대한 sequences를 다룰 수 있다. (3) 우리의 방법은 사전에 정의된 lexicon에 구속되지 않으며, lexicon-free 및 lexicon-based scene text recognition tasks에서 높은 성능을 달성했다. (4) 효과적이지만 작은 model로 구현되기때문에, real-world application scenarios에서 실용적이다. IIIT-5K, Street View Text 그리고 ICDAR datasets과 같은 표준 benchmarks에서의 실험들은 과거의 연구를 능가하는 제안된 algorithm의 우수성을 입증한다. 더욱이, 제안된 algorithm은 image 기반의 음표 인식 작업에서 잘 동작하며, 이것은 우리 model의 일반화 성능을 ...