9월, 2022의 게시물 표시

[논문 full 번역 + 이해를 위한 추가설명] CRNN, An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

이미지
[] 안에는 의미를 명확히 하고자 원문 영어 표현이, () 안에는 원문에서 작성된 부연 설명이, <> 안에는 이해를 돕기 위해 번역자가 추가한 부연 설명이 작성되었습니다. 더 나은 표현 및 코멘트를 위해 계속 업데이트 합니다. 최종 수정 2022 10 04 Tue https://arxiv.org/pdf/1507.05717.pdf Abstract Image 기반으로 sequence를 인식하는 것은 computer vision분야에서 오랜 연구 주제이다. 이 연구에서, 우리는 image 기반의 sequence 인식에서 가장 중요하고 도전적인 작업인, 장면에서 text를 인식하는 문제를 살펴볼 것이다. Feature 추출, sequence modeling, transcription 을 통합하는 참신한 neural network 구조가 제안된다. Scene text recognition을 위한 이전의 systems와 달리, 제안된 구조는 네개의 뚜렷한 특징을 갖는다. (1) train과 tune이 개별적으로 진행되는 대부분의 기존 algorithm과 달리 end-to-end로 훈련가능하다. (2) 문자 segmentation이나 수평적인 scale 정규화없이도 임의의 길이에 대한 sequences를 다룰 수 있다. (3) 우리의 방법은 사전에 정의된 lexicon에 구속되지 않으며, lexicon-free 및 lexicon-based scene text recognition tasks에서 높은 성능을 달성했다. (4) 효과적이지만 작은 model로 구현되기때문에, real-world application scenarios에서 실용적이다. IIIT-5K, Street View Text 그리고 ICDAR datasets과 같은 표준 benchmarks에서의 실험들은 과거의 연구를 능가하는 제안된 algorithm의 우수성을 입증한다. 더욱이, 제안된 algorithm은 image 기반의 음표 인식 작업에서 잘 동작하며, 이것은 우리 model의 일반화 성능을 ...

[논문 full 번역 + 이해를 위한 추가설명] CRAFT, Character Region Awareness for Text Detection

이미지
[] 안에는 의미를 명확히 하고자 원문 영어 표현이, () 안에는 원문에서 작성된 부연 설명이, <> 안에는 이해를 돕기 위해 번역자가 추가한 부연 설명이 작성되었습니다. 더 나은 표현 및 코멘트를 위해 계속 업데이트 합니다. 최종 수정 2022 09 30 Fri Abstract Neural network에 기반한 scene text detection 방법들은 최근에 도입되었는데, 그 성능이 좋다. 단어 단위의 bounding box로 훈련된 이전의 방법들은 임의의 모양을 가지는 text 영역을 표현할 때 한계가 있었다. 이 CRAFT 연구에서, 우리는 각 문자와 문자들 사이의 affinity를 활용하여 효율적으로 text를 감지할 수 있는 새로운 scene text detection 방법을 제안한다. 문자 단위의 labeling dataset이 적은 문제를 극복하기 위하여, 우리의 제안된 framework는 합성 image dataset으로부터의 문자 단위의 labeling와 훈련된 모형을 사용하여 실제 image에서 예측된 문자단위의 ground-truth 모두를 활용한다. 문자 사이의 affinity를 예측하기 위하여, affinity를 위해 새롭게 제안된 representation을 통해 network는 훈련되었다. 실제 이미지에서 포함된 상당히 curved된 text들을 내포하는 TotalText 및 CTW-1500 dataset을 포함하여 여섯개의 benchmarks를 활용한 광범위한 실험들은 우리의 문자 단위의 text detection이 state-of-the-art detector들의 성능을 뛰어넘는다는 것을 입증한다. 결과에 따르면, 우리의 방법은 임의의 각도로 회전하고 휘어있고 왜곡된 형태를 띄는 복잡한 scene text image에서 text 를 감지할 때, 높은 유연성을 보장한다. 1. Introduction Scene text detection <이미지 내에서 text의 위치를 bounding box로 표시하는...

[논문 full 번역 + 이해를 위한 추가설명] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

이미지
[] 안에는 의미를 명확히 하고자 원문 영어 표현이, () 안에는 원문에서 작성된 부연 설명이, <> 안에는 이해를 돕기 위해 번역자가 추가한 부연 설명이 작성되었습니다. Abstract 현존 최고의 (State-of-the-art, SOTA) object detection 네트워크 방법들은 물체의 위치를 가정하는 region proposal algorithm을 사용한다. SPPnet 그리고 Fast R-CNN과 같은 발전이 도입됨으로써 detection network의 실행시간이 감소되었다. 하지만, region proposal을 계산하기위한 연산에서는 여전히 시간이 많이 걸린다. 이 Faster R-CNN 연구에서는 Region Proposal Network (RPN) 방법을 도입한다. RPN은 detection network를 구성하는 convolutional layer들에서 추출된 image feature들을 공유하며, 이러한 특성은 region proposal 작업을 매우 빠르게 하였다. RPN은 fully-convolutional network로 구성되어있으며, 물체가 있을만한 영역들 (Region of Interest, RoIs)을 박스로 예측하고, 각 박스는 물체가 있을 예측된 확률값을 갖는다. RPN은 end-to-end 방식으로 훈련되어, 가능한 정확하게 물체가 있을만한 영역을 제안하고, 이 영역들은 Fast R-CNN 네트워크에서 사용되어, 최종 예측인 bounding box로 표시된 물체의 위치와 그 물체의 class를 산출한다. RPN과 Fast R-CNN을 번갈아 가며 최적화하는 방법을 사용하면, RPN과 Fast R-CNN은 convolutional feature들을 공유하며 훈련될 수 있다. VGG-16 모형을 기반으로 했을 때, 우리의 Faster R-CNN 방법은 GPU에서 동작할 때, 모든 단계를 처리하는 기준으로, 5fps 를 달성하였다. 이러한 속도 뿐만 아니라, object detection 의 accuracy...