Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

Building and Understanding Latent Structure for Object Detection

Title
Building and Understanding Latent Structure for Object Detection
Authors
김용현
Date Issued
2019
Publisher
포항공과대학교
Abstract
물체 검출은 컴퓨터 비전 분야에서 오랜 시간 연구 되어 온 핵심 기술 중 하나이다. 특히, 로보틱스, 비디오 감시, 무인 안전과 같은 다양한 응용에 널리 적용 가능하다는 점에서 주목 받고 있다. 최근에는, Convolutional Neural Network (CNN)의 성공적인 활용으로 물체 검출 기술은 놀라운 성과를 얻을 수 있었다. 그러한 성공에도 불구하고, 완벽함과 현재의 최고 기술 수준 사이에는 여전히 차이가 존재하고 해결해야하는 많은 문제들이 산재해 있다. 이 논문은 이러한 여려움들을 극복하기 위해 Scale Variation과 Visual Context에 대한 연구를 설명하고 더 나아가 새로움 물체 검출 프레임워크를 제안한다. 제안된 프레임워크는 Pose와 Scale Variation, Occlusion, Camera 시점, 다양한 Class와 같은 물체 검출의 어려움들을 통합적으로 해결한다. 먼저, 우리는 CNN 기반의 검출 방법들이 Scale Variation에 강인하게 만들어주는 Scale Aware Network (SAN)을 제안한다. SAN은 서로 다른 Scale에서 얻어진 Convolution 특징을 Scale에 무관한 부분 공간으로 사상함으로써 Scale에 무관한 Convolution 특징을 만들어 낸다. 우리는 효과적으로 SAN을 학습하기 위해 공간 정보를 배제하고 채널 사이의 관계만을 순수하게 고려하는 독특한 학습 방법을 제안한다. 제안된 SAN은 다양한 CNN 기반의 검출 방법들의 성능을 향상시키기 위해 일반적으로 적용 될 수 있다. 우리는 제안된 SAN의 타당성을 보이기 위해 Scale에 따른 Convolution 특징의 변화를 시각화 하고 SAN에 대한 여러 비교 분석을 진행했다. 다음으로, 우리는 물체의 외곽 주변의 환경을 고려하기 위해 여러 개의 Visual Context를 배치하는 Boundary Aware Network (BAN) 을 제안한다. 제안된 BAN은 기존의 CNN 기반의 검출 방법들이 검출을 위한 추가적인 자원을 다룰 수 있도록 만들어 주고 Context의 중요도를 고려해 선택적으로 집중 할 수 있게 만들어 준다. 또한, 제안된 방법은 다양한 CNN 기반의 검출 방법들의 성능을 향상시키기 위해 일반적으로 적용 될 수 있다. 우리는 제안된 BAN의 타당성을 보이기 위해 Visual Context에 따른 보조 네트워크의 활성도를 시각화 하고 BAN에 대한 여러 비교 분석을 진행했다. 앞서 수행한 두 연구를 기반으로, 우리는 Latent Structured Detection Network (LSDN) 이라는 새로운 물체 검출 프레임워크를 제안했다. LSDN은 검출을 어렵게 만드는 다양한 원인들을 근본적으로 다루며 Context 정보 마저도 활용한다. 제안된 LSDN은 먼저 완전히 변형 가능한 Part들로 구성된 Latent Structure를 생성하고 생성된 Structure의 성질을 검출을 위해 해석한다. Latent Structure는 물체의 고유한 특징과 주변 Context 정보를 고려해 적응적으로 생성되기 때문에 앞서 기술된 여러 어려움에 강인하다. LSDN은 Latent Structured Network와 Structure-Aware Detection으로 구성된다. Latent Structured Network는 실증적으로 파트들의 최적의 위치와 모양을 학습함으로써 큰 제약 조건을 두지 않고 물체의 Latent Part의 Set을 생성한다. Structure-Aware Detection을 3가지 방법 (독립적인 Part들의 평균적인 결정, Part들의 외형 정보와 위치 정보를 기반으로 결정)으로 Latent Structure를 이해함으로써 물체를 인식한다. 제안된 LSDN은 검출율을 두드러지게 향상시킨다. Pascal VOC 에서 mAP를 4.5 포인트만큼 향상시키고 MS COCO 에서는 COCO-style mAP를 8.9 포인트만큼 향상시킨다. 우리는 실제 Latent Structure의 모습을 시각화 하고 LSDN에 대한 비교 분석을 광범위하게 진행했다. 이 실증적인 관찰들은 Latent Structure와 Latent Part를 기반으로 하는 검출 방법이 중요하고 효과적인 것을 증명한다. 우리의 LSDN은 물체의 구조를 이해하기 때문에 특히나 물체 표현을 일반화 하는데 강점이 있다. 우리는 가벼운 기반 네트워크 환경과 극히 적은 수의 학습 데이터에서도 제안된 방법이 높은 성능 향상을 보이고 유지하는 것을 보임으로써 일반화 특징이 유효함을 보였다. LSDN을 적용함으로써, CNN 기반의 검출 방법들은 검출 성능을 향상 시킬 수 있고 적은 수의 학습 데이터로도 학습 될 수 있다.
Object detection is a core problem that has been studied for over a decade in computer vision because of its extensiveness of applicable areas, such as robotics, visual surveillance and autonomous safety. In recent years, there have been outstanding achievements in object detection by successfully deploying a Convolutional Neural Network (CNN). Despite its success, there is still a gap between current state-of-the-art performance and perfectness, and many challenging problems remain unsolved. This dissertation introduces a study on scale variation and visual context to overcome the challenging problems and proposes a new object-detection framework that comprehensively considers the difficulties such as pose and scale variation, occlusions, camera perspectives and various classes. We propose a Scale Aware Network (SAN) that maps the convolutional features from the different scales onto a scale-invariant subspace to make CNN-based detection methods more robust to the scale variation, and also suggest a unique learning method which considers purely the relationship between channels without the spatial information for the efficient learning of SAN. The proposed SAN can be generally applied to many CNN-based detection methods to enhance the detection accuracy. We show the validity of the proposed SAN by visualizing how convolutional features change according to the scale and performing ablation studies on its behaviors. We propose a Boundary Aware Network (BAN) that deploys multiple visual contexts to consider surroundings around the boundaries of a given object. The proposed BAN allows the existing CNN-based detection methods to handle an additional source of contexts for detection and selectively focus on the more important contexts, and it also can be generally applied to many other detection methods to enhance the detection accuracy. We show the validity of the proposed BAN by visualizing the activation of the sub-networks according to the visual contexts and performing ablation studies on its behaviors. Based on these two studies, we propose a new object-detection framework called Latent Structured Detection Network (LSDN) that fundamentally covers a wide variety of difficulties with contextual information. The proposed LSDN builds a latent structure that consists of fully-deformable parts, then interprets the properties of the structure in a deep and end-to-end manner. The latent structure is robust to the described difficulties because it is adaptively built to capture the unique characteristics of an object and consider the contextual information. LSDN consists of a latent structured network and a structure-aware detection. The latent structured network builds a set of latent parts for an instance without heavy constraints, by empirically learning the optimal locations and shapes of the parts. The structure-aware detection recognizes an instance by understanding the latent structure in three ways: averaged-decision of independent parts; appearance; and spatial information of fully-connected parts. The proposed LSDN significantly increases detection accuracy by 4.5 points in mAP on Pascal VOC and by 8.9 points in COCO-style mAP on MS COCO. We describe the visualization of the actual latent structure and extensively perform ablation studies. These empirical studies prove that the latent structure and the detection based on latent parts is important and effective. Our LSDN has strengths in generalization of object representation by understanding the structure of an object. We prove the generalization ability by showing that LSDN considerably increases mAP even with a light-weight backbone network, and works well with extremely few training samples. By adopting LSDN, CNN-based detection methods can improve the detection accuracy or train the detection network on a small number of training samples with a reasonable increase in computing time.
URI
http://postech.dcollection.net/common/orgView/200000217137
https://oasis.postech.ac.kr/handle/2014.oak/111166
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse