Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

Tracking and Segmentation for Single and Multiple Objects in Video

Title
Tracking and Segmentation for Single and Multiple Objects in Video
Authors
손진희
Date Issued
2018
Publisher
포항공과대학교
Abstract
동영상에서의 단일 물체 또는 다중 물체의 추적과 분할은 컴퓨터 비전의 전통적인 한 분야로써 활발히 연구되어오고 있다. 최근의 물체 추적 방법들은 다양한 문제들을 해결하여 왔고 최근 딥러닝의 발전으로 인해 큰 성취를 보여왔다. 그러나 많은 물체추적 방법들은 배경이 복잡할 때, 물체의 대부분이 가려지거나 변형이 심할 때, 비슷한 물체가 주변에 있을 경우 여전히 추적에 실패하게 된다. 따라서 본 논문에서는 단일 물체 및 다중 물체의 추적에서 이러한 문제를 해결하는 다양한 방법들을 제시한다. 먼저, 비강직성 물체를 효과적으로 다룰 수 있는 분할 기반의 추적 알고리즘을 제안한다. 이 분할 기반의 추적 방법은 각각의 픽셀에 해당하는 패치들을 물체와 배경으로 분류하는 분류기를 먼저 학습한다. 분류기를 통해 물체의 분할 마스크를 생성하여 이를 이용하여 물체의 외형 모델을 배경과 분리한다. 본 논문에서는 타겟의 외형모델을 온라인으로 업데이트 가능한 온라인 그레디언트 부스팅 결정 트리를 이용하여 학습하였다. 제안된 온라인 그레디언트 부스팅 결정 트리는 오프라인 샘플을 저장하지 않고 현재 주어진 샘플들로만 분류기를 업데이트할 수 있다. 또한 분류기를 학습할 때 물체의 시각적인 특성 뿐만 아니라 샘플과 물체 중심과의 거리를 함께 사용하여 성능을 향상시켰다. 이 때 물체의 중심은 잠재 변수로 다루어지며 파티클 필터를 이용하여 사후확률을 전파시켰다. 이 방법은 물체의 변형이 비강직이며 굴절이 많은 경우 특히 유용하며 물체의 추적 뿐만 아니라 분할 결과 또한 제공한다. 또한, 본 논문에서는 다중 물체의 추적을 위해 딥러닝 기반의 거리학습 방법을 제안한다. 4개의 검출 박스를 입력으로 받는 쿼드러플렛 로스를 이용하여 두 프레임 사이의 검출된 물체들의 유사도를 학습하였다. 유사도 학습에는 물체의 외형 뿐만 아니라 위치 정보도 함께 사용된다. 기존의 랭킹 로스를 이용한 방법과는 달리 쿼드러플렛 로스는 시간상으로 인접한 두 프레임 사이의 물체의 거리는 시간상으로 먼 물체의 거리보다 가깝도록 강제한다. 또한 바운딩 박스 회귀방법과 최소극대화 레이블 전파 방법을 적용하여 다중 물체 추적을 강건하게 하였다. 마지막으로, 동영상에서의 딥러닝 기반 다중 물체 분할 방법을 제안한다. 다중 물체 분할 문제를 전경 분할과 물체 요소 분할로 나누어 복잡한 다중 물체 분할을 단순화 하였다. 제안된 모델은 영상 인코더는 공유하며 분리된 마스크 인코더와 전경 분할 및 물체 요소 분할을 위한 디코더로 구성된다. 마스크 인코더를 영상 인코더와 분리함으로써 문제의 복잡도를 더 단순화시켜 학습시 빠르게 수렴하며, 별도의 비디오 물체 분할 데이터셋으로 미리 학습할 필요가 없다. 사후 처리를 위해 제안된 수퍼픽셀 그래프 기반의 마스크 개선 과정과 테스트 시의 데이터 확충 기법 또한 성능 향상에 도움을 주었다. 본 논문에서 제안된 물체 추적 및 분할을 위한 방법들은 다양한 벤치마크에서 다른 방법들에 비해 더 높은 성능을 보였다.
Visual tracking and segmentation in video are active fields in computer vision and have been applied for various applications. Although recent tracking and segmentation algorithms deal with various challenges, but they still suffer from severe occlusions, heavy deformation and background clutters in crowded scenes. To address these issues, I will present object tracking and segmentation methods for single and multiple objects by learning appropriate representations of the targets in video with various challenging situations. Firstly, we propose an online tracking algorithm based on object segmentation that adaptively models target appearances based on an online gradient boosting decision tree. Our algorithm is particularly useful for non-rigid and/or articulated objects since it handles various deformations of the target effectively by integrating a classifier operating on individual patches centered at each pixel and provides segmentation masks of the target as final results. The posterior of the target state is propagated over time by particle filtering, where the likelihood is computed based mainly on a patch-level confidence map associated with a latent target state corresponding to each sample. Secondly, we propose Quadruplet Convolutional Neural Networks (Quad-CNN) for multi-object tracking, which learn to associate object detections across frames using quadruplet losses. The proposed networks consider target appearances together with their temporal adjacencies for data association. Unlike conventional ranking losses, the quadruplet loss enforces an additional constraint that makes temporally adjacent detections more closely located than the ones with large temporal gaps. We adopt a bounding-box regression and a modified minimax label propagation algorithm to make fast and robust data association for multi-object tracking. Finally, we present a novel algorithm based on deep neural network for multi-object segmentation in videos. Our approach decouples the task into binary segmentation and foreground instance segmentation by employing a U-Net style architecture. The proposed model has two branches of encoder-decoder networks; it shares image encoder, but has separate segmentation mask encoders and decoders for the two subtasks. This approach deals with multi-object segmentation in a principled way while reducing problem complexity. Our algorithm does not require offline pretraining on video object segmentation datasets and converges a small amount of training iterations since separate mask encoder from image encoder, and connect the mask encoder in a later stage of the network to handle semantic gap of two different inputs. Extensive experiment results on multiple challenging benchmark datasets for each task demonstrated that the proposed tracking and segmentation algorithms achieves substantially improved performance to the state-of-the-art algorithms.
URI
http://postech.dcollection.net/common/orgView/200000107473
https://oasis.postech.ac.kr/handle/2014.oak/93585
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse