Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

Classification Matters: Improving Video Action Detection with Class-specific Attention

Title
Classification Matters: Improving Video Action Detection with Class-specific Attention
Authors
이진성
Date Issued
2024
Abstract
영상 행동 인식은 영상 속에 등장하는 행위자들의 위치와 행동을 동시에 맞히는 문제이다. 이 문제는 이미지에서 고전적으로 다뤄져 온 객체 인식 문제를 단순히 시간 축으로 확장한 문제라고 볼 수도 있지만, 영상 행동 인식은 객체 인식과 달리 클래스 분류 문제에 훨씬 큰 어려움을 겪는 것으로 나타났다. 본 논문은 기존의 방법들이 클래스 분류 시 행위자와 주변 맥락과의 상호작용은 잘 보지 못하고 주로 행위자들의 신체 부위에 집중한다는 관찰 결과와 그 이론적 근거를 제시한다. 또, 이러한 문제를 극복하기 위해 클래스 별로 각각 다른 맥락에 집중하게 하는 방법을 제안한다. 제안된 방법은 각 클래스마다 클래스 쿼리(class query)를 할당하고, 이들이 각 행동 분류에 필요한 자세한 부분들을 관찰하게끔 한다. 이렇게 관찰한 부분들은 기존 방법들과 달리 행위자의 신체 부분에 국한되지 않으며, 각 행동 클래스 분류에 필요한 단서들을 담는다. 제안한 방식은 영상 행동 인식 벤치마크 위에서 기존 최고의 영상 행동 인식 모델보다 나은 효율로 더 좋은 성능을 입증한다.
Video action detection (VAD) aims to detect actors and classify their actions in a video. Although the task can be seen as a temporally-extended version of a classic computer vision task, object detection, it turns out that VAD suffers more from clas- sification rather than localization of actors. We figure that dominant methods in the field tend to focus on actor body regions for classification, then often miss the actor- related context in the background. Accordingly, we propose to reduce the model’s bias toward the actor itself and encourage it to pay attention to context that is more condi- tioned to each class. By assigning a class-dedicated query for each label, the model can dynamically determine where it needs to focus on for effective classification. The proposed method demonstrates competitive performance on three challenging bench- marks, even outperforming those methods that employ a larger number of frames and powerful backbones.
URI
http://postech.dcollection.net/common/orgView/200000732770
https://oasis.postech.ac.kr/handle/2014.oak/123402
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse