Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

3D Human Pose Estimation Using Ridge Data in Depth Image

Title
3D Human Pose Estimation Using Ridge Data in Depth Image
Authors
김연호
Date Issued
2019
Publisher
포항공과대학교
Abstract
사람 자세 추정은 동작 인식, 컴퓨터 상호 작용, 오락 등 다양한 실용 분야에서 인간의 행동을 이해하는 가장 근본적인 기술이다. 본 학위 논문은 단일 깊이 영상의 거리 변환 지도에서 국지적인 최대치인 산등성이 데이터를 제안하며, 가려짐, 전신 회전 및 빠른 움직임이 발생해도 사람 뼈대에 대한 선택적 표현을 보여준다. 깊이 영상에서 사람의 실루엣을 분리하여 산등성이 데이터를 추출한다. 사람 실루엣 분리 프로세스는 바닥 제거, 객체 분할, 사람 검출 및 사람 식별의 네 단계로 구성된다. 그런 다음, 분리된 사람 실루엣의 가장자리 이미지로부터 거리 변환 지도를 계산한다. 산등성이 데이터는 거리 변환 지도에서 국부적 최대치를 찾아 추출한다. 산등성이 데이터의 효과를 나타내기 위해 산등성이 데이터를 사용하는 두 가지 유형의 사람 자세 추정 방법을 제안한다. (1) 특징 기반 계층적 사람 자세 추정, (2) 합성곱 신경망 네트워크 기반 사람 자세 추정. 특징 기반의 방법은 초기 사람 모델에 따라 잘못된 데이터를 제거하여 사람의 관절을 계층적으로 추적한다. 초기 사람 모델의 매개변수는 신체 부위의 길이와 각도로서, 초기 자세에서 측정되거나 사람 자세 데이터베이스에서 검색된다. 특징 기반 사람 자세 추정은 관절 예측, 후보 수집, 데이터 정리 및 관절 추정의 네 가지 순차적 하위 작업으로 구성된다. 하위 작업은 머리, 몸통 및 팔다리의 계층적 순서로 사람 관절을 추적한다. CNN(Convolutional Neural Network)기반 방법은 다음과 같은 두 가지 방법으로 구성된다. (1) 얕은 CNN 기반 회귀분석 방법, (2) 다채널 CNN 기반 회귀분석 방법. 얕은 CNN에 기반한 회귀분석 방법은 3개의 합성곱 레이어와 3개의 완전히 연결된 레이어로 구성되어 있으며, 3가지 유형의 손실 함수를 사용하여 입력 깊이 영상에서 3차원 사람 자세를 직접적으로 분석한다. 본 학위 논문에서는 산등성이 데이터를 개별 화소에서 산등성이 정도을 나타내는 하나의 추가 채널로써 사용한다. 다채널 CNN 기반 회귀분석 방법은 깊이 영상과 산등성이 데이터를 3개의 직교 평면에 투영하고 2차원 히트맵을 생성하여 각 평면에서 관절의 위치를 추정한다. 각 평면의 추정 관절 위치는 3차원 사람 자세를 분석하기 위해 결합되어 완전히 연결된 세 개의 레이어에 공급된다. 본 학위 논문에서는 사람 자세 추정 방법의 정확성을 보여주기 위해 K-Pop 댄스 선생님을 제안한다. K-Pop 댄스 선생님은 학습자의 춤 실력을 타이밍과 자세 정확도 측면에서 자동으로 평가하며, 이를 위해 학습자의 자세를 인접한 관절 간의 각도로 표현한 댄스 특징으로 변환한다. 본 학위 논문에서 제안한 방법의 유효성을 확인하기 위해 벤치마크 Dataset인 SMMC-10 및 EVAL과, 대용량 K-Pop 댄스 Dataset에 대해 여러 가지 실험을 수행하였다. 또한 제안한 산등성이 데이터의 효과를 검증하기 위해, 산등성이 데이터를 중축 변환(Medial Axis Transform) 및 확장 중축 변환(Dilated Medial Axis Transform)과 같은 기존의 골격화 기술과 비교하였다. 제안한 특징 기반 사람 자세 추정 방법은 SMMC-10과 EVAL Dataset에서 각각 0.7735와 0.9358의 자세 추정 정확도(mAP)와 3.88cm와 4.72의 평균 자세 오차(cm)를 달성하였다. 특징 기반 방법의 평균 계산 시간은 3.45ms (290fps)이다. 제안한 다채널 CNN 기반 사람 자세 추정 방법은 EVAL Dataset에서 자세 추정 정확도가 0.9801 mAP이다. K-Pop 댄스 선생님은 전문가 평가와 98%의 일관성을 달성했다.
Human pose estimation is the most fundamental technology to understand human behavior in various practical areas such as action recognition, human-computer interaction, entertainment. This thesis proposes ridge data that is the local maxima in the distance transform map of a single depth image and shows the selective representation of body skeleton although there have occlusion, full-body rotation, and fast movement. We need to segment human silhouette from depth image in order to extract the ridge data. The process of human segmentation consists of four steps; floor removal, object segmentation, human detection, and human identification. Then, we compute the distance transform map from the edge image of the segmented human silhouette. The ridge data is extracted by finding the local maxima in the distance transform map. To show the effectiveness of the ridge data, we consider two types of human pose estimation using the ridge data: (1) feature-based hierarchical human pose estimation and (2) convolutional neural networks-based human pose estimation. The feature-based method hierarchically tracks the human joints by pruning the invalid data according to an initial human model. The parameters of the initial human model are the lengths and angles of body parts and they are either generated from an initial pose or retrieved from the human pose database. The feature-based human pose estimation performs four functional subtasks sequentially: joint prediction, candidates collection, invalid-data pruning, and joint estimation. The subtasks are performed to track the human joints in a hierarchical order of head, torso, and limbs. The convolutional neural network(CNN)-based method consists of two methods: (1) shallow CNN-based regression method and (2) multi-channel CNN-based regression method. The shallow CNN-based regression method consists of three convolutional layers and three fully-connected layers and directly regress the 3D human pose from the input depth image using three types of loss functions. We utilize the ridge data as one additional channel whose pixel represents the ridgeness at the position. The multi-channel CNN-based regression method projects the depth image and ridge data onto three orthogonal planes and generates 2D heatmaps to estimate the keypoints on each plane. The estimated keypoints of each plane are concatenated and fed to three fully-connected layers to regress the 3D human pose. We consider the K-Pop dance teacher to evaluate the learner's dance performance automatically in order to show the accuracy of the proposed human pose estimation method. The K-Pop dance teacher evaluates the learners' dance performances concerning timing and pose accuracy using dance features that encode the learner's pose as the relative angles between adjusted joints. To validate our proposed methods, we conduct several experiments on the benchmark dataset SMMC-10 and EVAL, and a sizeable K-Pop dance dataset. To validate the effectiveness of the proposed ridge data, we compare the ridge data with the existing skeletonization techniques such as medial axis transform (MAT) and dilated medial axis transform (DMAT). The proposed feature-based human pose estimation method achieves the pose estimation accuracy of 0.9735 and 0.9358 mAP, and average pose error 3.88 and 4.72 cm on the SMMC-10 and EVAL dataset, respectively, and the average computation time of 3.45 ms (290 fps). The proposed four- and six-channel CNN-based human pose estimation method achieved the pose estimation accuracy of 0.9667 and 0.9801 mAP, respectively, on the EVAL dataset. The proposed K-Pop dance teacher achieves 98\% concordance with the experts’ evaluation of dance performance.
URI
http://postech.dcollection.net/common/orgView/200000178327
https://oasis.postech.ac.kr/handle/2014.oak/110974
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse