* 해당 게시물은 개인적으로 공부를 하며 작성한 내용입니다. 혹 잘못된 부분이 있더라도 이해해주시고 말씀해주시면 수정하여 반영하도록 하겠습니다! 감사합니다 :)
목차
Abstract
1. Instroduction
2. RelatedWork
3D hand shape and pose estimation from depth images
3D hand pose estimation from RGB images
3D human body shape and pose estimation from a single RGB image
3. 3D Hand Shape and Pose Dataset Creation
4. Methodology
4.1. Overview
4.2. Graph CNNs for Mesh and Pose Estimation
4.3. Fully-supervised Training on Synthetic Dataset
Heat-map Loss
Mesh Loss
3D Pose Loss
4.4. Weakly-supervised Fine-tuning
Depth Map Loss
Pseudo-Ground Truth Mesh Loss
5. Experiments
5.1. Datasets, Metrics and Implementation Details
5.2. Ablation Study of Loss Terms
5.3. Evaluation of 3D Hand Mesh Reconstruction
Direct LBS
MANO-based Method
5.4. Evaluation of 3D Hand Pose Estimation
Self-comparisons
Comparisons with State-of-the-arts
5.5. Runtime and Qualitative Results
Runtime.
Qualitative Results
6. Conclusion
Abstract
이 논문에서는 full 3D 손 모양과 단일 RGB 이미지에서 포즈를 추정하는 새롭고 도전적인 문제를 해결한다.
monocular RGB 이미지들의 3D 손 분석에 관한 현재 대부분 방법들은 3D 손 모양을 완전히 표현할 수 없는 keypoint들의 3D 위치 추정에만 초점을 둔다.
대조적으로, 우리는 3D 손 모양과 포즈의 풍부한 정보를 포함하는 손표면의 전체 3D mesh를 재구성하는 Graph Convolutional Neural Network (Graph CNN)기반의 방법을 제안한다.
full supervision으로 네트워크를 학습시키기위해, 우리는 사실적인 3D mesh들과 3D 포즈들을 포함하는 대규모 합성 데이터셋을 만든다.
3D ground truth 없이 실제 데이터셋에서 네트워크를 fine-tuning 할때, 우리는 학습에서 weak supervision으로 깊이 맵을 활용하면서 weakly-supervised한 접근법을 제안한다.
우리가 새롭게 제안한 새로운 데이터 셋들과 두 공개된 데이터 셋들에 대한 광범위한 평가를 통해, 우리가 제안한 방법이 정확하고 합리적인 3D 손 mesh를 만들어낼 수 있고, 최신 방법들과 비교해봤을때 더 탁월한 3D 손 동작 추정 정확도를 달성했음을 보여준다.
Introduction
Vision기반의 3D 손 분석은 가상현실(VR)과 증강현실(AR)에 관한 많은 응용 프로그램들이 있기때문에 매우 중요한 주제이다. 하지만, 수 년간의 연구[40, 57, 58, 47, 45, 13, 27] 에도 불구하고, 손 모양, 포즈, 제스처, 폐색(occlusion) 등의 다양성과 복잡성으로 인해 여전히 해결되어야 할 문제로 남아있다.
지난 10년간, 우리는 depth 이미지들[35, 52, 12, 15, 14, 61, 11, 16]에서의 3D hand pose estimation분야의 빠른 발전을 목격했다. RGB 카메라가 깊이 카메라보다 광범위하게 사용 가능하다는 점이 고려되면서,
최근 몇몇 연구에서는 monocular RGB 이미지들에서 3D hand pose를 살펴보기 시작하며 주로 sparse(희박한) 3D hand joint 위치들의 추정에 중점을 두고있지만, dense(밀도높은) *3D 손 모양 (hand shape)은 무시한다.
* 3D hand shape 관련 논문 [63, 44, 32, 5, 20, 36, 38]
그러나, 많은 *immersive한 VR 및 AR 응용 프로그램에서는 종종 3D hand shape와 3D hand pose을 모두 정확하게 측정해야한다.이러한 사실은 우리로하여금 더 도전적인 작업을 하게끔 동기를 부여한다 :
단일 RGB 이미지에서 3D hand joint 위치뿐만 아니라 손 표면의 전체 3D mesh를 공동으로 추정하는 방법은 무엇인지?
이 논문에서, 우리는 그림1과 같이 작업에 대한 올바른 해결책(solution)을 개발한다.
*immersive : seeming to surround the audience, player, etc. so that they feel completely involved in something
단일뷰(single-view) 3D hand shape 추정 작업은 이전에 연구되었지만, 깊이 센서를 사용할 수 있는 제한된 환경에서 주로 이뤄졌다. 기본 아이디어는 반복적 최적화를 통해 입력 깊이(input depth) 이미지에 생성적 3D hand 모델을 맞추는 것이다 [49, 30, 24, 21, 51, 41].
대조적으로, 우리는 아직 광범위하게 연구되지 않은 monocular RGB 이미지에서 3D 손 모양을 추정하는 것을 고려한다.
RGB 이미지들에 명시적인 depth 신호들이 없으면 반복적인 최적화 접근으로는 이 작업이 해결되기 어렵다.
이 작업에서는 single RGB 이미지에서 직접 3D hand mesh를 복구하기 위해 end-to-end 방식으로 훈련된 deep neural network(심층 신경망) 들을 적용한다. 구체적으로는, 손 표면을 보여주는 삼각형 mesh의 *topology를 미리 정의하고, deep neural network들을 사용하여 mesh에 있는 모든 정점의 3D 좌표를 추정하는 것을 목표로 한다.
* topology : the way the parts of something are organized or connected (위상학적)
이 목표를 달성하기 위한 몇가지 달성 과제가 있다.
첫째로, 3D hand mesh 생성을 위한 출력 공간의 높은 차원이다. hand skeleton(예시로 21 관절들)의 sparse한 3D 관절 위치들을 추정하는것과 비교해, conventional CNNs를 사용하여 dense mesh 정점들의 3D 좌표를 추정하는것이 훨씬 더 어렵다.
간단한 해결책은 인체 형태 추정에 사용되는 공통적인 접근법, 즉 사전에 정의된 변형가능한 hand model의 low-dimensional 파라미터들을 회귀하는(regress) 일반적인 접근법을 따르는 것이다.
본 논문에서는 3D mesh를 그래프로 쉽게 표현할 수 있기때문에, output 3D hand mesh 정점들은 본질적으로 그래프 구조적(graph-structured) 데이터라고 주장한다.
Graph CNNs [8, 39, 56]에 대한 최근 연구들에 의해 동기 부여 된, 그래프 구조화 된(graph-structured) 데이터를 출력하고 그래프에서 메쉬 정점 간의 topological한 관계를 보다 잘 활용하기 위해, 새로운 Graph CNN 기반 접근법을 제안한다.
구체적으로는 특히, 우리는 백본 네트워크에 의해 추출된 이미지 특징으로부터 그래프에 3D hand mesh 정점들을 생성하기 위해 upsampling과 nonlinear activation가 있는 graph convolution들을 계층적으로 채택한다.
이러한 end-to-end의 훈련가능한 framwork를 통해, 우리의 Graph CNN 기반의 방법은 매우 가변적인 3D hand shape들을 더 잘 표현할 수 있으며, 3D 손 모양들의 지역적 세부사항들을 더 잘 표현할 수 있다.
연산적인(computational) model 외에도, 추가적인 해결과제로는 실제 이미지들의 ground truth 3D hand mesh 학습 데이터 부족이 있다.
실제 RGB 이미지에서 ground truth 3D hand mesh들을 수동적으로 annotating 하는것은 매우 힘들고(laborious) 많은시간이 걸린다. 따라서 우리는 훈련(학습, training)을 위해 3D hand pose와 3D hand mesh의 ground truth를 포함하는 대규모 합성 데이터셋을 생성하기로 결정했다.
하지만, 합성 데이터셋에 대해 학습된 모델은 일반적으로 실제 데이터셋간의 domain 차이때문에 만족스럽지 못한 추정 결과를 생성한다.
[5, 37] 에서 영감을 얻은 이러한 문제의 해결을 위해, 실제 학습 데이터를 수집할때 RGB-D 카메라로 depth map이 쉽게 포착될 수 있으므로, 3D mesh 생성의 weak supervision으로 depth map을 활용하여 weakly supervised되는 새로운 방법을 제안한다.
보다 구체적으로, 실제 데이터셋들에 대한 fine-tuning을 할때, 생성된 3D hand mesh를 이미지 평면(plane)의 depth map으로 변환하고(render), 표3에서 보여지는 것과 같이 참조 depth map에 대한 depth map loss를 최소화 한다.
단, 테스트 동안에는 오직 전체 3D hand shape와 pose를 추정하기위한 입력으로써만 RGB 이미지가 필요하다.
우리가 알고있는 바에 의하면, 우리는 single(단일) RGB 이미지에서 3D hand pose 뿐만 아니라 완전한 3D hand shape를 추정하는 문제를 처음으로 다룬다.
우리의 main contribution은 아래와 같이 요약된다 :
-
우리는 Graph CNN[8]기반의 end-to-end 훈련가능한 hand mesh 생성 방법을 제안한다.
우리의 방법은 hand shape의 변화들을 잘 표현할 수 있고 지역적 세부사항을 잘 포착해낼 수 있음을 실험을 통해 확인할 수 있다. 또한, 모든 3D hand mesh를 추정 함으로서 Sec.5.4 에서 검증된 것과 같이, 3D hand pose의 정확도 성능을 향상시킴을 확인했다.
-
실제 이미지들의 3D hand mesh 또는 3D hand pose의 어떠한 주석들이 요구되지 않고 생성된 3D mesh를 이미지 평면(image plane)의 depth map으로 렌더링하고 & 참고 depth map을 weak supervision으로 활용하여, 실제 데이터 세트에 weakly-supervised되는 학습 파이프라인(training pipepline)을 제안한다.
-
우리는 최초로 손 표면의 3D hand 관절 위치와 모든 3D mesh들의 annotation을 포함하는 대규모의 합성 RGB 기반의 3D hand shape와 pose 데이터셋, 뿐만아니라 소규모 실제 데이터셋을 소개한다. 이 논문의 acceptance가 이되자마자 우리의 데이터셋들을 공개적으로 공유할 것이다.
우리는 우리가 제안한 synthetic 그리고 실제 데이터셋들, 뿐만아니라 두 공개 데이터셋들[62, 63]에 대해 포괄적인 실험들을 수행한다. 실험 결과는 우리가 제안한 방법이 GPU에서 실시간의 속도로 정확하고 합리적으로 3D handmesh를 생성할 수 있고, 최신 방법과 비교할 때 3D hand pose 추정에서 뛰어난 정확성을 이뤄낼 수 있음을 보여준다.
Conclusion
이 논문에서 우리는 단일 RGB 이미지로부터 손 모양과 포즈 추정의 까다로운 과제를 다뤘다.
입력 RGB 이미지로부터 손 표면의 전체 3D mesh를 재구성하기위한 Graph CNN기반의 모델을 개발하였다.
모델을 학습시키기위해, 3D 관절 위치와 3D hand mesh의 ground truth annotations로 구성된 대규모의 합성 RGB 이미지 데이터셋을 만들었고 fully-supervised한 방식으로 우리 모델을 학습했다.
3D ground truth 없이 실제 데이터셋들에 대한 우리 모델을 fintune하기위해, 생성된 3D mesh를 depth map으로 변환하고 (render), weak supervision으로 관찰했던 depth map을 활용한다.
우리가 제안한 새로운 데이터셋들과 두 공개 데이터셋들에 대한 실험은, 본 논문에서 제안한 방법으로 실시간으로 정확한 3D 손 mesh와 3D 관절 위치들을 되찾을 수 있음을 보여준다.
향후 작업에서는, 우리는 Macap 데이터를 사용해 더 큰 3D 손 포즈와 모양 데이터셋을 만들 것이다.
또한 손 포즈와 형태 추정을 더 견고하도록 하기위해 손-객체 그리고 손-손의 사례도 고려 할 것이다.
출처
- Liuhao Ge, Zhou Ren, Yuncheng Li, Zehao Xue, Yingying Wang, Jianfei Cai, and Junsong Yuan. 3d hand shape and pose estimation from a single rgb image. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition