catch-img

最新論文調査:教師なし3D Human Pose Estimation編


目次[非表示]

  1. 1.はじめに
  2. 2.背景
    1. 2.1.3D Human Pose Estimationとは
    2. 2.2.3D Human Pose Estimationの課題
  3. 3.論文紹介
    1. 3.1.Chen et al. CVPR (2019) [5]
    2. 3.2.Wandt et al. CVPR (2022) [7]
    3. 3.3.Kudo et al. arxiv (2018) [8]
  4. 4.おわりに
  5. 5.引用


はじめに

こんにちは、AI技術開発部で機械学習モデルの開発をしている小幡です。

我々のチームでは「教師なし3D Human Pose Estimation」について、事業適用の可能性を探っています。

今回は「教師なし3D Human Pose Estimation」の論文調査結果から、いくつか論文を紹介したいと思います。


背景

3D Human Pose Estimationとは

3D Human Pose Estimationは文字通り、3Dの人物の姿勢推定を行うタスクです。 例えば、2022年のCVPR(コンピュータビジョンとパターン認識の国際的な年次カンファレンス)では、Transformerを用いて3D Pose Estimationを解いた研究(Zhang et al. CVPR (2022)[1])が発表されています。


Zhang et al. CVPR (2022)[1]より引用


3D Human Pose Estimationの課題

ですが、3D Human Pose Estimationには大きな課題が一つあります。 それは、学習用データの作成が困難である、という点です。

通常、3D空間上での人の関節点をアノテーションするにはモーションキャプチャーが必要です。 ですが、モーションキャプチャーによる3Dデータ作成には時間と労力がかかります。 そのため、実際に利用できる学習データはラボ環境(研究室内など)で作成されたデータなどに限られます。(3DHP[2]など)

このように撮影状況が限られるラボ環境データと実際の適用先には、ドメイン差があります。

したがって、実際にラボ環境で学習したモデルを適用先で利用してみると性能が落ちることが知られています。[3]

この課題を解決するため、ラボ環境データで学習した上で、適用先での性能を向上させるというアプローチもいくつか存在します。


Zhang et al. NeurIPS (2020)[3]から引用

Gholami et al. CVPR (2022)[4]より引用


今回紹介する「教師なし3D Human Pose Estimation」もこの課題を解決するためのアプローチの一つです。

教師なし3D Human Pose Estimationは、正解データとなる3Dの姿勢データを用いません。

実際に2つの論文を紹介していきます。


論文紹介

Chen et al. CVPR (2019) [5]



Chen et al. CVPR (2019) [5]の提案モデルでは、正解3D Poseデータを使わず単一視点の2D Poseデータのみで、3D Human Pose Estimationの学習を実現します。

ネットワークアーキテクチャに関して、簡単に解説します。
まず、入力は2Dの姿勢推定結果です。例えば、OpenPose[9]の推論結果などです(論文では、性能評価のために3D Poseデータから得られる2D Poseデータを用いています)。
その推論結果をlifting network(2D Poseを入力として、3D Poseを出力するネットワークのこと)に入力します(画像上のEstimate 3D Skeleton部)。
この時点で正確な3D Poseが推定できていれば、この3D Poseはどんな角度から見てもHuman Poseとして見えるはずです。
そこで、この3D Pose推定結果をランダムに回転させ(Transformed 3D skeleton部)、2D Poseに投影します(Random 2D Projection部)。
この投影2D Poseが”正しい2D Pose”であれば、Lifting networkで再度3D Poseにすることができるはずです(画像下のEstimated 3D skeleton部)。
この投影2D Poseを再liftingしランダム回転を戻して、2D Poseに再投影する(画像下の3D skeleton部)ことで、入力と等しい2D Poseが得られるはずです(Recovered 2D Pose部)。
このアーキテクチャによって、3D Pose、2D PoseそれぞれのLossを計算することができます(L3D, L2D部)。
さらに、途中で算出したランダム投影した2D Poseと本当の2D Poseデータの敵対的Lossをとることができます(2D pose descriminator部)。

他にも、時系列方向のlossなど多くの工夫が含まれますが、大まかなアーキテクチャは上記のとおりです。

定量評価、定性評価どちらの面でも良い結果が確認できます。


Wandt et al. CVPR (2022) [7]



著者は2019年のCVPRでカメラloss、Chen et al. CVPR (2019)[5]のL2D相当の再投影lossを扱ったliftingネットワークを提案していました(Wandt et al. CVPR (2019)[6])。

その時点では、Chen et al. CVPR (2019)[5]のようなアーキテクチャを利用していませんでした。しかし、Wandt et al. CVPR (2022)[7]では、Chen et al. CVPR (2019)[5]相当のアーキテクチャを組み込んでいます。

Chen et al. CVPR (2019)[5]とは異なり、カメラの仰角の推定、Normalizing Flowの採用などを行っています。

こちらも定量、定性評価の両面で優れた結果が確認できます。



Kudo et al. arxiv (2018) [8]

日本研究者も類似の研究を発表しています。ドワンゴらしく、ニコニコ静画[10]で動画が公開されています。

Chen et al. CVPR (2019)[5]でも敵対的Lossを計算していましたが、そのアイディアのもとになったのがKudo et al. arxiv (2018) [8]です。

Chen et al. CVPR (2019)[5]と異なり、シンプルなネットワークアーキテクチャですが、それらしい結果が定性的に確認できます。




おわりに

教師なし3D Human Pose Estimationについていくつか論文を紹介させていただきました。

3Dの可能性につながる非常に興味深いテーマかと思います。

本記事が皆様にとって有益な情報であれば、幸いです。




コニカミノルタは画像IoTプラットフォームFORXAIを通じて、お客様やパートナー様との共創を加速させ、技術・ソリューションの提供により人間社会の進化に貢献してまいります。


引用

[1] J. Zhang, Z. Tu, J. Yang, Y. Chen, and J. Yuan, “Mixste: Seq2seq mixed spatio-temporal encoder for 3d human pose estimation in video” in CVPR, 2022, pp. 13 232–13 242. 12, 16, 17

[2] Dushyant Mehta, Helge Rhodin, Dan Casas, Pascal Fua, Oleksandr Sotnychenko, Weipeng Xu, and Christian Theobalt. Monocular 3d human pose estimation in the wild using improved cnn supervision. In 3D Vision (3DV), 2017 Fifth International Conference on. IEEE, 2017. 5, 7

[3] Jianfeng Zhang, Xuecheng Nie, and Jiashi Feng. Inference stage optimization for cross-scenario 3d human pose estimation. In NeurIPS, 2020. 1, 2, 6, 7

[4] Mohsen Gholami, Bastian Wandt, Helge Rhodin, Rabab Ward, Z. Jane Wang, "AdaptPose: Cross-Dataset Adaptation for 3D Human Pose Estimation by Learnable Motion Generation", in CVPR 2022, pp. 13075-13085

[5] Ching-Hang Chen, Ambrish Tyagi, Amit Agrawal, Dylan Drover, Stefan Stojanov, and James M Rehg. Unsupervised 3d pose estimation with geometric self-supervision. In Conference on Computer Vision and Pattern Recognition (CVPR), pages 5714–5724, 2019. 1, 3, 4, 5, 6, 7, 8

[6] Bastian Wandt and Bodo Rosenhahn. Repnet: Weakly supervised training of an adversarial reprojection network for 3d human pose estimation. In Conference on Computer Vision and Pattern Recognition (CVPR), June 2019. 2, 6

[7] Bastian Wandt, James J. Little, and Helge Rhodin. Elepose:Unsupervised 3d human pose estimation by predicting cam-era elevation and learning normalizing flows on 2d poses. In Computer Vision and Pattern Recognition (CVPR), 2022. 1

[8] Yasunori Kudo, Keisuke Ogaki, Yusuke Matsui, and Yuri Odagiri. Unsupervised adversarial learning of 3d human pose from 2d joint locations. arXiv preprint arXiv:1803.08244, 2018. 3

[9] Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh. Realtime multi-person 2d pose estimation using part affinity fields. In CVPR, 2017. 2, 4, 6

[10] https://www.nicovideo.jp/watch/so32990471

Obata Tomokazu
Obata Tomokazu
FORXAI事業統括部 AI技術開発部 第1グループ所属 機械学習モデルの開発を行っています。


pagetop