
最新論文調査:Human Motion Completion編
目次[非表示]
- 1.はじめに
- 2.Human Motion completionとは
- 3.論文紹介
- 3.1.Robust Motion In-betweening (SIGGRAPH 2020)[1]
- 3.2.Convolutional Autoencoders for Human Motion Infilling (3DV 2020)[2]
- 3.3.Task-Generic Hierarchical Human Motion Prior using VAEs (3DV 2021)[3]
- 3.4.Single-Shot Motion Completion with Transformer (arxiv 2021)[4]
- 4.おわりに
- 5.引用
はじめに
こんにちは、AI技術開発部で機械学習モデルの開発をしている小幡です。
我々のチームでは、昨年度からHuman Motion Completionという研究分野について論文調査を行い、事業適用の可能性を探っています。
今回はそのHuman Motion Completionの論文調査結果からいくつか論文を紹介したいと思います。
Human Motion completionとは
Human Motion Completionとは、人関節点の時系列データの欠損を埋めるタスクです。
例えば、近年の3Dゲームキャラクターのモーションは、複雑で多様なものが要求されます。
このような複雑なキャラクターアニメーションの作成は非常に時間がかかる作業です。
このような課題を解決するため、Robust motion in-betweening (SIGGRAPH 2020)[1]では、キーフレームと欠損フレームを入力として、欠損フレームが埋められたHuman Motionを生成する、というHuman Motion in-betweeningというタスクを解いています。
Robust Motion In-betweening (SIGGRAPH 2020)[1] Fig.1より引用
このように、フレーム間の間を埋めるタスクをHuman Motion Infilling, Completionなどと呼びます。
In-betweening[1] / Infilling[2] / Interpolation[3] / Completion[3,4]など、いくつかの論文で数種類のタスクが定義されていますが、今回はタスクの細かい違いは割愛して、このHuman Motion Completion関係の論文をいくつか紹介させていただきます。
論文紹介
Robust Motion In-betweening (SIGGRAPH 2020)[1]
LSTMベースのネットワークによって、フレーム間の補完を実現している研究です。
transformer[5]から着想を得たTime-to-arrival embeddingsによって、補完されるフレーム数を任意に設定することができます。
ゲーム会社のUbisoftから出ている論文で、公式サイトで非常にわかりやすく解説されています。
また他にも、頑健性向上のためのscheduled target-noise、短期間・長期間のフレーム補間どちらも考慮するLSGAN[6]、など多くの工夫がされています。
Robust Motion In-betweening (SIGGRAPH 2020)[1] Fig.2より引用
デモ動画をみても、非常に良くMotionを生成できてることがわかります。
動画中では、プラグインとしてツール上で動作している様子も確認できます。
Convolutional Autoencoders for Human Motion Infilling (3DV 2020)[2]
フレーム間補完タスクをImage Inpaintingタスク[7]と同様に捉えて、AutoEncoderによってHuman Motion Infillingを達成した研究です。
Robust Motion In-betweening (SIGGRAPH 2020)[1]では様々な工夫を行っていましたが、こちらは非常にシンプルなモデルになっています。
Convolutional Autoencoders for Human Motion Infilling (3DV 2020)[2] fig.3より引用
Convolutional Autoencoders for Human Motion Infilling (3DV 2020)[2] fig.4より引用
シンプルなAutoEncoderでデモ動画のような補完ができることは驚きです。
また、InfillingだけでなくDenosing, Blending, Recovering Jointにも言及しており、この研究分野の幅の広さが伺える内容になっています。
Task-Generic Hierarchical Human Motion Prior using VAEs (3DV 2021)[3]
Variational AutoEncoder[8]とSkeleton-awareネットワーク[9]を組み合わせて、Human Motionに関する様々なタスクを解いている研究です。
Task-Generic Hierarchical Human Motion Prior using VAEs (3DV 2021)[3] fig.2より引用
3D pose estimationによるノイズが多く含まれる3D Motion、フレームが欠損した3D Motion、下半身が欠損した3D Motion、など様々な状況に対応しています。
Task-Generic Hierarchical Human Motion Prior using VAEs (3DV 2021)[3] fig.1より引用
Single-Shot Motion Completion with Transformer (arxiv 2021)[4]
Transformer[5]によって直接Motion Completionタスクを解いた研究です。
Single-Shot Motion Completion with Transformer (arxiv 2021)[4] のfig.2より引用
従来のTransformerにおけるposition embeddingと、補間されないキーフレームを特定するためのkeyframe embedding(Keyframe = 0, Unknown = 1, ignored = 2)を同時に扱うMixture-embeddingを実装しています。
これにより、異なる補完タスクに対応したembeddingが可能になっています。
Single-Shot Motion Completion with Transformer (arxiv 2021)[4] fig.3より引用
この論文も非常にシンプルですが、定性的に良く補間ができていることがわかる研究です。
著者のgithubリポジトリ上に、デモgif画像があります。
おわりに
Human Motion Completionの論文をいくつか紹介させていただきました。
これからMotion Completionだけでなく、Motion Blendingまで実際に使えるようになると、3Dアニメーション制作に非常に有益なものになるのではないでしょうか。
個人的に今後もこの分野の論文を追っていきたいと思います。
今後も、コニカミノルタAI技術開発部では最新論文の調査、様々な機械学習モデルの開発を日々行い、価値あるサービスにつなげていきます。
引用
[1] Felix G Harvey, Mike Yurick, Derek Nowrouzezahrai, and Christopher Pal. Robust motion in-betweening. ACM Transactions on Graphics (TOG), 39(4):60–1, 2020.
[2] Manuel Kaufmann, Emre Aksan, Jie Song, Fabrizio Pece,Remo Ziegler, and Otmar Hilliges. Convolutional autoencoders for human motion infilling. In 8th international conference on 3D Vision (3DV 2020)(virtual), page 263, 2020.
[3] Li, J., Villegas, R., Ceylan, D., Yang, J., Kuang, Z., Li, H.,and Zhao, Y. Task-generic hierarchical human motion prior using VAEs, In 2021 International Conference on 3D Vision (3DV 2021), page, 771, 2021.
[4] Duan, Y., Shi, T., Zou, Z., Lin, Y., Qian, Z., Zhang, B., and Yuan, Y. Single-shot motion completion with transformer, 2021, cite arxiv:2201.06701
[5] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. arXiv preprint arXiv:1706.03762, 2017.
[6] Xudong Mao, Qing Li, Haoran Xie, Raymond YK Lau, Zhen Wang, and Stephen Paul Smolley. 2017. Least squares generative adversarial networks. In Proceedings of the IEEE International Conference on Computer Vision. 2794–2802
[7] R. Yeh, C. Chen, T. Lim, M. Hasegawa-Johnson, and M. N. Do. Semantic image inpainting with perceptual and contextual losses. CoRR, abs/1607.07539, 2016. 4
[8] Diederik P Kingma and Max Welling. Auto-encoding variational bayes. ICLR, 2014. 2, 4
[9] Kfir Aberman, Peizhuo Li, Dani Lischinski, Olga SorkineHornung, Daniel Cohen-Or, and Baoquan Chen. Skeletonaware networks for deep motion retargeting. SIGGRAPH, 2020. 2, 3
コニカミノルタは画像IoTプラットフォームFORXAIを通じて、お客様やパートナー様との共創を加速させ、技術・ソリューションの提供により人間社会の進化に貢献してまいります。