
MIRU2022での発表内容のご紹介:人物行動認識
はじめに
FORXAI Engineering Blogをご覧いただき,誠にありがとうございます.
技術開発本部 FORXAI開発センター AI技術開発部の八馬です.私が所属するチームは主に人行動に関連するAI技術の開発を行っています.
7月25日(月)から姫路で開催予定のMIRU2022(第25回 画像の認識・理解シンポジウム)のインタラクティブセッションで,人物行動理解に関する論文を2件発表予定です.
本記事では,そのうち7/26(火)のIS1-61にて発表する「Structured Poolingを用いた複数の人物骨格と物体輪郭からの人物行動認識[1]」という発表の概要をご紹介します.
この記事では概要のみの紹介ですので,もし興味を持っていただいた場合は,是非インタラクティブセッションにお越しください. 現地会場で議論できることを⼼待ちにしております.
本研究は,動画像から検出された人骨格の関節点や物体輪郭上の端点を用いて,人物行動を認識する技術を提案しています.
背景
動画像から人物行動を認識する手法は,動画像を直接入力とする手法と,動画像から検出した骨格情報を入力とする手法に大別されます. 本研究では,後者の研究に取り組みました.
骨格ベース行動認識では,人物骨格定義に基づくGraph Neural Networkを用いた手法[2]が主流でしたが,提案手法では,既存研究が持っていた頑健性や拡張性に関する複数の課題に着目することで,従来とは異なる新しい行動認識の枠組みを提案しました.
実験結果
実験では,行動認識の大規模データセットの1つであるKinetics-400[3]を主に用いて提案手法の有効性を検証しました.
表には,HRNet[4]で骨格を検出した場合と,PPNv2[5]で高速に骨格と物体輪郭を検出した場合両方について行動認識精度・速度をまとめています.
表より,HRNetで骨格を検出した場合,提案手法は精度・速度ともに既存手法(MS-G3D,PoseConv3D)より高い精度・速度で行動を認識できることがわかります.
SoTAの精度を集約しているPaper with Code上の既存技術と比較しても,高い精度を達成していることがわかります(2022/07/08現在).
また,PPNv2で骨格に加え物体輪郭も検出することで,行動認識の精度を底上げすることができています. 加えて,PPNv2は高速に人と物体を検出できることから,検出と行動認識を含むシステム全体のFPSは約1900FPS(w/ GeForce RTX 3080 Ti)に達することがわかりました.
おわりに
この記事では,MIRU2022にて発表予定の人行動認識技術に関して,概要をご紹介させていただきました. あくまで概要のみの紹介となっているため,より詳しく知りたい方は是非インタラクティブセッションにお越しください. また,7月28日(木)に発表を予定している「事前学習済みDNNを用いたゼロショット異常行動認識」に関する紹介記事も是非ご覧ください.
加えて,弊社はプラチナスポンサーとして協賛しており,NVIDIA Jetson AGX Orinを用いたFORXAIの2D骨格検出技術の動作デモなどの企業展示を予定しておりますので,弊社の企業ブースにも是非お立ち寄りください.
それでは,現地会場でお会いできることを心待ちにしております.
コニカミノルタは画像IoTプラットフォームFORXAIを通じて、お客様やパートナー様との共創を加速させ、技術・ソリューションの提供により人間社会の進化に貢献してまいります。
参考文献
[1] 八馬 遼,佐藤 文彬,関井 大気.事前学習済みDNNを用いたゼロショット異常行動認識.画像の認識・理解シンポジウム(MIRU), 2022.
[2] Yan, S., Xiong, Y. and Lin, D.: Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition, AAAI (2018).
[3] Carreira, J. and Zisserman, A.: Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset, CVPR (2017).
[4] Sun, K., Xiao, B., Liu, D. and Wang, J.: Deep High Resolution Representation Learning for Human Pose Estimation, CVPR (2019).
[5] PPNv2