MIRU2022での発表内容のご紹介:ゼロショット異常行動認識
はじめに
FORXAI Engineering Blogをご覧いただき,誠にありがとうございます.
技術開発本部 FORXAI開発センター AI技術開発部の佐藤です.私が所属するチームは主に人行動に関連するAI技術の開発を行っています.
7月25日(月)から姫路で開催予定のMIRU2022(第25回 画像の認識・理解シンポジウム)のインタラクティブセッションで,人物行動理解に関する論文を2件発表予定です. 本記事では,7月28日(木)に発表を予定している「事前学習済みDNNを用いたゼロショット異常行動認識 [1] 」の概要をご紹介します.
提案する技術は,カメラを使って人物が取る異常な行動を認識する異常行動認識に関する技術です.
この記事では概要のみご紹介します. 興味がございましたら,是⾮インタラクティブセッションにお越しいただければ幸いです. 現地会場で議論できることを⼼待ちにしております.
概要
人物の異常行動認識は,事故や犯罪を予防するために必要不可欠な技術として期待されています. アプリケーションにおいて,従来技術 [2] ではしばしば,教師データ作成の人的コストが多い,学習時間が長い,経時的な変化を含むドメインシフト(照明変動や外乱など)に弱い,認識対象の異常行動をユーザーが厳密に定義できない,といった点が問題があります.
本研究では,これらの課題を同時に解決するため,学習時に異常行動に関する観測データ・教師データが一切利用されないゼロショット学習を用いる新たなアプローチを提案しました.
図1. 提案法の全体像(画像はUT-Interaction dataset [3] を使用).
結果
精度評価に暴⼒⾏動分類のデータセットRWF-2000を⽤いました.骨格検出(Pose Detector)には,弊社で独自に開発してきたPose Proposal Networks(PPN) [7] を用いました.
表1. 従来法との暴力行動分類精度の比較結果.
学習時には異常と定義した暴力行動に関する観測データ・教師データが一切利用されないゼロショット学習の設定であるにも拘わらず,一部の教師あり学習手法に匹敵する精度を達成しました. また,15秒という短時間の学習のみで実現可能であることも確認しました.
おわりに
より詳しく知りたい方は是非インタラクティブセッションの弊社の発表場所にお越しください.
また,7月26日(火)に発表を予定している「Structured Poolingを用いた複数の人物骨格と物体輪郭からの人物行動認識」に関する紹介記事も是非ご覧ください.
加えて,弊社はプラチナスポンサーとして協賛しており,NVIDIA Jetson AGX Orinを用いたFORXAIの2D骨格検出技術の動作デモなどの企業展示を予定しておりますので,弊社の企業ブースにも是非お立ち寄りください.
それでは,現地会場でお会いできることを心待ちにしております.
コニカミノルタは画像IoTプラットフォームFORXAIを通じて,お客様やパートナー様との共創を加速させ,技術・ソリューションの提供により人間社会の進化に貢献してまいります.
引用
[1] 佐藤 文彬,八馬 遼,関井 大気.事前学習済みDNNを用いたゼロショット異常行動認識.画像の認識・理解シンポジウム(MIRU), 2022.
[2] Romero Morais, Vuong Le, Truyen Tran, Budhaditya Saha, Moussa Mansour, and Svetha Venkatesh. Learning Regularity in Skeleton Trajectories for Anomaly Detection in Videos. In CVPR, 2019.
[3] M. S. Ryoo, and J. K. Aggarwal. UT-Interaction Dataset, ICPR Contest on Semantic Description of Human Activities (SDHA). In ICPR Workshops, 2010.
[4] Yukun Su, Guosheng Lin, Jinhui Zhu, and Qingyao Wu. Human Interaction Learning on 3D Skeleton Clouds for Video Violence Recognition. In ECCV, 2020.
[5] Zahidul Islam, Mohammad Rukonuzzaman, Raiyan Ahmed, Md. Hasanul Kabir, and Moshiur Farazi. Efficient Two-Stream Network for Violence Detection Using Separable Convolutional LSTM. In IJCNN, 2021.
[6] Hao-Shu Fang, Shuqin Xie, Yu-Wing Tai, and Cewu Lu. RMPE: Regional Multi-Person Pose Estimation. In ICCV 2017.
[7] Taiki Sekii. Pose Proposal Networks. In ECCV 2018.