catch-img

MIRU2023での発表内容のご紹介:ゼロショット長期間行動解析


目次[非表示]

  1. 1.はじめに
  2. 2.関連研究とその課題
    1. 2.1.DNNに入力できる動画の時間長
    2. 2.2.DNN処理可能な単位に分割する映像解析システム
    3. 2.3.推論時に任意のタスクを解くタスク汎用化
  3. 3.提案法の概要
  4. 4.提案法の有効性検証
    1. 4.1.タスク1: 暴力行動分類
    2. 4.2.タスク2: 長期間動画中の暴力行動カウント
    3. 4.3.タスク3: 長期間動画中の暴力行動日時抽出
  5. 5.おわりに
  6. 6.参考文献


はじめに

FORXAI Engineering Blogをご覧いただきありがとうございます.AI技術開発部の筒川です.
私が所属するチームでは主に人行動を認識するAI技術の開発を行っています.
7月末に開催されたMIRU2023(第26回 画像の認識・理解シンポジウム)にて,コニカミノルタからはポスター発表1件,口頭発表2件(ロングオーラル1件,ショートオーラル1件),招待講演1件の計4件の発表を行いました.
今回はそのうちショートオーラルセッションで発表を行った「TextGuide: 説明文に基づくゼロショット長期間行動解析システム」[1]について紹介します.
本研究では,数十分以上に及ぶ長期間の映像内の人物行動に対して,ユーザーが文章で指定した行動解析タスクを解くシステムを提案しました.
ポスターセッションの発表記事はこちらになります!
国内最大規模の画像系AI学会MIRU2023で発表してきました!



関連研究とその課題

DNNに入力できる動画の時間長

数秒~数分の動画をDNNで処理する手法が提案されていますが,PCのメモリ量によっては数十分の動画をDNNの入力としてあつかうことは困難です.

DNN処理可能な単位に分割する映像解析システム

分割された動画に対するDNN処理結果を統合して解析するシステムによって,行動認識・映像要約・映像検索 など様々な長期間映像解析が実現されていますが,新たなシステムの開発や改修のたびにコストが発生してしまいます.

推論時に任意のタスクを解くタスク汎用化

単一の画像を入力とする問題設定において,タスクと認識対象が異なる多くのデータセットでEnd-to-Endに学習する手法[2]が提案されていますが,長期間の動画を入力とする問題設定においてはEnd-to-Endで学習するためのデータセット作成と学習のコストがかかり実現できていません.

提案法の概要

本研究では,長期間映像を入力としたタスク汎用化を,既存のデータセットのみを使って(End-to-Endの学習なしに)実現することに取り組みました.

長期間の映像解析を行うために従来手法と同様に,認識ステップと解析ステップを持つ段階システムを採用し,TextGuide機構(Text-Guided Task-Generalizer)と呼ぶ,タスク汎用化のための新たなシステムを提案しています.認識ステップの認識結果を文章化して解析ステップに入力するインターフェースによって,認識・解析ステップをそれぞれ既存のデータセットのみで個別に学習できるようにすることで,長期間の動画像を入力としたタスク汎用化のための人的コストを抑えました.
認識ステップには,ゼロショット行動認識器を導入しユーザーが文章入力により認識対象行動を制御可能となっています.
解析ステップには,大規模言語モデル(以下,LLM)を採用することで,ユーザーが文章入力により与えた解析タスクを解くことができるようになっています.


提案法の有効性検証

長期間の映像解析タスクの有効性を検証するために,暴力行動分類データセットRWF-2000[3]の400動画を擬似的に結合し合計33.3分間の長期間動画を作成しました.以下,タスク1は長期間映像解析タスクの基本となる,短期間の映像内の行動分類タスクです.タスク2, 3ではタスク1の行動分類を長期間映像に適用した上で長期間の映像解析タスクを行っています.

タスク1: 暴力行動分類

blog_action_recognition

表中のZAAR[4]はゼロショット行動認識手法のことで,暴力行動を認識するために"violence"と"fighting"を文章入力した結果を表します.提案法では,暴力行動分類に必要となる最小単位の行動である"punch","kick","push","drag"をそれぞれゼロショット行動認識器で認識し,その結果を解析ステップで処理することで暴力行動分類を行っています.
教師あり手法のPointNet++,DGCNNよりも高精度(引用[5]の数値に基づく)で,State-of-the-Art技術であるSPIL[5]に迫る結果となりました.

タスク2: 長期間動画中の暴力行動カウント

統計的分析タスクの一環として暴力行動カウントタスクを評価しました.

blog_action_count

提案法はタスク1の結果に対して解析ステップでカウントタスクを行っています.
真値の200に対して提案法は214と+7[%] のエラー率でカウントすることができました.

タスク3: 長期間動画中の暴力行動日時抽出

   キーワード抽出タスクの一環として暴力行動発生日時抽出タスクを評価しました.

blog_time_extract

RWF-2000の400動画それぞれにランダムで日時を付与して実験を行いました.タスク1の結果に対して解析ステップで暴力行動を含む動画の日時を抽出しています.
真値と比較した結果,提案法は一定以上の検出精度でキーワード抽出が可能であることがわかりました.


おわりに

MIRU2023学会の自身の発表内容について紹介させていただきました.
昨今ChatGPTに代表されるLLMがそのタスク汎用性の高さから注目されており,LLMを活用した本発表について学会期間中も多くの方とディスカッションさせていただきました.
今回の学会で得た気付きやいただいたフィードバックを活かし,よりよいAI開発に取り組んでいきます.


参考文献

[1] 筒川 和樹, 佐藤 文彬, 八馬 遼,関井 大気.TextGuide: 説明文に基づくゼロショット長期間行動解析システム.画像の認識・理解シンポジウム(MIRU), 2023. 
[2] Gupta, T., Kamath, A., Kembhavi, A. and Hoiem, D.: Towards General Purpose Vision Systems: An End-to-End Task-Agnostic Vision-Language Architecture, CVPR (2022). 
[3] Cheng, M., Cai, K. and Li, M.: RWF-2000: An Open Large Scale Video Database for Violence Detection, ICPR (2021). 
[4] Fumiaki Sato, Ryo Hachiuma, Taiki Sekii.: Prompt-Guided Zero-Shot Anomaly Action Recognition Using Pretrained Deep Skeleton Features, CVPR (2023). 
[5] Su, Y., Lin, G., Zhu, J. and Wu, Q.: Human Interaction Learning on 3D Skeleton Point Clouds for Video Violence Recognition, ECCV (2020). 




コニカミノルタは画像IoTプラットフォームFORXAIを通じて,お客様やパートナー様との共創を加速させ,技術・ソリューションの提供により人間社会の進化に貢献してまいります.

新卒採用に関する情報については以下の採用情報ページをご覧ください .


  新卒採用情報 - 採用情報 | コニカミノルタ コニカミノルタの新卒採用サイトです。募集要項や募集職種などの採用情報から、プロジェクト紹介、社員インタビューなどを掲載しています。ぜひご覧ください。 KONICA MINOLTA

​​​​​​​

中途採用に関する情報については以下の採用情報ページをご覧ください.

  キャリア採用情報 - 採用情報 | コニカミノルタ コニカミノルタキャリア採用情報 現在の募集職種にはこちらからエントリー可能です。募集要項、先輩インタビュー、人事部からのメッセージなど掲載。 KONICA MINOLTA
Kazuki Tsutsukawa
Kazuki Tsutsukawa
FORXAI事業統括部AI技術開発部 所属 人行動領域を中心とする機械学習モデル開発などを行っています


pagetop