catch-img

論文紹介: HOTR


目次[非表示]

  1. 1.はじめに
  2. 2.背景
  3. 3.手法
    1. 3.1.HOTRアーキテクチャ
    2. 3.2.HOポインタ
    3. 3.3.実験・評価
      1. 3.3.1.V-COCO
      2. 3.3.2.HICO-DET
      3. 3.3.3.実験結果
    4. 3.4.再現実装
  4. 4.おわりに
  5. 5.引用

      

はじめに

この記事では,Human-Object Interaction(HOI)検出というタスクに対しTransformerを適用したモデルを提案した,「HOTR: End-to-End Human-Object Interaction Detection with Transformers」[1]という論文を紹介します. HOI検出とは,入力画像から, <人物,物体,インタラクション>を検出するタスクです.ここでいうインタラクションとは「人物の行動を表すラベル」と同義です. 例えば,下図のように画像内の物体検出情報に基づき行動を分類します.

HOI Detectionの出力の可視化例[2]


背景

HOI検出の目的は,人間と物体の位置を特定し,それらの間の相互作用を認識することです.

図1. HOI検出タスクにおける既存研究のアーキテクチャの概念図[3]


従来のHOI検出タスクを解くための手法は,アーキテクチャが「物体検出器」と「インタラクション部類器」を順列に実行するような2段階構成でした(図1(a)参照). これによりHOIタスクを間接的に解いていたのですが,2段階構成だと,各段階の問題に対する独立した最適化は出来ても全体の最適な解を導き出せないことが多いです.また,ステージが多い分計算コストも大きいです. HOI検出のモデル全体の最適化を行うべく,図1(b)のような一段構成のアーキテクチャも提案されていているのですが,それでも以下の二つの問題が側面において制限があります.

  1. 重複した予測候補の削減や,ヒューリスティックな閾値設定などの追加の後処理ステップが必要である.
  2. HOI検出における,物体と人物のインタラクションに関する依存関係を十分に検討出来ていない.

そこでKim et al. CVPR (2021)[1]では,TransformerベースのEncoder-Decorderアーキテクチャを設計し,直接的に人物と物体のセットを予測する手法を提案しています.このモデルは予測されたインタラクションを正解のインタラクション<human, object, interaction>と一致させる集合損失関数を用いて,End-to-Endで学習されます.また,TransformerのSelf Attention機構によって,モデルは画像内のコンテキストを利用して人間と物体のインタラクションを予測する為より高精度の検出が可能になるというアイデアです.

この提案モデル,HOTR(Human-Object interaction TRansformer)はベンチマークデータセットにおいてSOTAを達成し,推論時間も1 ms 以下と従来のHOI検出器と比べて大幅な高速化も達成しています.

図2. 提案手法と先行研究のパフォーマンス比較[1]


手法


図3. HOTRの全体のパイプライン[1]


HOTRアーキテクチャ

このパイプラインの特徴として,Instance DecorderとInteraction Decorderから成るTransformerベースのEncoder-Decorder構造であることが挙げられます.そしてDecorderの出力は最終的なトリプレットを生成するためのHO Pointer(後述)の入力となります.

HOTRは物体検出モデルのDETR[4]と同様に,グローバルコンテキストはBackbornのCNNとEncoderによって入力画像から抽出されます.その後出力がInstance DecorderとInteraction Decorderに供給されます.このうちInstance Decorderは,Instance Query(Encoderから出力された位置埋め込みの一つ)を物体検出のためのインスタンス表現に変換し,Interaction Decorderは,Interaction Query(これも位置埋め込みの一つ)をインタラクション検出のためのインタラクション表現に変換します.そして,インタラクション表現をフィードフォワードネットワーク(FFN)に適用し,Human Pointer,Object Pointerを出力します.Human Pointer,Object Pointerによって関連するインスタンス表現の関連性を指し示すことによって,人間の位置と物体の位置を特定しています.

HOポインタ

上記の説明の中に出てきたHOポインタがどのような効果かについて説明します. 先行研究のHOI検出では,インスタンス毎に物体の検出を行っていました.このため学習や推論の計算コストが増大する課題がありました.そこで,Instance DecorderとIntaract Decorderを,HOポインターを用いて予測値に関連づけます.すなわちHOポインターはインタラクション間の人間と物体を割り当てるためのインデックスのような役割を持ちます. 下図はHOポインターの割り当ての概念図となります.これにより高効率にインタラクションを検出可能となります.そして割り当ての結果,最終的なHOIの予測を出力します.

図4. HOポインタがインスタンス表現を割り当てる際の概念図


実験・評価

提案手法のモデルは2種類のベンチマークデータセットを利用して精度評価を行っていました.データセットは以下の通りです.

V-COCO

VーCOCOデータセット[5]は,COCOデータセットのサブセットであり,5400枚の訓練画像と4964枚のテスト画像を持っています.またV-COCOデータセットでは25種類のインタラクション(動詞,行動と思うと理解しやすいです)を含んでいます(Ex: eat, hold, sit ... etc).評価は2つのシナリオに対してそれぞれAP(Average Precision)を算出しています. シナリオ1では,モデルは人間のバウンディングボックスとインタラクションを正しく予測しながら,オクルージョンした物体のバウンディングボックスを[0,0,0,0]として正しく予測する必要があります.シナリオ2では,モデルはオクルージョンした物体について予測する必要がありません.

HICO-DET

HICO-DET[6]はHICOデータセットのサブセットで,47051枚の画像(37,536 : 訓練,9,515 : テスト)を持っています.画像中には合計で15万種類の人物と物体のペアと,600種類のインタラクションがアノテーションされています.この研究では,3つの異なるカテゴリセットに対するmAPを報告しています.

(1) HICOの全600HOIカテゴリ(Full). (2) 訓練インスタンスが10個未満の138個のHOIカテゴリ(Rare),および (3) 10個以上の訓練インスタンスを持つ462個のHOIカテゴリ(Non-Rare).

実験結果

表1と表2はそれぞれV-COCO[5]とHICO-DET[6]データセットの実験結果となります.いずれのベンチマークにおいてもこの論文の提案手法は先行研究の精度を超えています.一方で,HOTRのRare設定では,HOTRはベースライン手法よりも性能が劣っています.この設定では,訓練インスタンスが10個以下の行動カテゴリを扱うため,外部特徴量の助けを借りずに精度を上げることは困難であると考察されています.Rare設定で高精度を達成した研究の多くは,姿勢情報[7]や言語による事前分布[8]などの付属情報を用いています.このモデルは視覚情報に基づくアプローチであるが,事前知識を導入することによりさらなる改善が期待されます.

表1. V-COCOデータセットによる性能比較



表2. HICO-DETデータセットによる性能比較


最後に,HOポインタの有無がHOTRモデルに与える影響について考察します.表3の「w/o HO Pointers」を確認するとV-COCOのAPが15.9ほど減少してHICO-DETでも3.3ほど減少していることがわかります.これによりHOポインタにより高効率にインタラクション間の人物と物体の割り当てが出来ていると考えられます.

再現実装

ここでは,論文を再現実装し,文献で紹介された精度と同等の結果を再現出来るのか確認してみたいと思います.

データセットはV-COCOデータセットを使用し,学習と推論を行いました. 学習はNVIDIA Tesla K80のGPU一枚を使用し,90時間ほど要しました. その結果が以下の表になります.シナリオ1,2共に文献の性能と近い値が得られました.


また,HOTRは事前学習済みの重みも提供されているので,素早く推論結果を確認したい場合はそちらをダウンロードすることが望ましいです.

  

おわりに

HOTRについて紹介させていただきました. 現在もTransoformerに関する研究は活発に行われており,今後の動向が気になる研究分野かと思います. 個人的にはCNNとTransoformerはどちらが優れているのか,という話題も含めて継続watchしていきたいです. 本記事が皆様にとって有益な情報であれば,幸いです.




今後もコニカミノルタAI技術開発部では社会実装まで見据えた技術選定を意識していくことで,価値のあるサービスを提供していけるよう心がけていきます.


引用

[1] Kim, B.; Lee, J.; Kang, J.; Kim, E.-S.; and Kim, H. J. 2021. HOTR: End-to-End Human-Object Interaction Detection with Transformers. In CVPR. IEEE.

[2] Georgia Gkioxari, Ross Girshick, Piotr Dollar, and Kaiming He. Detecting and recognizing human-object interactions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 8359–8367, 2018. 1, 2, 5, 6, 7

[3] C. Zou, B. Wang, Y. Hu, J. Liu, Q. Wu, Y. Zhao, B. Li, C. Zhang, C. Zhang, Y. Wei, and J. Sun, “End-to-end human object interaction detection with hoi transformer,” in 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 11 820–11 829.

[4] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. Endto-end object detection with transformers. arXiv preprint arXiv:2005.12872, 2020.

[5] Saurabh Gupta and Jitendra Malik. Visual semantic role labeling. arXiv preprint arXiv:1505.04474, 2015.

[6] Yu-Wei Chao, Yunfan Liu, Xieyang Liu, Huayi Zeng, and Jia Deng. Learning to detect human-object interactions. In 2018 ieee winter conference on applications of computer vision (wacv), pages 381–389. IEEE, 2018.

[7] Yong-Lu Li, Siyuan Zhou, Xijie Huang, Liang Xu, Ze Ma, Hao-Shu Fang, Yanfeng Wang, and Cewu Lu. Transferable interactiveness knowledge for human-object interaction detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3585–3594, 2019.

[8] Yong-Lu Li, Liang Xu, Xinpeng Liu, Xijie Huang, Yue Xu, Shiyi Wang, Hao-Shu Fang, Ze Ma, Mingyang Chen, and Cewu Lu. Pastanet: Toward human activity knowledge engine. In Proceedings

AI技術開発部
AI技術開発部
人行動,医用画像,外観検査など多用な機械学習モデルの開発に取り組んでいます.


pagetop