AIイメージ画像

論文紹介: Image as Set of Points (ICLR'23)



目次[非表示]

  1. 1.はじめに
  2. 2.概要
  3. 3.手法
  4. 4.実験結果
  5. 5.さいごに
  6. 6.引用

 

はじめに

この記事では,International Conference on Learning Representations (ICLR) 2023のOral presentationに採択されたImage as Set of Points [1]の論文を簡潔に解説いたします. なお,特に断りのない限り,記事中の画像は論文のものを引用しています.また,コードはこちらに公開されています.


概要

深層学習を用いた画像認識タスクは,畳み込みニューラルネットワーク(CNN)を用いた技術が多く提案され,近年ではTransformerが広く用いられ,MLP-Mixer[2]などAttentionを用いない手法など多く提案されています.

その中で,この論文では,2次元画像を点群データをみなし3次元点群深層学習技術を応用したネットワークを提案しています.その結果として,画像認識の複数タスク(Image classification, semantic segmentation, object detection)において,同等のパラメータ数を持つCNNやTransformerベースの手法と比較し優れていることを検証していました. また,それだけではなく3次元点群物体の識別タスクに応用しても従来手法より優れた認識精度であることを検証しています.



手法

提案手法の概要が下図に示されています.ここで特徴的なのは,入力が5次元ベクトルのn個の集合で表されているということです.5次元は,各画素のx, y座標,R, G, B値から構成されています.そのため,点数は画像の縦×横の画素数分となっています. この5次元点群データから段階的に特徴抽出と集約を繰り返すことで,画像からの効率的な特徴抽出を実現しています.


このネットワークでは,Point Reducerと呼ばれる点数を削減するBlockとContext Cluster Blockという特徴点をクラスタリングし,そのクラスタ毎に特徴計算をするBlockから成っています. このPoint Reducerは点群からアンカーを均等に定め,近傍点をlinear embeddingする処理となっており,画像の場合はVision TransformerのPatch embeddingと同等の処理が行われます.

Context Cluster Blockは下図のようになっています.


2つ目のMLP BlockはTransformer等同様,点毎に特徴抽出をする処理であり,1つ目のContext Clusterが主な提案となっています. Context Clusterでは,特徴点の集合を入力とし,点間の類似度を元にクラスタリングし,そのクラスタリングされた領域毎に各点の特徴を更新するような処理を行っています.

その際のクラスタリングでは,画像上に均等に配置された𝑐個の中心点の特徴ベクトルを𝑘近傍点の特徴ベクトルの平均を取り計算し,各中心点と各点の特徴ベクトルの類似度を計算した行列 𝑆∈ℝ^(𝑐×𝑛)を作成し,各画素で最も類似度が高くなる 中心点にアサインすることで実現しています.


実験結果

実験では,画像認識の様々なタスクや3次元点群識別タスクで従来手法と比較をしています.実験結果を抜粋して紹介します.

下表では,ImageNet-1Kのベンチマーク結果となっています.一番下が提案手法の結果となっています. パラメータ数がおおよそ同等のResNet50、PVT-Smallと比較し,提案手法のMediumは認識性能が優れていることがわかりました.



また,入力のposition information, context cluster block, multi-headに対するAblation studyの結果が以下となっています. position情報がない場合はそもそも学習ができなかったようで,context cluster blockが3.3%の精度向上に貢献していることがわかります.



さいごに

本記事では,画像を点群データとみなし特徴抽出をする新しい論文について紹介させていただきました. Transformer, MLP-Mixer, Vision GNN[3]など様々なアーキテクチャが提案されていますが,本記事のように点群データとみなす手法も1つの派閥となるのでしょうか.

本記事が皆様にとって有益な情報であれば,幸いです.

今後もコニカミノルタAI技術開発部では社会実装まで見据えた技術選定を意識していくことで,価値のあるサービスを提供していけるよう心がけていきます.


引用

[1] Xu Ma., et al. Image as Set of Points, ICLR 2023.

[2] Tolstikhin, Ilya O., et al. Mlp-Mixer: An All-mlp Architecture for Vision., NeurIPS 2021.

[3] Han, Kai, et al. Vision GNN: An Image is Worth Graph of Nodes. NeurIPS 2022.




コニカミノルタは画像IoTプラットフォームFORXAIを通じて、お客様やパートナー様との共創を加速させ、技術・ソリューションの提供により人間社会の進化に貢献してまいります。

​​​​​​​

中途採用に関する情報については以下の採用情報ページをご覧ください。

  キャリア採用情報 - 採用情報 | コニカミノルタ コニカミノルタキャリア採用情報 現在の募集職種にはこちらからエントリー可能です。募集要項、先輩インタビュー、人事部からのメッセージなど掲載。 KONICA MINOLTA
Hachiuma Ryo
Hachiuma Ryo
FORXAI事業統括部 AI技術開発部 所属 人行動領域を中心とする機械学習のモデル開発などを行ってます


pagetop