
論文紹介:language-driven semantic segmentation
はじめに
この記事では,language-driven semantic segmentationというタスクを行うモデルを提案した論文,Li et al. (2022)[1]を紹介したいと思います.language-driven semantic segmentationは,入力画像に対し,単語をいくつか与えてその意味に沿うようにsegmentationを実施する,というタスクになります.
背景
従来のsemantic segmentationは,画像の各ピクセルに対して分類するラベルが固定されていました.したがって,ラベルの数は訓練データセットによって決定され,数十から数百という単位になります.しかし,実際にはラベルとなる単語は膨大に存在し,ラベル集合をこのように限定することはsegmentationモデルの潜在的な認識能力を抑えている可能性があります.
ラベルの数が限定されている主な要因は,アノテーションのコストです.画像数,ラベル数が増えると,アノテーションに大変な労力が必要なのです.それを解決するために,zero-shot/few-shotのsegmentation手法が提案されています.
この論文では,semantic segmentationの柔軟性と汎用性を向上させるシンプルなzero-shotのアプローチ,「language-driven semantic segmentation」(LSeg)を提示しました.
Lsegでは,ユーザはテスト時に任意の画像のラベルセットを自由に増減,並べ替えすることができ,そうして与えられたラベルセットに基づいて様々なsegmentation結果を柔軟に出力することができます.
下図の出力(a)では,「対象物」と「その他」と指定されたラベルだけを識別しています.一方で,(b)や(c)のようにラベルが追加された場合,モデルは追加されたラベルに応じて対象物を柔軟にsegmentationしていることがわかります.
モデル詳細
LSegは,テキストの各単語と画像の各ピクセルを埋め込み空間上にマッピングさせて学習します.
複数のラベルと画像が与えられた時,Text Encoderはラベルをベクトル空間に埋め込みます.Image Encoderは画像からピクセル単位の埋め込みを行い,各ピクセルの特徴を全ラベル埋め込みに対応させます.ここで,論文ではText Encoderとして学習済みCLIP[2]を使用し,Image EncoderとしてDPT(ViTをbackboneとしたモデル)[2]を使用しています.Image Encoderは,テキスト埋め込みと,そのピクセルの正解ラベルの画像ピクセル埋め込みとの相関を最大化するように学習されます.Text Encoderは,概念的に近い単語は埋め込み空間上でも近くになるように訓練されているので,与えられたデータセットのラベル集合で訓練するだけで,Text Encoderの柔軟性を画像認識部分でも享受できるようになります.
最後のSpatial Regularizationブロックは最終的な出力を得るためのブロックです.Image Encoderは入力画像の解像度より低い解像度での予測結果を出力するので,アップサンプリングや後処理を行うことで元画像に対するsegmentation結果を得ることができます.なお,このブロックを使うにあたって,DepthwiseBlockとBottleneckBlockという2つのブロックのどちらかを部品として取り入れています.
この2種類のSpatial Regularizationブロックについて,Ablation Studyを行っており,どちらも複数ブロックをスタックすることで改善することをわかっています.
実験・評価
LSegはもともと推論に用いるラベルを学習中に一度も見ないzero-shotのモデルとして設計されていました.しかし,比較対象が十分でないため,zero-shotに加えfew-shotのモデルをいくつか用意し,LSegを比較しています.zero-shotのモデルとしては,ZS3Net[3]をベースラインとしています.
データセットはPASCAL-5iとCOCO-20iというものを使っています.これらはそれぞれPASCAL VOC 2012 (Everingham et al, 2015)[4] とCOCOデータセット (Lin et al, 2014)[5]から作成したfew-shot用のsegmentationデータセットです(添字のiはデータセットのフォールドを表します).
LSegは従来のZS3Netを上回る精度であり,few-shotのモデルとも同等精度であることがわかります.
LSegのバックボーンをResNet (He et al.,2016)[6]からViT (Dosovitskiy et al., 2021)[7]に変更することで,精度も向上することも確認できています.
終わりに
language-driven semantic segmentationというタスクについて紹介させていただきました. 現在も画像とテキストを組み合わせた研究は活発に行われており,今後の動向が気になる研究分野かと思います. 本記事が皆様にとって有益な情報であれば,幸いです.
今後もコニカミノルタAI技術開発部では社会実装まで見据えた技術選定を意識していくことで,価値のあるサービスを提供していけるよう心がけていきます.
引用
[1] Boyi Li, Kilian Q Weinberger, Serge Belongie, Vladlen Koltun, and Ren ́e Ranftl. Language-driven semantic segmentation. arXiv preprint arXiv:2201.03546, 2022.
[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning, pp. 8748–8763, 2021.
[3] Maxime Bucher, Tuan-Hung Vu, Matthieu Cord, and Patrick Pérez. Zero-shot semantic segmentation. Advances in Neural Information Processing Systems, 32:468–479, 2019.
[4] M. Everingham, S. M. A. Eslami, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The pascal visual object classes challenge: A retrospective. International Journal of Computer Vision, 111(1):98–136, January 2015.
[5] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In European conference on computer vision, pp. 740–755. Springer, 2014.
[6] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770–778, 2016.
[7] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations, 2021.