
国内最大規模の画像系AI学会MIRU2023で発表してきました!
FORXAI Engineering Blogをご覧いただき、誠にありがとうございます。AI技術開発部の長野です。
7月末に開催されました国内最大規模の画像系AIの学会MIRUに、昨年度に引き続き、今年も参加しましたので、今回はその様子や発表内容をご紹介したいと思います。
昨年度の発表に関しましては以下の二つの記事になります!
MIRU2022での発表内容のご紹介:ゼロショット異常行動認識
目次[非表示]
- 1.MIRU2023とは
- 2.発表内容
- 2.1.Few-shot学習の課題
- 2.2.提案手法
- 3.おわりに
- 4.参考文献
MIRU2023とは
MIRUとは画像の認識と理解技術に関する国内最大規模の会議であり、研究者、技術者、そして次世代を担う学生の議論・交流の場として、約30年ほど前から開催されております。
MIRU2023(第26回 画像の認識・理解シンポジウム)は2023年7月25日(火)~28(金)にアクトシティ浜松で開催され,国内外の企業や研究室によって画像系AIを中心としたテーマの論文やデモ展示などが行われました。
昨今のChatGPTなどの登場で関心度が高くなっていたためか、約1500人ほどの方が来場されたとのことです。
コニカミノルタからもMIRU2023に企業展示のみならずポスター1件、口頭2件(ロングオーラル1件、ショートオーラル1件)、招待講演1件の計4件の発表をしてきました(弊社筒川が発表したショートオーラルについての記事はこちら) 。
そのうち私が主著を担当したポスター発表「視覚言語事前学習と推論で共通のDNNを用いる一般化Few-Shot物体検出[1]」という発表の概要をご紹介します。
発表内容
近年、動画像中にはあるがAIの学習時には正解ラベルとして与えられていない、未知クラスの物体を少数サンプルを用いて未知クラスの外観を学習し、検出を可能とするFew-Shot学習法による物体検出の先行研究[2]が盛んにおこなわれております。
Few-shot学習の課題
Few-Shot学習手法には大きく以下3つの課題があります。
課題①:破滅的忘却[3]
既知のクラスの物体の検出精度がFew-Shot学習時に低下
課題②:少数サンプルの学習コスト
応用先でDNNを更新するためのシステムや計算機が必要
課題③:少数サンプルのバリエーション不足
未知クラスの見えに関する情報の不足により精度が低下
提案手法
本研究では、それぞれの課題に対処すべく、少数サンプルは未知クラスの物体検出を行うスコア計算に用いるのみで、AI内部のモデルの重みを更新せず上述した破滅的忘却を理論上引き起こさないという手法を提案しました。提案法の概要は以下の図に示すように,学習されたAIモデル(DNN)を変えずに,Few-Shot学習段階で未知クラスの外観特徴を平均としてモデル化し,推論段階で外観スコアとして用いることで未知なクラスに関する情報をあたえ,またそれだけでは不足する場合に文章特徴量を用いて意味スコアとして補うことで,より検出を頑健にしています。
実験として、物体検出モデル(GLIP[4])で、本手法における未知クラスで学習されていない水族館における水生生物の検出を行い、有効性を検証しました。
表より、GLIPの検出精度よりも約2ポイントほど高い精度を出すモデルを作成できました。
また、クラスごとの比較では画像を用いることで、GLIPの言語設定のみでは検出できないクラス(stingrayなど)に対しても効果があるという検証ができました。
おわりに
今回は、MIRU2023の参加報告として、学会についてや自身の発表内容をご紹介させていただきました。注目されているAI技術ということもあり、学会全体での盛り上がりを肌で感じることができました。また、企業の研究内容について発表することで、多くの方とコミュニケーションをとることができ、今後の研究に活かし、よりよいAI開発につなげていきたいと思います。
参考文献
[1] 長野 紘士朗,佐藤 文彬,八馬 遼,関井 大気.視覚言語事前学習と推論で共通のDNNを用いる一般化Few-Shot物体検出.画像の認識・理解シンポジウム(MIRU), 2023.
[2] Chen, H., Wang, Y., Wang, G. and Qiao, Y.: LSTD: A Low-Shot Transfer Detector for Object Detection, AAAI(2018).
[3] Lopez-Paz, D. and Ranzato, M.: Gradient Episodic Memory for Continual Learning, NeurIPS (2017).
[4] Li, L. H., Zhang, P., Zhang, H., Yang, J., Li, C., Zhong, Y., Wang, L., Yuan, L., Zhang, L., Hwang, J.-N., Chang, K.-W. and Gao, J.: Grounded Language-Image PreTraining, CVPR (2022).
コニカミノルタは画像IoTプラットフォームFORXAIを通じて、お客様やパートナー様との共創を加速させ、技術・ソリューションの提供により人間社会の進化に貢献してまいります。
新卒採用については以下の採用情報ページをご覧ください。
中途採用に関する情報については以下の採用情報ページをご覧ください。