Fast R-CNN（1/3）発明の概要

2019年12月19日

はぐれ弁理士 PA Tora-O です。今回のテーマとして、物体検出の一手法である”Fast R-CNN”を題材に取り上げていきます。

背景

畳み込みニューラルネットワーク（ＣＮＮ）を導入した物体検出手法の一例として、Ｒ－ＣＮＮ（Regions with CNN features）が挙げられます。このＲ－ＣＮＮでは、［１］全体画像の中から物体を含む部分画像を抽出し、［２］抽出された部分画像のサイズを調整し、［３］調整済みの部分画像をＣＮＮに投入します。ここで、［２］画像サイズの調整は、別の記事（ＳＰＰｎｅｔ）で説明した通り、必須の構成ではありません。

Ｒ－ＣＮＮの仮想クレームは、以下の通りです。別の記事（Ｒ－ＣＮＮ）の中でも試作しましたが、今回の事例検討のために一部を書き直しています。

【仮想クレーム】（Ｒ－ＣＮＮ）
　対象物を含む画像の全体領域の中から関心領域を抽出する抽出部と、
　ニューラルネットワークからなり、またはニューラルネットワークを含んで構成され、かつ、関心領域内の対象物を検出する検出部と、
　を備え、
　前記検出部は、
　関心領域内の部分画像を入力とし、該部分画像の特徴マップを出力とする前段演算部と、
　特徴マップから生成した特徴量を入力とし、関心領域内の検出結果を出力とする後段演算部と、
　から構成され、抽出された関心領域毎に、特徴マップおよび検出結果の出力を順次行う、
　ことを特徴とする対象物検出装置。

問題の所在

ところが、上記したＲ－ＣＮＮの構成では、抽出した関心領域（ＲＯＩ；Region Of Interest）毎に特徴マップを生成する必要があります。特に、この類の物体検出では、対象物を含み得る関心領域の候補を多数（Ｒ－ＣＮＮ論文の例では、約２０００個！）設定した後、ＣＮＮの側でより高精度な検出を行っています。そのため、ＲＯＩの個数が増加するにつれて、すべての検出結果を得るまでの時間が掛かるという問題が生じます。