Fast R-CNN(1/3)発明の概要

はぐれ弁理士 PA Tora-O です。今回のテーマとして、物体検出の一手法である”Fast R-CNN”を題材に取り上げていきます。

背景

畳み込みニューラルネットワーク(CNN)を導入した物体検出手法の一例として、R-CNN(Regions with CNN features)が挙げられます。このR-CNNでは、[1]全体画像の中から物体を含む部分画像を抽出し、[2]抽出された部分画像のサイズを調整し、[3]調整済みの部分画像をCNNに投入します。ここで、[2]画像サイズの調整は、別の記事(SPPnet)で説明した通り、必須の構成ではありません。

【図1】R-CNNの機能ブロック図

R-CNNの仮想クレームは、以下の通りです。別の記事(R-CNN)の中でも試作しましたが、今回の事例検討のために一部を書き直しています。

【仮想クレーム】(R-CNN)
 対象物を含む画像の全体領域の中から関心領域を抽出する抽出部と、
 ニューラルネットワークからなり、またはニューラルネットワークを含んで構成され、かつ、関心領域内の対象物を検出する検出部と、
 を備え、
 前記検出部は、
 関心領域内の部分画像を入力とし、該部分画像の特徴マップを出力とする前段演算部と、
 特徴マップから生成した特徴量を入力とし、関心領域内の検出結果を出力とする後段演算部と、
 から構成され、抽出された関心領域毎に、特徴マップおよび検出結果の出力を順次行う
 ことを特徴とする対象物検出装置。

問題の所在

ところが、上記したR-CNNの構成では、抽出した関心領域(ROI;Region Of Interest)毎に特徴マップを生成する必要があります。特に、この類の物体検出では、対象物を含み得る関心領域の候補を多数(R-CNN論文の例では、約2000個!)設定した後、CNNの側でより高精度な検出を行っています。そのため、ROIの個数が増加するにつれて、すべての検出結果を得るまでの時間が掛かるという問題が生じます。

解決手段

そこで、上記した問題を解決すべく、”Fast R-CNN”という技術が提案されました。これによって、特徴マップの生成回数が削減されるようになるため、“Fast”の文字通り、物体検出に要する演算時間が短縮されます。

【図2】Fast R-CNNの概念図

出展:“Fast R-CNN” https://arxiv.org/abs/1504.08083

ただ、この概念図はコンパクトに描かれすぎていて、実際の処理流れを理解するのが難しいかもしれません。次回(第2回)は、Fast R-CNNの実施例について詳細に説明します。

↓ブログランキングに参加しています。よろしければ1クリックお願いします。

にほんブログ村 士業ブログ 弁理士へ
にほんブログ村

にほんブログ村 IT技術ブログ IT技術メモへ
にほんブログ村