Faster R-CNN(4/5)RPNの実施例<後半>

はぐれ弁理士 PA Tora-O です。今回(第4回)も引き続き、RPN(Region Proposal Network)の実施例について詳しく説明します。なお、前回(第3回)の復習を行う際は、こちらのリンクからお願いします。

【図1】RPNのフローチャート(再掲)

前回は、図1のステップS1~S3まで説明しました。

S4:分類スコア&オフセット値の出力

次に、ステップS4では、ニューラルネットワークによる演算を通じて、アンカー特徴量に対応する分類スコアオフセット値を出力します。これにより、アンカーボックスの個数と同じ組数(つまり、9組)のデータセットが同時に生成されます。

分類スコアは、前景(foreground)である確度を示す「前景スコア」と、背景(background)である確度を示す「背景スコア」の2種類のスコアからなります。教師あり学習の実行に先立ち、学習用画像には、IoU(Intersection over Union)に従って前景/背景のラベルが付与されます。IoUは、”Ground Truth” との一致度を示す指標であり(図2参照)、”Faster R-CNN” 論文の例では、IoU≧ 0.7 を満たす画像を正例(Positive Examples)、IoU≦ 0.3 を満たす画像を負例(Negative Examples)とそれぞれ定義しています。

【図2】IoUの定義

オフセット値は、アンカーボックスとの間の相対的なずれ量であり、アンカーの位置に依存しない情報量である点がミソです。具体的には、[1]特定頂点のx座標、[2]特定頂点のy座標、[3]水平方向の辺長、[4]垂直方向の辺長、の4種類のオフセット(Δx,Δy,ΔH,ΔV)からなります(図3参照)。

【図3】オフセット値の定義

S5:計算の終了判定

次に、ステップS5では、すべてのアンカーに対する計算が終了したか否かを判定します。まだ終了していない場合、未計算である次のアンカーを指定し、同様の計算(ステップS2~S4)を順次繰り返します。基本的には、全体特徴マップを構成する全画素がアンカーに指定されます。

S6:ROI候補の選定

最後に、ステップS6では、設定されたすべてのアンカーボックスの中からROI候補を選定します。図4に示すように、アンカーボックスを高スコア順に並べたスコア曲線を作成し、絶対的または相対的にスコアが高いアンカーボックスを選定します。選定基準となるパラメータは、前景スコアの閾値(Th)、あるいは上位の割合(r)のいずれでも構いません。

【図4】ROI選定方法の模式図

なお、RPNから最終的に出力されるROI情報は、選定されたアンカーボックスの位置情報に対して該当するオフセット値を加算した(x+Δx,y+Δy,H+ΔH,V+ΔV)である点に留意してください。

 

以上、第3回&第4回にわたって、RPNの実施例を説明しました。テーマ最終回(第5回)では、RPNの発明ストーリーを作成してみます。

↓ブログランキングに参加しています。よろしければ1クリックお願いします。

にほんブログ村 士業ブログ 弁理士へ
にほんブログ村

にほんブログ村 IT技術ブログ IT技術メモへ
にほんブログ村