Faster R-CNN（4/5）ＲＰＮの実施例<後半>

2020年1月5日

はぐれ弁理士 PA Tora-O です。今回（第４回）も引き続き、ＲＰＮ（Region Proposal Network）の実施例について詳しく説明します。なお、前回（第３回）の復習を行う際は、こちらのリンクからお願いします。

前回は、図１のステップＳ１～Ｓ３まで説明しました。

Ｓ４：分類スコア＆オフセット値の出力

次に、ステップＳ４では、ニューラルネットワークによる演算を通じて、アンカー特徴量に対応する分類スコアとオフセット値を出力します。これにより、アンカーボックスの個数と同じ組数（つまり、９組）のデータセットが同時に生成されます。

分類スコアは、前景（foreground）である確度を示す「前景スコア」と、背景（background）である確度を示す「背景スコア」の２種類のスコアからなります。教師あり学習の実行に先立ち、学習用画像には、ＩｏＵ（Intersection over Union）に従って前景／背景のラベルが付与されます。ＩｏＵは、”Ground Truth” との一致度を示す指標であり（図２参照）、”Faster R-CNN” 論文の例では、ＩｏＵ≧ 0.7 を満たす画像を正例（Positive Examples）、ＩｏＵ≦ 0.3 を満たす画像を負例（Negative Examples）とそれぞれ定義しています。

オフセット値は、アンカーボックスとの間の相対的なずれ量であり、アンカーの位置に依存しない情報量である点がミソです。具体的には、［１］特定頂点のｘ座標、［２］特定頂点のｙ座標、［３］水平方向の辺長、［４］垂直方向の辺長、の４種類のオフセット（Δｘ，Δｙ，ΔＨ，ΔＶ）からなります（図３参照）。

Ｓ５：計算の終了判定

次に、ステップＳ５では、すべてのアンカーに対する計算が終了したか否かを判定します。まだ終了していない場合、未計算である次のアンカーを指定し、同様の計算（ステップＳ２～Ｓ４）を順次繰り返します。基本的には、全体特徴マップを構成する全画素がアンカーに指定されます。

Ｓ６：ＲＯＩ候補の選定

最後に、ステップＳ６では、設定されたすべてのアンカーボックスの中からＲＯＩ候補を選定します。図４に示すように、アンカーボックスを高スコア順に並べたスコア曲線を作成し、絶対的または相対的にスコアが高いアンカーボックスを選定します。選定基準となるパラメータは、前景スコアの閾値（Ｔｈ）、あるいは上位の割合（ｒ）のいずれでも構いません。