Faster R-CNN(4/5)RPNの実施例<後半>
はぐれ弁理士 PA Tora-O です。今回(第4回)も引き続き、RPN(Region Proposal Network)の実施例について詳しく説明します。なお、前回(第3回)の復習を行う際は、こちらのリンクからお願いします。
前回は、図1のステップS1~S3まで説明しました。
S4:分類スコア&オフセット値の出力
次に、ステップS4では、ニューラルネットワークによる演算を通じて、アンカー特徴量に対応する分類スコアとオフセット値を出力します。これにより、アンカーボックスの個数と同じ組数(つまり、9組)のデータセットが同時に生成されます。
分類スコアは、前景(foreground)である確度を示す「前景スコア」と、背景(background)である確度を示す「背景スコア」の2種類のスコアからなります。教師あり学習の実行に先立ち、学習用画像には、IoU(Intersection over Union)に従って前景/背景のラベルが付与されます。IoUは、”Ground Truth” との一致度を示す指標であり(図2参照)、”Faster R-CNN” 論文の例では、IoU≧ 0.7 を満たす画像を正例(Positive Examples)、IoU≦ 0.3 を満たす画像を負例(Negative Examples)とそれぞれ定義しています。
オフセット値は、アンカーボックスとの間の相対的なずれ量であり、アンカーの位置に依存しない情報量である点がミソです。具体的には、[1]特定頂点のx座標、[2]特定頂点のy座標、[3]水平方向の辺長、[4]垂直方向の辺長、の4種類のオフセット(Δx,Δy,ΔH,ΔV)からなります(図3参照)。
S5:計算の終了判定
次に、ステップS5では、すべてのアンカーに対する計算が終了したか否かを判定します。まだ終了していない場合、未計算である次のアンカーを指定し、同様の計算(ステップS2~S4)を順次繰り返します。基本的には、全体特徴マップを構成する全画素がアンカーに指定されます。
S6:ROI候補の選定
最後に、ステップS6では、設定されたすべてのアンカーボックスの中からROI候補を選定します。図4に示すように、アンカーボックスを高スコア順に並べたスコア曲線を作成し、絶対的または相対的にスコアが高いアンカーボックスを選定します。選定基準となるパラメータは、前景スコアの閾値(Th)、あるいは上位の割合(r)のいずれでも構いません。
なお、RPNから最終的に出力されるROI情報は、選定されたアンカーボックスの位置情報に対して該当するオフセット値を加算した(x+Δx,y+Δy,H+ΔH,V+ΔV)である点に留意してください。
以上、第3回&第4回にわたって、RPNの実施例を説明しました。テーマ最終回(第5回)では、RPNの発明ストーリーを作成してみます。
↓ブログランキングに参加しています。よろしければ1クリックお願いします。
ディスカッション
コメント一覧
まだ、コメントがありません