Faster R-CNN(5/5)総括

はぐれ弁理士 PA Tora-O です。前回(第4回)では、RPN(Region Proposal Network)の実施例について説明しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。

全体の学習方法

これまで、「Fast R-CNN」との共通点と、これとの相違点(=RPN)についてそれぞれ説明しました。ざっくり言えば、”Faster R-CNN”は、「Fast R-CNN」と「RPN」の2系統が結合してなるニューラルネットワークです。それでは、全体のネットワークとして、どのように学習を行えばよいのでしょうか? ”Faster R-CNN”論文中の記載をベースに作図してみました。

【図1】”Faster R-CNN”の学習フロー(1)
【図2】”Faster R-CNN”の学習フロー(2)

図1と図2から理解されるように、第1系統(Fast R-CNN)と第2系統(RPN)を交互に学習させることで、学習パラメータの全体最適化を行います。それぞれのフェーズにおいて、緑色のブロックがパラメータの更新対象を示しています。つまり、4つのフェーズA,B,C,Dにわたって、「RPN」、「マップ生成部」、「種類・位置推定部」をそれぞれ2回ずつ学習させていく訳です。全フェーズにおいて学習対象のブロックが異なりますので、これに合わせて目的関数(損失関数)を変更する必要があります。ネットワーク構成が複雑になると、その分だけ学習方法も面倒になってきますね。

RPNのクレーム骨子

今回の事例検討の締めとして、RPNのクレーム骨子を作成しました。ここでは、アンカーボックスの概念を主要な発明として捉えています。なお、以下に示す「画像」の文言は、対象物の検出対象である「元の画像」のみならず、元の画像から生成された「特徴マップ」も含まれる概念です。このように定義しておけば、”Faster R-CNN” のみならず、”Fast R-CNN”にRPNを導入した亜種もカバーすることができます。

【クレーム骨子】
 画像の全体領域内に境界ボックスを設定し、該境界ボックス内における対象物の存在の確度を示す得点を求め、該得点が相対的に高い境界ボックスを関心領域として提案する方法であって、
(1)全体領域内の指定位置を基準として、サイズ又は形状が互いに異なる複数の境界ボックスを設定するステップと、
(2)複数の境界ボックスに応じた画像特徴量の集合をニューラルネットワークに入力し、指定位置毎の得点の集合を出力するステップと、
 を指定位置を変更しながら順次実行する、ことを特徴とする関心領域提案方法。(238文字)

 

以上をもちまして、”Faster R-CNN” の事例検討を終了します。次回から、また別のテーマに移ります。

↓ブログランキングに参加しています。よろしければ1クリックお願いします。

にほんブログ村 士業ブログ 弁理士へ
にほんブログ村

にほんブログ村 IT技術ブログ IT技術メモへ
にほんブログ村