RetinaNet (2/4) 実施例の説明

2020年11月1日

はぐれ弁理士 PA Tora-O です。前回（第１回）では、RetinaNet の概要について説明しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回（第２回）は、RetinaNet の実施例について説明します。

ネットワーク構造

まず、RetinaNet のネットワーク構造は、次に示す図１の通りです。

出展：Focal Loss for Dense Object Detection

この図から理解されるように、RetinaNet は、ＦＰＮ（Feature Pyramid Network）を One-Stage Detector に実装したものと言えそうです。なお、ＦＰＮの概要については、次の記事が参考になります。
　ＦＰＮ (2/4) 実施例の説明
　ＦＰＮ (3/4) 特許性の検討

目的関数の損失項

次に、RetinaNet の目的関数、より詳しくは損失項（Loss）について説明します。この説明に先立ち、従来型の交差エントロピー（Cross Entropy）について触れておきます。交差エントロピーＣＥは、次の数式１に従って算出されます。

ここで、ｙは教示値（０ or １）、ｐは確率（［０，１］）にそれぞれ相当します。教示値は、例えば、（１，０，０，‥‥，０）のようなＮ個のベクトル成分を有する One-hot Vector です。

これに対して、RetinaNet では、交差エントロピーに代わる損失項として、フォーカルロス（Focal Loss）が提案されました。フォーカルロスＦＬは、次の数式２に従って算出されます。

このように、フォーカルロスは、交差エントロピーに対して、α・（１－ｐ）γ を乗算したものです。重み付け係数αと冪数γは、それぞれハイパーパラメータです。γを変化させた場合のフォーカルロスＦＬの関数形状を図２に示します。

出展：Focal Loss for Dense Object Detection

ＦＬは、γの値にかかわらず、２点（０，∞）、（１，０）を通る曲線です。γ＝０の場合、ＦＬは、ＣＥに一致します。また、γの値が大きくなるにつれて、ＦＬがδ関数に近づいていきます。本論文では、実験的には、γ＝２が概ね最適値であると述べられています。

以上、今回（第２回）は、RetinaNet の実施例について説明しました。このように、RetinaNet の特徴事項については理解できるのですが、フォーカルロスの導入によって検出精度が向上する、という因果関係が容易にイメージしにくいと思われます。そこで、次回（第３回）は、そのメカニズムについて概略的に解説します。

↓ブログランキングに参加しています。よろしければ１クリックお願いします。

にほんブログ村