RetinaNet (1/4) 発明の概要

はぐれ弁理士 PA Tora-O です。今回のテーマとして、物体検出の一手法である RetinaNet を題材に取り上げていきます。

背景

畳み込みニューラルネットワーク(CNN)を導入した物体検出モデルは、[1]One-Stage Detectorと、[2]Two-Stage Detector の2種類に大別されます。この2種類の違いは、関心領域の提案機能及び物体の検出機能を一度に同時に行うか、あるいは二段階に分けて行うかにあります。前者(One-Stage)の例として、YOLO(You Only Look Once)やSSD(Single Shot MultiBox Detector)が知られています。

事例 #022 YOLO
事例 #023 SSD

問題

ところが、One-Stage Detector は、リアルタイム処理に向いているとは言え、Two-Stage Detector と同等の検出精度が得られにくい、という問題があります。これに対して、FPN(Feature Pyramid Network)のように、ネットワーク構造の工夫によって検出精度を高めるアプローチが知られています。

事例 #024 FPN

解決手段

そこで、上記した問題を解決すべく、Tsung-Yi Lin 氏らによって RetinaNet が提案されました。本論文は、FPNと同様に、Facebook社・Kaiming He(何恺明)氏らのグループにより発表されています。この手法では、ネットワーク構造の代わりに、目的関数の改良というアプローチを採用しています。

【図】性能比較(Speed versus Accuracy)

出展:Focal Loss for Dense Object Detection

グラフの横軸は処理時間、縦軸は平均適合率AP(=TP/TP∪FP)に相当します。青色の実線は RetinaNet-50 の性能曲線を、赤色の実線は RetinaNet-101 の性能曲線をそれぞれ示しています。末尾の数字は、後述しますが、Backbone Network の層数に相当します。

一方、比較対象となるモデルは、[B]が SSD321、[C]が DSSD321、[D]が R-FCN、[E]が SSD513、[F]が DSSD513、[G]が FPN FRCN、にそれぞれ相当します。なお、[A]YOLOv2 は、圏外のためプロット出来ていません。図から理解されるように、RetinaNet の導入によって、Two-Stage Detector である[G]FPN FRCN と同等であり、それ以外のモデルを上回る結果が得られました。

 

以上、今回(第1回)は、RetinaNet の概要について説明しました。次回(第2回)は、RetinaNet の実施例について説明します。

↓ブログランキングに参加しています。よろしければ1クリックお願いします。

にほんブログ村 士業ブログ 弁理士へ
にほんブログ村

にほんブログ村 IT技術ブログ IT技術メモへ
にほんブログ村