RetinaNet (1/4) 発明の概要

2020年10月18日

はぐれ弁理士 PA Tora-O です。今回のテーマとして、物体検出の一手法である RetinaNet を題材に取り上げていきます。

背景

畳み込みニューラルネットワーク（ＣＮＮ）を導入した物体検出モデルは、［１］One-Stage Detectorと、［２］Two-Stage Detector の２種類に大別されます。この２種類の違いは、関心領域の提案機能及び物体の検出機能を一度に同時に行うか、あるいは二段階に分けて行うかにあります。前者（One-Stage）の例として、ＹＯＬＯ（You Only Look Once）やＳＳＤ（Single Shot MultiBox Detector）が知られています。

事例 #022 ＹＯＬＯ
 事例 #023 ＳＳＤ

問題

ところが、One-Stage Detector は、リアルタイム処理に向いているとは言え、Two-Stage Detector と同等の検出精度が得られにくい、という問題があります。これに対して、ＦＰＮ（Feature Pyramid Network）のように、ネットワーク構造の工夫によって検出精度を高めるアプローチが知られています。

事例 #024 ＦＰＮ

解決手段

そこで、上記した問題を解決すべく、Tsung-Yi Lin 氏らによって RetinaNet が提案されました。本論文は、ＦＰＮと同様に、Facebook社・Kaiming He（何恺明）氏らのグループにより発表されています。この手法では、ネットワーク構造の代わりに、目的関数の改良というアプローチを採用しています。

出展：Focal Loss for Dense Object Detection

グラフの横軸は処理時間、縦軸は平均適合率ＡＰ（＝ＴＰ／ＴＰ∪ＦＰ）に相当します。青色の実線は RetinaNet-50 の性能曲線を、赤色の実線は RetinaNet-101 の性能曲線をそれぞれ示しています。末尾の数字は、後述しますが、Backbone Network の層数に相当します。

一方、比較対象となるモデルは、［Ｂ］が SSD321、［Ｃ］が DSSD321、［Ｄ］が R-FCN、［Ｅ］が SSD513、［Ｆ］が DSSD513、［Ｇ］が FPN FRCN、にそれぞれ相当します。なお、［Ａ］YOLOv2 は、圏外のためプロット出来ていません。図から理解されるように、RetinaNet の導入によって、Two-Stage Detector である［Ｇ］FPN FRCN と同等であり、それ以外のモデルを上回る結果が得られました。

以上、今回（第１回）は、RetinaNet の概要について説明しました。次回（第２回）は、RetinaNet の実施例について説明します。

↓ブログランキングに参加しています。よろしければ１クリックお願いします。

にほんブログ村