ＳＳＤ (1/3) 発明の概要

2020年8月30日

はぐれ弁理士 PA Tora-O です。今回のテーマとして、物体検出の一手法であるＳＳＤを題材に取り上げていきます。

背景

畳み込みニューラルネットワーク（ＣＮＮ）を導入した物体検出モデルは、［１］One-Stage Detectorと、［２］Two-Stage Detector の２種類に大別されます。この２種類の違いは、関心領域の提案機能及び物体の検出機能を一度に同時に行うか、あるいは二段階に分けて行うかにあります。前者（One-Stage）の例として、グリッド単位の出力結果を統合して物体の検出を行うＹＯＬＯ（You Only Look Once）が知られています（図１）。

出展：SSD: Single Shot MultiBox Detector

問題

ところが、ＹＯＬＯは、リアルタイム処理に向いているとは言え、Two-Stage Detector と同等の検出精度が得られにくい、という問題があります。具体的には、ＹＯＬＯ（ｖ１）は、PASCAL VOC 2007 データセットを用いる場合、６３．４％という成績を残していますが、Faster R-CNN の７３．２％と比べて少々見劣りします。ここで、ｍＡＰ（mean Average Precision）は、検出精度を計るための指標の１つであり、平均適合率ＡＰ（＝ＴＰ／ＴＰ∪ＦＰ）の全体平均に相当します。

解決手段

そこで、上記した問題を解決すべく、Wei Liu 氏らによりＳＳＤ（Single Shot MultiBox Detector）が提案されました。ＳＳＤのネットワーク構造は、次の図２に示す通りです。

出展：SSD: Single Shot MultiBox Detector

図１との比較から理解されるように、このＳＳＤでは、全結合層（ＦＣ層；Fully Connected Layer）が用いられない点と、中間層からの特徴マップが段階的に出力される点に大きな特徴があります。これにより、処理の高速化と検出精度の維持の両立を実現できました。参考までに、各モデルにおけるｍＡＰとＦＰＳ（Frames Per Second）の数値を挙げておきます。

　ＳＳＤ : mAP 74.3% @ 59 FPS
　ＹＯＬＯ : mAP 63.4% @ 45 FPS
　Faster R-CNN : mAP 73.2% @ 7 FPS

以上、今回（第１回）は、ＳＳＤの概要について説明しました。次回（第２回）は、ＳＳＤの実施例、特に、出力データ構造について説明します。

↓ブログランキングに参加しています。よろしければ１クリックお願いします。

にほんブログ村