SSD (1/3) 発明の概要

はぐれ弁理士 PA Tora-O です。今回のテーマとして、物体検出の一手法であるSSDを題材に取り上げていきます。

背景

畳み込みニューラルネットワーク(CNN)を導入した物体検出モデルは、[1]One-Stage Detectorと、[2]Two-Stage Detector の2種類に大別されます。この2種類の違いは、関心領域の提案機能及び物体の検出機能を一度に同時に行うか、あるいは二段階に分けて行うかにあります。前者(One-Stage)の例として、グリッド単位の出力結果を統合して物体の検出を行うYOLO(You Only Look Once)が知られています(図1)。

【図1】YOLOのネットワーク構造

出展:SSD: Single Shot MultiBox Detector

問題

ところが、YOLOは、リアルタイム処理に向いているとは言え、Two-Stage Detector と同等の検出精度が得られにくい、という問題があります。具体的には、YOLO(v1)は、PASCAL VOC 2007 データセットを用いる場合、63.4%という成績を残していますが、Faster R-CNN の73.2%と比べて少々見劣りします。ここで、mAP(mean Average Precision)は、検出精度を計るための指標の1つであり、平均適合率AP(=TP/TP∪FP)の全体平均に相当します。

解決手段

そこで、上記した問題を解決すべく、Wei Liu 氏らによりSSD(Single Shot MultiBox Detector)が提案されました。SSDのネットワーク構造は、次の図2に示す通りです。

【図2】SSDのネットワーク構造

出展:SSD: Single Shot MultiBox Detector

図1との比較から理解されるように、このSSDでは、全結合層(FC層;Fully Connected Layer)が用いられない点と、中間層からの特徴マップが段階的に出力される点に大きな特徴があります。これにより、処理の高速化検出精度の維持の両立を実現できました。参考までに、各モデルにおけるmAPとFPS(Frames Per Second)の数値を挙げておきます。

 SSD : mAP 74.3% @ 59 FPS
 YOLO : mAP 63.4% @ 45 FPS
 Faster R-CNN : mAP 73.2% @ 7 FPS

 

以上、今回(第1回)は、SSDの概要について説明しました。次回(第2回)は、SSDの実施例、特に、出力データ構造について説明します。

↓ブログランキングに参加しています。よろしければ1クリックお願いします。

にほんブログ村 士業ブログ 弁理士へ
にほんブログ村

にほんブログ村 IT技術ブログ IT技術メモへ
にほんブログ村