SSD (3/3) 総括

はぐれ弁理士 PA Tora-O です。前回(第3回)では、SSDの実施例について解説しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回(第3回)は、クレームを含む発明ストーリーを作成し、これまで2回分の検討を総括します。

発明ストーリー

【従来技術】
畳み込みニューラルネットワーク(CNN)を導入した物体検出手法の一例として、R-CNN(Regions with CNN features)、Fast R-CNN、Faster R-CNN などが挙げられる。これらのモデルは、[1]関心領域(ROI;Region Of Interest)の提案機能と、[2]物体の検出機能と、が独立して設けられる点で共通する。
その一方、上記した提案機能および検出機能を1つのネットワークに統合することで、検出処理の高速化を図ろうとするモデルも出現している。例えば、画像の全体領域を格子状に分割し、物体の種類および位置を推定するYOLOが提案されている。

【問題点と課題】
問題点は、YOLOの場合、物体のサイズによって検出精度にバラツキが生じ得ること。
課題は、物体のサイズに起因する検出精度のバラツキを抑制すること。

【クレーム骨子】(SSD
 物体を含む画像から空間解像度が異なる複数の特徴マップを生成する生成部と、
 複数の特徴マップを用いて物体の種類および位置の推定結果を出力する推定部と、
 を備え、
 位置の推定結果は、境界ボックスの基準位置および基準サイズに対するオフセット量であり、
 基準サイズは、特徴マップの空間解像度に応じて異なる値が設定されることを特徴とする情報処理装置。(166文字)

【作用効果】
複数の特徴マップを用いて物体の種類および位置の推定する際、特徴マップの空間解像度に応じて基準サイズが異なる境界ボックスを設定するので、基準サイズの適切な選択によって様々なサイズを有する物体の特徴を捉えやすくなる。これにより、物体のサイズに起因する検出精度のバラツキを抑制することができる。

作者コメント

従来の物体検出モデルでは、CNNで生成された特徴マップをフラット化し、全結合層に接続して検出結果を一元的に出力します。このSSD以降、特徴マップの空間解像度を変調させながら、各サイズに有利な特徴量を順次抽出し、個々に出力された検出結果を連結するネットワーク構造が主流になります。

よって、SSDの「マルチボックス検出/マルチスケール検出」の概念は、[1]One-Stage Detector、[2]Two-Stage Detector のいずれにも適用できるため、クレームの表現上、“One-Stage”(単体のニューラルネット)に限定する必要はないと考えます。

また、【作用効果】の「基準サイズの適切な選択によって」は、構成と効果の因果関係を上手に繋げるための常套句です。適切な選択とは、実際には、空間解像度が高いほど基準サイズを大きくし、空間解像度が低いほど基準サイズを小さくすることを意味します。

 

以上をもちまして、SSDの事例検討を終了します。次回から、また別のテーマに移ります。

↓ブログランキングに参加しています。よろしければ1クリックお願いします。

にほんブログ村 士業ブログ 弁理士へ
にほんブログ村

にほんブログ村 IT技術ブログ IT技術メモへ
にほんブログ村