SPPnet(4/4)総括

はぐれ弁理士 PA Tora-O です。前回(第3回)では、SPPnetの技術的思想を抽出して切り分ける検討を行いました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回(第4回)は、これまでの検討を踏まえて、クレームを含む発明ストーリーを完成させます。

発明ストーリー

【従来技術】
畳み込みニューラルネットワーク(CNN)を導入した物体検出手法の一例として、R-CNN(Regions with CNN features)が挙げられる。このR-CNNでは、[1]全体画像の中から対象物を含む部分画像を抽出し、[2]抽出された部分画像のサイズを調整し、[3]調整済みの部分画像をCNNに投入する。

【問題点と課題】
問題点は、R-CNNでは、元の画像とは異なる処理済みの部分画像を用いて対象物の検出を行うため、検出精度が低下する傾向がみられること。
課題は、抽出した部分画像のサイズの違いに起因する検出精度のばらつきを抑制すること。

【クレーム】
 全体画像の中から対象物を含む部分画像を抽出する抽出部と、
 抽出された部分画像の中にある対象物を検出する検出部と、
 を備え、検出部は、
 部分画像のサイズに応じて可変なサイズを有する第1特徴マップを生成する第1演算部と、
 プーリング演算の条件を変更することで、第1特徴マップのサイズにかかわらず一定のサイズを有する第2特徴マップを生成する第2演算部と、
 が順次接続された階層を含む階層型ニューラルネットワークから構成される、
 ことを特徴とする対象物検出装置。(221文字)

【作用と効果】
部分画像のサイズに応じて可変なサイズを有する第1特徴マップを生成する第1演算部と、第1特徴マップのサイズにかかわらず一定のサイズを有する第2特徴マップを生成する第2演算部を設けることで、検出部への入力に先立って部分画像のサイズを調整しなくて済む。つまり、抽出後の部分画像を未加工のまま用いることで、加工に伴う画像情報の欠損なく物体検出を実行可能となり、抽出した部分画像のサイズの違いに起因する検出精度のばらつきを抑制することができる。

ポイント解説

対象物
「物体」(=物の対象物)と表現すると、人間を含む生物が除外されるのではないか、という懸念があります。そこで、特許業界では、慣例的に「対象物」と表現する場合が多いようです。

部分画像のサイズに応じて可変なサイズを有する第1特徴マップ
部分画像と第1特徴マップのサイズの関係性について言及しています。

第1特徴マップのサイズにかかわらず一定のサイズを有する第2特徴マップ
第1特徴マップと第2特徴マップのサイズの関係性について言及しています。

第2演算部
先に述べた通り、プーリングの層構成は、①直列接続型、②並列接続型、③単体型のいずれであってもOKです。そこで、層構成の特定をあえて避けることで、様々なバリエーションがカバーできます。

改良案(参考)

これまで、画像サイズが一定であるデータセットに対する物体検出タスクを想定して話を進めてきました。このSPPnetは、画像サイズが異なるデータセットに対する画像分類タスクにも適用できると考えられます。つまり、上記したクレームを、次のように上位概念化することも一応可能です。なお、変更箇所を赤字で示しています。

<上位クレーム>
 画像を入力とし、画像の認識結果を出力とする階層型ニューラルネットワークを構築可能に構成され、
 階層型ニューラルネットワークは、
 画像のサイズに応じて可変なサイズを有する第1特徴マップを生成する第1演算部と、
 プーリング演算の条件を変更することで、第1特徴マップのサイズにかかわらず一定のサイズを有する第2特徴マップを生成する第2演算部と、
 が順次接続された階層を含む、
 ことを特徴とする画像認識装置。(195文字)

以上をもちまして、SPPnetの事例検討を終了します。次回から、また別のテーマに移ります。

↓ブログランキングに参加しています。よろしければ1クリックお願いします。

にほんブログ村 士業ブログ 弁理士へ
にほんブログ村

にほんブログ村 IT技術ブログ IT技術メモへ
にほんブログ村