YOLO(4/4)総括

はぐれ弁理士 PA Tora-O です。前回(第3回)では、YOLOの技術的特徴について解説しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回(第4回)は、クレームを含む発明ストーリーを作成し、これまで3回分の検討を総括します。

発明ストーリー

【従来技術】
 畳み込みニューラルネットワーク(CNN)を導入した物体検出手法の一例として、R-CNN(Regions with CNN features)、Fast R-CNN、Faster R-CNN などが挙げられる。これらのモデルは、[1]関心領域(ROI;Region Of Interest)の提案機能と、[2]物体の検出機能と、が独立して設けられる点で共通する。
 その一方、上記した提案機能および検出機能を1つのネットワークに統合することで、検出処理の高速化を図ろうとするモデルも出現している。例えば、生成器で生成した特徴マップを共用しつつ、別々の推定器を用いて、物体の種類および位置を推定する “OverFeat” が提案されている。

【問題点と課題】
問題点は、別々の推定器を用いることで、多くの演算時間が掛かるとともに、推定器の管理が煩雑になること。
課題は、物体の種類および位置を推定する検出機能を、単体の推定器により実現すること。

【クレーム骨子】(YOLO)
 畳み込みニューラルネットワークからなる単体の推定器を用いて、物体を含む画像から、画像の全体領域を分割してなるサブ領域毎に、物体の種類およびサブ領域上の相対位置の推定結果を含む検出情報を生成する生成部と、
 サブ領域同士の位置関係および検出情報同士の数値関係から、全体領域における物体の種類および位置を特定する特定部と
 を備えることを特徴とする情報処理装置。(175文字)

【作用効果】
畳み込みニューラルネットワークからなる単体の推定器を用いて、画像の中に存在する物体の種類および相対位置の推定結果を含む検出情報をサブ領域毎に推定し、隣り合うサブ領域同士の推定結果を必要に応じて結合することで、画像の全体領域に占める位置やサイズにかかわらず物体を1つずつ検出できる。これにより、物体の種類および位置を推定する検出機能を、単体の推定器により実現することができる。

作者コメント

YOLOのクレーム作成に際し、アンダーライン部分である「サブ領域上の相対位置」と「サブ領域同士の位置関係および検出情報同士の数値関係」の2つの文言が、いわゆるキラーワードに該当します。

例えば、1個のグリッド(サブ領域)よりも小さい物体であっても、その位置によっては最大で4個のグリッドを跨いで配置される場合があります。また、グリッドサイズを超える物体では、必然的に2個以上のグリッドを跨いで配置されます。そこで、物体の推定結果をグリッド毎に求めて事後的に結合することで、画像の全体領域に占める位置やサイズにかかわらず物体を1つずつ検出できる、という作用に繋がります。

このように、YOLOは出力データ構造とその解釈方法に主な特徴があるので、そのネットワーク構造は、GoogLeNet に限らず何でもOKということになります。

 

以上をもちまして、YOLOの事例検討を終了します。次回から、また別のテーマに移ります。

↓ブログランキングに参加しています。よろしければ1クリックお願いします。

にほんブログ村 士業ブログ 弁理士へ
にほんブログ村

にほんブログ村 IT技術ブログ IT技術メモへ
にほんブログ村