ＹＯＬＯ（4/4）総括

2020年8月28日

はぐれ弁理士 PA Tora-O です。前回（第３回）では、ＹＯＬＯの技術的特徴について解説しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回（第４回）は、クレームを含む発明ストーリーを作成し、これまで３回分の検討を総括します。

発明ストーリー

【従来技術】
　畳み込みニューラルネットワーク（ＣＮＮ）を導入した物体検出手法の一例として、R-CNN（Regions with CNN features）、Fast R-CNN、Faster R-CNN などが挙げられる。これらのモデルは、［１］関心領域（ROI；Region Of Interest）の提案機能と、［２］物体の検出機能と、が独立して設けられる点で共通する。
　その一方、上記した提案機能および検出機能を１つのネットワークに統合することで、検出処理の高速化を図ろうとするモデルも出現している。例えば、生成器で生成した特徴マップを共用しつつ、別々の推定器を用いて、物体の種類および位置を推定する “OverFeat” が提案されている。

【問題点と課題】
問題点は、別々の推定器を用いることで、多くの演算時間が掛かるとともに、推定器の管理が煩雑になること。
課題は、物体の種類および位置を推定する検出機能を、単体の推定器により実現すること。

【クレーム骨子】（ＹＯＬＯ）
　畳み込みニューラルネットワークからなる単体の推定器を用いて、物体を含む画像から、画像の全体領域を分割してなるサブ領域毎に、物体の種類およびサブ領域上の相対位置の推定結果を含む検出情報を生成する生成部と、
　サブ領域同士の位置関係および検出情報同士の数値関係から、全体領域における物体の種類および位置を特定する特定部と
　を備えることを特徴とする情報処理装置。（１７５文字）

【作用効果】
畳み込みニューラルネットワークからなる単体の推定器を用いて、画像の中に存在する物体の種類および相対位置の推定結果を含む検出情報をサブ領域毎に推定し、隣り合うサブ領域同士の推定結果を必要に応じて結合することで、画像の全体領域に占める位置やサイズにかかわらず物体を１つずつ検出できる。これにより、物体の種類および位置を推定する検出機能を、単体の推定器により実現することができる。

作者コメント

ＹＯＬＯのクレーム作成に際し、アンダーライン部分である「サブ領域上の相対位置」と「サブ領域同士の位置関係および検出情報同士の数値関係」の２つの文言が、いわゆるキラーワードに該当します。

例えば、１個のグリッド（サブ領域）よりも小さい物体であっても、その位置によっては最大で４個のグリッドを跨いで配置される場合があります。また、グリッドサイズを超える物体では、必然的に２個以上のグリッドを跨いで配置されます。そこで、物体の推定結果をグリッド毎に求めて事後的に結合することで、画像の全体領域に占める位置やサイズにかかわらず物体を１つずつ検出できる、という作用に繋がります。

このように、ＹＯＬＯは出力データ構造とその解釈方法に主な特徴があるので、そのネットワーク構造は、GoogLeNet に限らず何でもＯＫということになります。

以上をもちまして、ＹＯＬＯの事例検討を終了します。次回から、また別のテーマに移ります。

↓ブログランキングに参加しています。よろしければ１クリックお願いします。

にほんブログ村