ＹＯＬＯ（1/4）発明の概要

2020年8月7日

はぐれ弁理士 PA Tora-O です。今回のテーマとして、物体検出の一手法であるＹＯＬＯを題材に取り上げていきます。

背景

畳み込みニューラルネットワーク（ＣＮＮ）を導入した物体検出手法の一例として、［１］R-CNN（Regions with CNN features）、［２］Fast R-CNN、［３］Faster R-CNN が挙げられます。各モデルの詳細については、以下の事例検討が参考になります。

事例 #005 Ｒ－ＣＮＮ
事例 #007 Fast R-CNN
事例 #008 Faster R-CNN

これらモデルの共通点は、［１］関心領域（ＲＯＩ；Region Of Interest）の提案機能と、［２］物体の検出機能が独立して設けられることです。この類の検出器は、“Two-stage detector” と呼ばれています。

問題の所在

ところが、Two-Stage Type の物体検出では、対象物を含み得る関心領域の候補を多数（Ｒ－ＣＮＮ論文の例では、約２０００個！）提案した後、検出機能の側でより高精度な検出を行っています。そのため、ＲＯＩの個数が増加するにつれて、すべての検出結果を得るまでの時間が掛かるという問題が生じます。Faster R-CNN のように、提案機能（Region Proposals）をニューラルネットワークで実装することで処理時間が大幅に短縮されましたが、リアルタイム性が実現できるレベルとはまだ言えません。