FCN(1/4)発明の概要

はぐれ弁理士 PA Tora-O です。今回のテーマとして、セグメンテーションの一手法であるFCN(Fully Convolutional Networks)を題材に取り上げていきます。

背景

セグメンテーション(Segmentation)とは、画像内にある物体などを画素単位で認識し、複数のサブ領域に分割するタスクを意味します。機械学習を用いない従来手法の一例として、階層的グループ化が挙げられます。例えば、次の記事が参考になるでしょう。
  事例 #010 Selective Search

また、機械学習を用いる手法の一例として、SDS(Simultaneous Detection and Segmentation)が挙げられます。

【図1】SDSのネットワーク構成

出展:Simultaneous Detection and Segmentation

このSDSは、CNNを用いて特徴マップを生成し、この特徴マップから[1]境界ボックスの推定および[2]画像領域の分割(セグメンテーション)を行い、両者の結果を統合して物体を検出する手法です。

【図2】Region CNNの構成(一部加工あり)

出展:Simultaneous Detection and Segmentation

セグメンテーションを行うネットワーク(Region CNN)は、いわゆる AlexNet であり、5層のConv層および2層のFC層(Fully Connected Layers)から構成されます。

問題

ところが、図2の構成によれば、Region CNN の出力層は、画素毎の領域属否を示す値を出力します。つまり、出力層を構成する演算ユニット数が、入力画像の画素数(H・W)の整数倍に等しくなる必要があります。このため、処理対象の画像にはサイズ上の制約が課されるという問題があります。

これに対して、拡縮処理、トリム画像またはパディング処理を用いて画像サイズを事前に調整することも一応考えられます。ところが、元の画像とは異なる処理済みの画像を用いて推定を試みるため、どうしても分割領域の推定精度が低下する傾向がみられます。

解決手段

そこで、上記した問題を解決すべく、Jonathan Long 氏らによりFCN(Fully Convolutional Networks)という手法が提案されました。次回の以降、この手法の詳細を理解することで、当該モデルをこのように命名した意図が見えてきます。

【図3】セグメンテーション結果の比較図

図3は、セグメンテーション結果の比較図です。右から順に、[1]Image(元の画像)、[2]Ground Truth(正解)、[3]SDS(比較例)、[4]FCN(実施例)、にそれぞれ相当します。SDSによれば、騎手の衣服および馬体の影によって、馬領域の一部を抽出し損なっています。一方、FCNによれば、馬領域が概ね正確に抽出されています。

 

以上、今回(第1回)は、FCNについてその背景を含めて説明しました。次回(第2回)は、FCNの実施例について検討していきます。

↓ブログランキングに参加しています。よろしければ1クリックお願いします。

にほんブログ村 士業ブログ 弁理士へ
にほんブログ村

にほんブログ村 IT技術ブログ IT技術メモへ
にほんブログ村