ＦＣＮ (2/4) 実施例の説明

2020年12月6日

はぐれ弁理士 PA Tora-O です。前回（第１回）では、ＦＣＮの概要について説明しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回（第２回）は、ＦＣＮの実施例について説明します。

ネットワーク構造

まず、ＦＣＮのネットワーク構造は、次に示す図１の通りです。

出展：Fully Convolutional Networks for Semantic Segmentation

本モデルの訴求点は、「全結合層」＝ＦＣ層（Fully Connected Layers）を省略したことにあり、そのモデル名である「全畳み込みネットワーク」＝ＦＣＮ（Fully Convolutional Networks）に強く体現されています。ＦＣＮの前段部には、AlexNet、ＶＧＧ、GoogLeNet を含む様々な畳み込み演算モデルが用いられます。つまり、後段部の “pixelwise prediction” に工夫があると言えそうです。

Pixelwise prediction

続いて、ＦＣＮの後段部（pixelwise prediction）について説明します。以下、図示の簡素化のため、カーネルサイズが２×２のプーリング処理を行う５つのプーリング層Ｐ１～Ｐ５を表記しています。本論文では、［１］ＦＣＮ－３２ｓ、［２］ＦＣＮ－１６ｓ、［３］ＦＣＮ－８ｓ、の３種類が提案されています。

図２Ａは、ＦＣＮ－３２ｓの層構成を示しています。図中の「ＵＰ３２」は、カーネルサイズが３２×３２のアンプーリング（あるいは、アップサンプリング）を行う演算子を示しています。ＦＣＮ－３２ｓでは、［１］Ｐ５層の出力マップを３２倍に拡大することで、Ｐ１層と同じサイズのヒートマップ、すなわち画素毎のセグメンテーション結果が得られます。

図２Ｂは、ＦＣＮ－１６ｓの層構成を示しています。図中の「ＵＰ２」、「ＵＰ１６」は、カーネルサイズが２×２、１６×１６のアンプーリングを行う演算子をそれぞれ示しています。ＦＣＮ－１６ｓでは、［１］Ｐ５層の出力マップを２倍に拡大し、［２］Ｐ４層の出力マップを画素毎に加算し、［３］１６倍に拡大することで、画素毎のセグメンテーション結果が得られます。

図２Ｃは、ＦＣＮ－８ｓの層構成を示しています。図中の「ＵＰ８」は、カーネルサイズが８×８のアンプーリングを行う演算子を示しています。ＦＣＮ－１６ｓでは、［１］Ｐ５層の出力マップを２倍に拡大し、［２］Ｐ４層の出力マップを画素毎に加算し、［３］２倍に拡大し、［４］Ｐ３層の出力マップを画素毎に加算し、［５］８倍に拡大することで、画素毎のセグメンテーション結果が得られます。

そして、大体察しが付くと思いますが、３２ｓ＜１６ｓ＜８ｓの順で、検出精度が高くなっています。

以上、今回（第２回）は、ＦＣＮの実施例について説明しました。次回（第３回）は、ＦＣＮとほぼ同時期に発表され、しかもＦＣＮに類似する技術であるＵ－Ｎｅｔについて説明します。

↓ブログランキングに参加しています。よろしければ１クリックお願いします。

にほんブログ村