全体平均プーリング(1/5)背景技術

はぐれ弁理士 PA Tora-O です。今回のテーマとして、全体平均プーリング(GAP;Global Average Pooling)を題材に取り上げていきます。GAPの検討には畳み込みニューラルネットワーク(CNN)の知識が必要ですので、CNNを含む背景技術を1回分の記事で軽く説明します。

特徴量抽出設計の自動化

畳み込みニューラルネット(CNN)の登場が特徴量抽出設計の自動化をもたらした、とよく言われます。他の記事などで「抽出の自動化」という表現をよく見かけますが、正しくは「設計の自動化」です。

物体検出を例に挙げますと、従来型の手法では、ヒト頭部の画像領域は楕円形であるなど、物体の形態的特徴に関する予備知識を踏まえて、技術者が、その物体の検出に特化したアルゴリズムを検討・導入していました。これに対して、CNNでは、一律的かつ物量的な画像処理を通じて、物体の形態的特徴を特徴づける何かしらの情報が埋め込まれた特徴マップ(Feature Map)を生成します。つまり、CNNのコンセプトは、学習器のアーキテクチャやハードウェア資源を含む基本設計はなおも手動であるものの、特徴量抽出の思想や根拠をブラックボックス化する(つまり、明文化・コード化しない)ことで様々な物体を検出できる点にあります。

CNNの基本構成

CNNの定義は必ずしも明確ではないですが、ここでは、特徴マップのフラット化の前後で、2つの機能に分けて定義します。特徴マップとは、チャンネル毎の2次元マップからなる横(H)×縦(V)×チャンネル(Ch)のボクセルデータです。なお、場合によって、特徴抽出部の出力物のみならず中間生成物に対しても(広義の)特徴マップと称することもありますが、今回は出力物のみを指すことにします。

[前段の機能] 特徴抽出部
 ・層構成:C層&P層の混成
 ・入力 :識別対象の2次元画像
 ・出力 :特徴マップ
 ・処理 :画像の局所演算とダウンサイジングの反復

[後段の機能] 情報認識部
 ・層構成:FC層
 ・入力 :特徴マップをフラット化した1次元配列データ
 ・出力 :認識結果
 ・処理 :ニューラルネット演算

【図1】AlexNetの模式図

図1のC層、P層、F層はそれぞれ、畳み込み層(Convolution Layer)、プーリング層(Pooling Layer)、全結合層(Fully Connected Layer;FC層)を表しています。CNNには、上記した3種類の層以外にも、正規化層、ソフトマックス層を含む場合がありますが、今回のテーマとの関連性が薄いので説明を省略します。

プーリング

プーリング層は、2次元マップのダウンサイジング機能を担います。このダウンサイジングにより、2次元マップの位置情報が縮約(contraction)されます。このプーリング演算の種類には、最大値を出力する最大プーリングや、平均値を出力する平均プーリングなどがあります。図2では、6×6ピクセルのマップを2×2ピクセルのマップに変換する方法を示しています。

【図2】プーリングの概略図

以上、今回(第1回)は、CNNを含む背景技術について説明しました。CNN初級者の方は、他の技術系ブログや専門書も併せて参考にしてください。ネット検索の場合、例えば、「ニューラルネット」&「CNN」のワードを入力すれば良さそうです。次回(第2回)は、GAPの概略について検討していきます。

↓ブログランキングに参加しています。よろしければ1クリックお願いします。

にほんブログ村 士業ブログ 弁理士へ
にほんブログ村

にほんブログ村 IT技術ブログ IT技術メモへ
にほんブログ村