全体平均プーリング(4/5)総括
はぐれ弁理士 PA Tora-O です。前回(第3回)では、GAPの特許性について検討しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回(第4回)は、これまでの検討を踏まえて発明ストーリーを仕上げてしまいます。
発明ストーリー
【背景技術】
畳み込みニューラルネットワーク(CNN)は、基本的には、[1]入力情報に関する特徴量を抽出するための前段演算部と、[2]前段演算部からの特徴量を入力とし、かつ入力情報に対する認識結果を出力とする学習器からなる後段演算部と、を含んで構成される。
【問題点と課題】
問題点は、前段演算部からの特徴量の個数が増加するにつれて、後段演算部の学習に要する時間が長くなること。
課題は、後段演算部に対する学習時間を短縮すること。
【クレーム骨子】
入力情報を用いて該入力情報の特徴量を算出する前段演算部と、
前段演算部からの特徴量を入力とし、入力情報に対する認識結果を出力とする学習器からなる後段演算部と、
を備える学習モデルを構築可能に構成され、
前段演算部は、
入力情報に対して畳み込み演算およびプーリング演算を繰り返して実行することで、チャンネル毎のマップを生成し、
マップを構成する全ての要素値に対して統計処理を施すことで、単一値からなる特徴量をチャンネル毎に出力する
ことを特徴とする情報処理装置。(224文字)
【作用と効果】
入力情報に対して畳み込み演算およびプーリング演算を繰り返して実行することで、入力情報に含まれる位置情報が、マップを構成する要素値に段階的に反映されるようになる。そして、全ての要素値に対する統計処理を通じて、マップ上の座標が消失するにもかかわらず、位置情報が埋め込まれた単一値からなる特徴量が得られる。つまり、前段演算部が生成する特徴量の個数が減る分だけ、後段演算部の学習器に用いられる学習パラメータの個数が少なくて済む。これにより、複数の要素値からなる特徴マップを出力する場合と比べて、後段演算部に対する学習時間がより短縮される。
ポイント解説
入力情報
例えば、CNNを用いて物体検出を行う場合、前段演算部への入力対象は「画像」になります。ところが、自然言語処理や音声認識の場合にもCNNが適用され得ることを考慮すると、安易に画像に限定すべきではありません。という理由で「入力情報」という表現を用いています。
特徴量
GAPのように1個の要素値で出力される場合もあるので、特徴「マップ」と言うには若干の抵抗があります。そこで、特徴マップの代わりに特徴量と表現します。
学習器
「後段演算部に対する学習時間を減らす」ことを本発明の課題に設定したので、少なくとも後段演算部が学習器であることが前提条件になります。
学習モデルを構築可能に構成
この文言を削除してもクレームとして成立しますが、「前段演算部」と「後段演算部」の実体が特定されにくいように感じます。そこで、この2つの演算部が学習モデルの一部であり、かつ当該モデルが情報処理装置(より厳密には、プロセッサ)により構築されることを明示します。
畳み込み演算およびプーリング演算を繰り返して実行
「位置情報がマップの要素値に反映される」という作用を発現するために必須の構成であると考えられます。なお、第1回の図1(AlexNetの構成)で示した通り、2種類の演算を順繰りに実行する必要はないので、その旨を明細書に記載しておいた方がベターです。
マップ
「中間的な特徴マップ」の意味で使っています。このマップは2次元以上であることを想定していますが、ここでは明記を避けています。
統計処理
位置情報がマップの要素値に反映されることが是であれば、プーリングの演算方法は、平均(Average)に限られず、最大(Maximum)、最小(Minimum)や中央値(Median)なども一応あり得ると考えた方が得策でしょう。これらの演算の上位概念として「統計処理」と表現しています。
全ての要素値/単一値からなる特徴量
GAPの特徴部分に相当し、通常のプーリング演算との差別化が図られています。
以上、今回(第4回)は、過去3回の検討を踏まえ、ざっと発明ストーリーを作成しました。テーマ最終回(第5回)では、これまでとは別のアプローチ方法について提案したいと思います。
↓ブログランキングに参加しています。よろしければ1クリックお願いします。
ディスカッション
コメント一覧
まだ、コメントがありません