ドロップアウト(4/4)総括

2020年4月18日

はぐれ弁理士 PA Tora-O です。前回(第3回)では、ドロップアウトに関するクレーム骨子について説明しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。

前回に提案したクレーム骨子を活かそうとすると、以下の発明ストーリーに落ち着きます。仕事ではないのでやや雑に書きますがご了承ください。

発明ストーリー

【従来技術】
ディープラーニング(DL)では、訓練データに対して過度に適合することで汎化性能が低下する過学習が起こりやすい。この過学習を抑制する一手法として、複数の学習モデルを用いた予測結果を統合するアンサンブル学習が知られている。

【問題点と課題】
問題点は、アンサンブル学習では、複数の学習モデルを構築しなければならず、ネットワークの構成や組み合わせが複雑になってしまうこと。
課題は、比較的簡単なネットワークの構成でありながら過学習を抑制すること。

【クレーム】(前回から再掲)
入力層、1層以上の中間層、および出力層を順次接続して構成されるニューラルネットワークに関して、コンピュータが、以下のステップ(a),(b)を順次繰り返すことを特徴とする学習方法。
(a)中間層を構成する複数の演算ユニットの中から一定の割合で1個以上の演算ユニットを無作為に選択し、
(b)選択された演算ユニットの入力、演算または出力を無効化した状態で、ニューラルネットワークに対する学習処理を行う。

【作用と効果】
中間層を構成する複数の演算ユニットの中から一定の割合で無作為に選択された演算ユニットの入力、演算または出力を無効化することで、ステップ(a),(b)の実行の度に、元のニューラルネットワークからそれぞれ一定の規模の様々なサブネットワークがランダムに構築される。そして、逐次的に構築されるサブネットワークに対して学習処理を行うことで、疑似的なアンサンブル学習を実現し、アンサンブル学習と同様に、元のニューラルネットワークに対して汎化性能を付与可能となる。これにより、比較的簡単なネットワーク構成でありながら過学習を抑制することができる。

作者コメント

今回の発明はドロップアウトなので、通常ならば従来技術として、ドロップアウトを行わないニューラルネットが選ばれるべきでしょう。しかし、ちょっと視点を変えて、アンサンブル学習を従来技術として認定することで、アンサンブル学習 ⇒ 汎化性能の獲得の既存フレームワークがそのまま使え、審査官に対する説得力がより高まると考えました。いかがでしょうか。

さて、今回のクレーム表現の中で、1つだけ論点を埋め込んでおきました。「(a)中間層を構成する複数の演算ユニットの中から一定の割合で1個以上の演算ユニットを無作為に選択し」とありますが、果たして「一定の割合で」という文言は本当に必要なのでしょうか?

この構成を加えることで、以下のロジックのように追加的な効果が得られそうです。

それぞれ一定の規模のサブネットワークを構築
 ↓
ネットワークサイズに起因する統計的バラツキの抑制
 ↓
学習時間の短縮、学習精度の向上

裏を返せば、ドロップアウトの割合が常に一定でなくても巨視的に一定であれば、ネットワーク規模の変動に起因して学習時間がさらに掛かりそうだが、同様の汎化性能が得られる可能性が捨てきれません。そこで、「一定の割合で」と明記してしまうと、

  • 50% → 55% → 45% → 50% → 55% →・・・・
  • (50+α)%  ここで、α:[-5,+5]の一様分布

のような迂回技術をカバーできなくなります。結論としては、メインクレームでそれなりの差別化が打ち出せている以上、限定事項である「一定の割合で」を除外しておき、サブクレームに入れておくのがどうやら得策になりそうです。あと、上記した2通りの迂回技術をクレーム範囲に含めるべく、「一定の割合は、固定値のみならず、ある基準値を中心として許容範囲内にある変動値であってもよい」的な記載を仕込んでおくのがベターです。

以上をもちまして、ドロップアウトの事例検討を終了します。次回から、また別のテーマに移ります。

↓ブログランキングに参加しています。よろしければ1クリックお願いします。

にほんブログ村 士業ブログ 弁理士へ
にほんブログ村

にほんブログ村 IT技術ブログ IT技術メモへ
にほんブログ村