Unrolled GAN（4/4）総括

2020年7月15日

はぐれ弁理士 PA Tora-O です。前回（第３回）では、Unrolled GAN の学習メカニズムについて概説しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回（第４回）は、クレームを含む発明ストーリーを作成し、これまで３回分の検討を総括します。

発明ストーリー

【従来技術】
代表的な生成モデルとして、データの真贋判定を行う弁別器（Discriminator）と協働して生成器（Generator）を学習させる敵対的生成ネットワーク（ＧＡＮ）が知られている。

【問題点と課題】
問題点は、ＧＡＮの学習途中で、目的関数の局所的極小点（Local Minima）に嵌まり込みやすく、学習に時間が掛かってしまうこと。
課題は、ＧＡＮの学習時間を短縮すること。

【クレーム骨子】（Unrolled GAN）
　弁別器の演算規則を特定可能な第１学習パラメータ群を第１引数とし、生成器の演算規則を特定可能な第２学習パラメータ群を第２引数とした敵対的損失項を含む目的関数に従って、勾配降下法を用いて敵対的生成ネットワークを学習する方法であって、
　第２学習パラメータ群が固定された目的関数に従って第１学習パラメータ群を予備的に更新する回数を第１更新回数、かつ
　第１学習パラメータ群が固定された目的関数に従って第２学習パラメータ群を予備的に更新する回数を第２更新回数、と定義するとき、
　第１学習パラメータ群の本更新に用いられる目的関数の第１引数における第１更新回数が、第２学習パラメータ群の本更新に用いられる目的関数の第１引数における第１更新回数と異なり、または、
　第１学習パラメータ群の本更新に用いられる目的関数の第２引数における第２更新回数が、第２学習パラメータ群の本更新に用いられる目的関数の第２引数における第２更新回数と異なることを特徴とする学習方法。（４１６文字）

【作用効果】
弁別器および生成器が同様の進行度合いで学習を繰り返す過程において一時的に、両者の間で相互依存性の過学習が発生し、目的関数の局所的極小点に嵌まり込むことがある。そこで、関数形状が共通する目的関数において、本更新に先立って学習パラメータ群を予備的に更新するとともに、本更新に用いられる第１または第２引数における更新回数に差を設けることで、勾配降下法に基づいて目的関数の大局的最小点（Global Minimum）に到達するまでの間は、第１および第２学習パラメータ群の更新に関する独立性を高めることができる。
そうすると、弁別器と生成器の間で起こり得る相互依存性の過学習が抑制され、目的関数の局所的極小点に嵌まり込んで学習が停滞する可能性が低下する。これにより、敵対的生成ネットワークにおける学習時間を短縮することができる。

作者コメント

上記したクレームと、実施例（Unrolled GAN）の関係について補足的に説明します。
まず、弁別器Ｄの「第１」更新回数をＮ（≧０）とし、生成器Ｇの「第２」更新回数をＭ（≧０）とします。次の図で、目的関数の引数ペアを（Ｎ，Ｍ）と表現し、グラフにプロットしてみます。

Unrolled GAN では、弁別器Ｄが（０，０）に、生成器Ｇが（Ｋ，０）にそれぞれ対応します。Ｍ＝Ｎの４５度ラインが通常の更新則（つまり、Ｄ－Ｇ結託線）に該当しますので、Unrolled GAN は、このラインからベクトル向きが最も離れており、しかも２点のプロットが効率的に離された最適パターンになっています。つまり、相互依存性の過学習を抑制するという観点では、Unrolled GAN がまさにベストモードと言えるでしょう。

一方、上記した考え方に従うと、Ｎ，Ｍの値を反対にした（０，Ｋ）も同様であるとも主張できます。ところが、一般的に言えば、生成器Ｇは、弁別器Ｄよりも保有するパラメータ数が多く、その分だけ学習の収束性が低くなるはずです。そのため、実際には、逆効果であるとまでは言い切れないが、Unrolling による効果が薄まるのでは、と勝手に予想します（未検証）。

以上をもちまして、Unrolled GAN の事例検討を終了します。次回から、また別のテーマに移ります。

↓ブログランキングに参加しています。よろしければ１クリックお願いします。

にほんブログ村