StackGAN(4/4)総括
はぐれ弁理士 PA Tora-O です。前回(第3回)では、StackGAN の発明ポイントについて説明しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回(第4回)は、クレームを含む発明ストーリーを作成し、これまで3回分の検討を総括します。
発明ストーリー
【従来技術】
生成モデルのバリエーション(Variants)の1つとして、テキスト文章の内容に沿った画像を生成する “Text-to-Image Transfer” が挙げられる。変換手法の一例として、Scott Reed 氏らによる GAN-INT-CLS が知られている。
【問題点と課題】
問題点は、GAN-INT-CLSでは、生成器の学習能力に限界があって高分解能の画像を生成することが難しいこと。
課題は、画像以外の情報を示すデータから高分解能の画像データに変換する際、より高い再現精度を獲得すること。
【クレーム骨子】(StackGAN)
画像以外の情報である非画像情報を示す第1学習データの母集団である第1学習データ群と、非画像情報に対応する画像を示す第2学習データの母集団である第2学習データ群を用いて、敵対的生成ネットワーク(GAN)システムに対して学習を行う方法であって、
GANシステムは、
第1学習データを含む情報を入力し、第2学習データの画像に対して色分解能または空間分解能を低くした画像を示す中間データを模擬した第1生成データを出力する第1生成器と、
第1生成器から出力された第1生成データを含む情報を入力し、第2学習データを模擬した第2生成データを出力する第2生成器と、
を含んで構成されることを特徴とする学習方法。(293文字)
【作用効果】
一般的には、情報量が相対的に少ない非画像情報を示す第1学習データから、情報量が相対的に多い画像を示す第2学習データに変換する際、情報量のギャップ(生成器により補完すべき情報量)が大きいほど学習精度が低くなる傾向がみられる。そこで、第2学習データの画像と比べて色分解能または空間分解能が低い画像を中間的に生成し、2系統のGANによって段階的に学習を行うことで、生成器の入出力間の情報量のギャップが埋まり、その分だけ学習精度が向上する。これにより、画像以外の情報を示すデータから高分解能の画像データに変換する際、より高い再現精度を獲得することができる。
作者コメント
今回も「GANシステム」という文言を用いることで、GANの弁別器に関する記載を省略しました。StackGAN の弁別器には特に新規な技術的特徴がなさそうなので、この表現でも問題ないと思われます。仮に弁別器の構成を含めて真面目に記載する場合、以下のように文字数で約75%増しになります。
画像以外の情報である非画像情報を示す第1学習データの母集団である第1学習データ群と、非画像情報に対応する画像を示す第2学習データの母集団である第2学習データ群を用いて、敵対的生成ネットワーク(GAN)システムに対して学習を行う方法であって、
GANシステムは、
第1学習データを含む情報を入力し、第1真正データと同一のデータ形式を有する第1模擬データを出力する第1生成器と、
第1真正データおよび第1模擬データのうちの一方のデータを含む情報を入力とし、一方のデータが真正であるか否かの弁別結果を出力する第1弁別器と、
第1模擬データを含む情報を入力し、第2真正データと同一のデータ形式を有する第2模擬データを生成する第2生成器と、
第2真正データおよび第2模擬データのうちの一方のデータを含む情報を入力とし、一方のデータが真正であるか否かの弁別結果を出力する第2弁別器と
を含んで構成され、
第1真正データは、第2学習データの画像に対して色分解能または空間分解能を低くした画像を示す中間データであり、
第2真正データは、第2学習データ、または、中間データの画像に対して色分解能または空間分解能を高くした画像を示すデータである
ことを特徴とする学習方法。(517文字)
なお、今回の事例検討では、“Text-to-Image Transfer” を念頭に入れたので、「非画像情報」から「画像」に変換するケースに限定しました。当然ながら、StackGAN の概念は、「低解像度画像」から「高解像度画像」に変換するケース(Image-to-Image Transfer)にも適用できます。この事例(PGGAN)についても別途検討したいところです。
以上をもちまして、StackGAN の事例検討を終了します。次回から、また別のテーマに移ります。
↓ブログランキングに参加しています。よろしければ1クリックお願いします。
ディスカッション
コメント一覧
まだ、コメントがありません