StackGAN（4/4）総括

2020年6月28日

はぐれ弁理士 PA Tora-O です。前回（第３回）では、StackGAN の発明ポイントについて説明しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回（第４回）は、クレームを含む発明ストーリーを作成し、これまで３回分の検討を総括します。

発明ストーリー

【従来技術】
生成モデルのバリエーション（Variants）の１つとして、テキスト文章の内容に沿った画像を生成する “Text-to-Image Transfer” が挙げられる。変換手法の一例として、Scott Reed 氏らによる GAN-INT-CLS が知られている。

【問題点と課題】
問題点は、GAN-INT-CLSでは、生成器の学習能力に限界があって高分解能の画像を生成することが難しいこと。
課題は、画像以外の情報を示すデータから高分解能の画像データに変換する際、より高い再現精度を獲得すること。

【クレーム骨子】（StackGAN）
　画像以外の情報である非画像情報を示す第１学習データの母集団である第１学習データ群と、非画像情報に対応する画像を示す第２学習データの母集団である第２学習データ群を用いて、敵対的生成ネットワーク（ＧＡＮ）システムに対して学習を行う方法であって、
　ＧＡＮシステムは、
　第１学習データを含む情報を入力し、第２学習データの画像に対して色分解能または空間分解能を低くした画像を示す中間データを模擬した第１生成データを出力する第１生成器と、
　第１生成器から出力された第１生成データを含む情報を入力し、第２学習データを模擬した第２生成データを出力する第２生成器と、
　を含んで構成されることを特徴とする学習方法。（２９３文字）

【作用効果】
一般的には、情報量が相対的に少ない非画像情報を示す第１学習データから、情報量が相対的に多い画像を示す第２学習データに変換する際、情報量のギャップ（生成器により補完すべき情報量）が大きいほど学習精度が低くなる傾向がみられる。そこで、第２学習データの画像と比べて色分解能または空間分解能が低い画像を中間的に生成し、２系統のＧＡＮによって段階的に学習を行うことで、生成器の入出力間の情報量のギャップが埋まり、その分だけ学習精度が向上する。これにより、画像以外の情報を示すデータから高分解能の画像データに変換する際、より高い再現精度を獲得することができる。

作者コメント

今回も「ＧＡＮシステム」という文言を用いることで、ＧＡＮの弁別器に関する記載を省略しました。StackGAN の弁別器には特に新規な技術的特徴がなさそうなので、この表現でも問題ないと思われます。仮に弁別器の構成を含めて真面目に記載する場合、以下のように文字数で約７５％増しになります。

　画像以外の情報である非画像情報を示す第１学習データの母集団である第１学習データ群と、非画像情報に対応する画像を示す第２学習データの母集団である第２学習データ群を用いて、敵対的生成ネットワーク（ＧＡＮ）システムに対して学習を行う方法であって、
　ＧＡＮシステムは、
　第１学習データを含む情報を入力し、第１真正データと同一のデータ形式を有する第１模擬データを出力する第１生成器と、
　第１真正データおよび第１模擬データのうちの一方のデータを含む情報を入力とし、一方のデータが真正であるか否かの弁別結果を出力する第１弁別器と、
　第１模擬データを含む情報を入力し、第２真正データと同一のデータ形式を有する第２模擬データを生成する第２生成器と、
　第２真正データおよび第２模擬データのうちの一方のデータを含む情報を入力とし、一方のデータが真正であるか否かの弁別結果を出力する第２弁別器と
　を含んで構成され、
　第１真正データは、第２学習データの画像に対して色分解能または空間分解能を低くした画像を示す中間データであり、
　第２真正データは、第２学習データ、または、中間データの画像に対して色分解能または空間分解能を高くした画像を示すデータである
　ことを特徴とする学習方法。（５１７文字）

なお、今回の事例検討では、“Text-to-Image Transfer” を念頭に入れたので、「非画像情報」から「画像」に変換するケースに限定しました。当然ながら、StackGAN の概念は、「低解像度画像」から「高解像度画像」に変換するケース（Image-to-Image Transfer）にも適用できます。この事例（ＰＧＧＡＮ）についても別途検討したいところです。

以上をもちまして、StackGAN の事例検討を終了します。次回から、また別のテーマに移ります。

↓ブログランキングに参加しています。よろしければ１クリックお願いします。

にほんブログ村