StackGAN（3/4）本発明のポイント

2020年6月22日

はぐれ弁理士 PA Tora-O です。前回（第２回）では、StackGAN の実施例について説明しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回（第３回）は、本発明のポイントについて考察します。

従来技術

まずは、StackGAN との比較対象である従来技術（Prior Art）を明示しておきます。ここでは、説明を省略しますが、必要に応じて下記の記事を参照してください。
［１］GAN-INT-CLS　参考記事：StackGAN（1/4）発明の概要
［２］Pix2Pix　　　　参考記事：Pix2Pix（2/4）実施例の説明

検討その１(Stage-Ⅱ GAN)

前回（第２回）の図１～図３から理解されるように、Stage-Ⅰ GAN は、GAN-INT-CLS と基本的には同一のネットワーク構造である、と捉えても問題ありません。そうすると、消去法の発想によって、StackGAN の特徴は、Stage-Ⅱ GAN のネットワーク構造にあると考えることができます。

図１と図２を比較すると、Pix2Pix との相違点は、以下の２点と言えるでしょう。
（１）画像サイズの変化
　Pix2Pix では、入出力画像のサイズが一致するように生成器が設計されており、変換処理の前後にわたって画像サイズが変化しません。一方、Stage-Ⅱ GAN では、変換処理の前後にわたって画像サイズが変化、つまり拡大します。
（２）テキスト特徴量の入力
　Pix2Pix の生成器および弁別器には、画像情報のみが入力されます。一方、Stage-Ⅱ GAN の生成器および弁別器には、画像情報の他に、この画像情報に対応付けられたテキスト特徴量（TXT_feat）が入力されます。

ところが、以下の理由で、Stage-Ⅱ GAN 自体を StackGAN の発明ポイントに認定するのは早計であると思われます。
（１）に関して、低解像度画像から高解像度画像を生成する超解像（Super-Resolution）と呼ばれる技術が前から存在しており、この技術をニューラルネットワークにより実現することに対して特段の困難性がない。
（２）に関して、テキスト特徴量は、画像の生成精度を高める上では有効であるが、必須の入力情報ではない。例えば、［１］生成器に入力／弁別器に非入力、［２］生成器に非入力／弁別器に入力、［３］生成器に非入力／弁別器に非入力、の実装も十分に考えられる。