StackGAN(2/4)実施例の説明

はぐれ弁理士 PA Tora-O です。前回(第1回)では、StackGAN の概要について説明しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回(第2回)は、StackGAN の実施例について説明します。

システム構成

まず、StackGAN のシステム構成について、図1を参照しながら説明します。

【図1】StackGAN のシステム構成

出展:StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks

StackGAN は、2系統の並べられたGAN(two stacked GANs)で構成されます。上段の Stage-ⅠGAN は、テキスト文章を「低」解像度画像(Low-Resolution Images)に変換する生成ネットワークです。一方、下段の Stage-ⅡGAN は、「低」解像度画像を「高」解像度画像(High-Resolution Images)に変換する生成ネットワークです。

動作の説明

続いて、StackGAN の動作について説明します。図1は、とても良く纏まっていて説明にそのまま使えそうです。しかし、今回は、各工程を視覚的に理解できるように、図2および図3を新たに作成しました。そのため、図1に示す構成(ブロック)の一部をあえて省略しています。

【図2】各工程のまとめ
【図3】模式図(第3~第5工程)

第1工程

まず、StackGAN の学習に用いる学習データセットを準備します。具体的には、テキスト文章(TXT)と、真正の高解像度画像(Real IMG_H)のペアを準備します。

第2工程

次に、真正の高解像度画像(Real IMG_H)に対して画像処理を施し、真正の低解像度画像(Real IMG_L)を生成します。この画像処理は、例えば、平均プーリング(Average Pooling)、画像間引き(Image Thinning)などが挙げられます。

第3工程

次に、Stage-ⅠGANに対する学習処理を行います。生成器G1は、テキスト特徴量(TXT_feat)を入力し、偽の低解像度画像(Fake IMG_L)を出力します。弁別器D1は、真正又は偽の低解像度画像(Real/Fake IMG_L)を入力し、画像の弁別結果を出力します。ここで、テキスト特徴量は、元のテキスト文章をエンコーダ(例えば、RNN)に投入することで得られる特徴ベクトルです。

第4工程

次に、Stage-ⅡGAN に対する学習処理を行います。生成器G2は、偽の低解像度画像(Fake IMG_L)及びテキスト特徴量(TXT_feat)を入力し、偽の高解像度画像(Fake IMG_H)を出力します。弁別器D2は、真正又は偽の高解像度画像(Real/Fake IMG_H)を入力し、画像の弁別結果を出力します。

第5工程

最後に、学習済みの生成器G1,G2を用いて、任意のテキスト(New TXT)から高解像度画像(New IMG_H)を生成します。

 

以上、今回(第2回)は、StackGAN の実施例について説明しました。次回(第3回)は、本発明のポイントについて考察してみます。

↓ブログランキングに参加しています。よろしければ1クリックお願いします。

にほんブログ村 士業ブログ 弁理士へ
にほんブログ村

にほんブログ村 IT技術ブログ IT技術メモへ
にほんブログ村