ＧＡＮ（1/4）発明の概要

2020年5月4日

はぐれ弁理士 PA Tora-O です。今回のテーマとして、深層生成モデルの基礎とも言うべきＧＡＮ（Generative Adversarial Network）を題材に取り上げていきます。

背景

生成モデル（Generative Model）とは、所与の学習データセットをベースに、学習データとは異なる新しいデータを人工的に生成するためのモデルです。データの種類は、静止画、動画、音楽、音声、文章（小説、俳句、チャットなど）など多岐にわたりますが、以下、画像（静止画）を例に挙げて説明していきます。画像は、多値（８ビットの場合は、２５６通り）の中から選択し得る画素値を有する多数の画素（例えば、１００×１００画素）からなるデータであり、場合によっては複数のカラーチャンネル（ＲＧＢ）をもっています。つまり、画像領域の全体的または局所的なバランスを考慮しつつ、より自然な状態で違和感なく仕上げる必要があることから、「画像生成」はかなり難度が高いタスクであると言えます。

従来では、マルコフ連鎖モンテカルロ法（ＭＣＭＣ法）などを含む統計的手法が主流でしたが、画像を完成させるまでの演算時間が掛かるという問題がありました。そこで、学習フェーズには演算時間が掛かるものの、生成フェーズには演算時間がそれほど掛からないニューラルネットワークを用いた新しい手法が出現しました。ニューラルネットワーク系の生成モデルは、
　［１］ＶＡＥ（Variational Autoencoder）
　［２］ＧＡＮ（Generative Adversarial Network）
の２種類に大別されます。前回にＶＡＥの事例検討を無事に終えたので、今回は、後者のＧＡＮについて事例検討を進めます。

発明の概要

ＧＡＮは、ＶＡＥの発表から少し後に（と言っても同じ2014年ですが）、イアン・グッドフェロー氏（Ian Goodfellow）によって提案されました。このＧＡＮは、ＡＩ研究の先駆者の一人であるヤン・ルカン氏（Yann LeCun）に、 “the most interesting idea in the last 10 years in ML" と言わしめたほどの斬新なアイディアです。それでは早速、ＧＡＮの概要について図示してみましょう。

出展：NIPS 2016 Tutorial: Generative Adversarial Networks

この図面だけではちょっと何言ってるかわからないので、軽く説明します。
図の「Ｇ」は生成器（Generator）を、「Ｄ」は弁別器（Discriminator）をそれぞれ表しています。また、図の左側は「真正」の画像に対する処理流れを、右側が「偽（にせ）」の画像に対する処理流れをそれぞれ示しています。生成器Ｇおよび弁別器Ｄの行動原理は、概ね以下の通りです。

　・生成器Ｇは、シード値（ｚ）から画像を生成する。
　・弁別器Ｄは、真正の画像に対して正解（１）、真正でない画像に対して不正解（０）であるとそれぞれ回答する。
　・生成器Ｇは、弁別器Ｄに、自身が生成した画像が正解（１）であると回答させようと頑張ってみる。
　・弁別器Ｄは、生成器Ｇが生成した画像が不正解（０）であると回答しようと頑張ってみる。

上記した内容がまさに発明のポイントと思われますが、このままではＧＡＮの事例検討が今回限りで終わってしまいます。ここで諦めたら試合終了なので、もう少し具体的な検討を進めてみます。結果的に何も得られない可能性もありますが。

以上、今回（第１回）は、ＧＡＮの概要について説明しました。次回（第２回）は、ＧＡＮの実施例について説明します。

↓ブログランキングに参加しています。よろしければ１クリックお願いします。

にほんブログ村