CycleGAN（4/4）総括

2020年6月9日

はぐれ弁理士 PA Tora-O です。前回（第３回）では、CycleGAN における学習メカニズムについて概説しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回（第４回）は、クレームを含む発明ストーリーを作成し、これまで３回分の検討を総括します。

発明ストーリー

【従来技術】
生成モデルのバリエーションの１つとして、画像の作風を変える画風変換が挙げられる。画風変換の手法の一例として、Gatys 氏らによる Neural Style Transfer (ＮＳＴ) や、Isola 氏らによる Pix2Pix が知られている。

【問題点と課題】
問題点は、ＮＳＴでは、画像生成時において、変換処理の対象である第１画像と、画風の見本を示す第２画像をペアで提示する必要があること。Pix2Pix では、生成器の学習時において、変換処理の対象である第１画像と、変換後の見本を示す第２画像をペアで提示する必要があること。
課題は、作風または変換後の見本を個別具体的に提示せずに、作風に関する変換または学習を行うこと。

【クレーム骨子】（CycleGAN）
　第１学習データの母集団である第１学習データ群および第２学習データの母集団である第２学習データ群を用いて、敵対的生成ネットワーク（ＧＡＮ）システムに対して学習を行う方法であって、
　ＧＡＮシステムは、
　第２学習データを入力し、第１学習データと同一のデータ形式を有するデータを出力する第１生成器と、
　第１学習データを入力し、第２学習データと同一のデータ形式を有するデータを出力する第２生成器と、
　を含んで構成され、
　学習に用いられる目的関数は、第２生成器と第１生成器による一連の処理の前後にわたる第１学習データの変化量、および、第１生成器と第２生成器による一連の処理の前後にわたる第２学習データの変化量を示す損失項を含むことを特徴とする学習方法。（３１５文字）

【作用効果】
第１および第２生成器を含んで構成される敵対的ネットワークシステムに対して、第１および第２学習データの変化量を示す損失項を含む目的関数を用いた学習を行うことで、第１生成器は、入力されたデータの中から第２学習データに共通する第２特徴を抽出するとともに、抽出した第２特徴を第１学習データに共通する第１特徴に置換する能力を獲得するようになる。同様に、第２生成器は、入力されたデータの中から第１学習データに共通する第１特徴を抽出するとともに、抽出した第１特徴を第２学習データに共通する第２特徴に置換する能力を獲得するようになる。これにより、作風または変換後の見本を個別具体的に提示せずに、作風に関する変換や学習を行うことができる。

作者コメント

「問題点と課題」の流れは、本論文の記載内容を踏まえて作成しました。従来の手法では作風を単に再現するのに対して、本手法では作風の抽出および置換を行う点が異なっています。この相違点をもう少し強調してもよいかもしれません。

また、「クレーム骨子」に関して、文字数を極力減らす方針で作成しました。具体的には、「ＧＡＮシステム」という文言を用いることで、ＧＡＮ前提の構成（弁別器や敵対的損失）を省略しています。当然、特許法３６条違反の可能性もあり得ますので、明細書中には具体的に記載すべきでしょう。

最後に、本論文中に挙げられているリンゴ／オレンジ以外の別例について紹介します。

本図は、馬（horse）とシマウマ（zebra）の変換結果の一例を示しています。ここでは、成功例・失敗例の両方とも、前景領域（＝馬体）の色は概ね正しく変換されたように思えます。ただし、前景領域を正確に認識・区画できている訳ではなく、背景領域（＝馬体以外の領域）の一部の色も変換されてしまうようです。特に、右側の失敗例は、学習データベースの中に人間が馬に騎乗した画像が１枚も無いために起こった、と論文中で分析されています。やはり、学習データの様々なバリエーションを収集することで、処理結果の妥当性が確率論的に高まる、と言うことでしょう。

以上をもちまして、CycleGAN の事例検討を終了します。次回から、また別のテーマに移ります。

↓ブログランキングに参加しています。よろしければ１クリックお願いします。

にほんブログ村