Pix2Pix（4/4）総括

2020年5月30日

はぐれ弁理士 PA Tora-O です。前回（第３回）では、Pix2Pix におけるノイズの入力機構を省略できた理由について解説しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回（第４回）は、クレームを試作しつつ、これまで３回分の検討を総括します。

クレームの試作

これまで、生成器の構成を中心に Pix2Pix の検討を行ってきました。生成器に関する主な特徴は、［１］画像データを入出力すること、［２］ノイズの入力機能を省略できること、の２点であると思われます。そこで、２つのクレーム案を試作してみました。

【クレーム案１】
　画像データを生成する生成器を構築可能に構成され、
　生成器は、完成前又は変換前である第１画像データを含む情報を入力とし、完成後又は変更後である第２画像データを出力とするニューラルネットワークである
　ことを特徴とする情報処理装置。（１１１文字）

【クレーム案２】
　敵対的生成ネットワークにおける生成器の学習方法であって、
　生成器は、第１データに対して符号化処理及び復号化処理を順次施すことで、第１データとは異なる第２データを出力とするニューラルネットワークであり、
　生成器の入力層からノイズを入力する代わりに、入力層又は該入力層に近い中間層に対してドロップアウトを用いた学習処理を行うことを特徴とする学習方法。（１７１文字）

案１の検討

まず、クレーム案１の検討を行います。ここで、生成器が実行する画像処理は、「完成」と「変換」の２種類に大別されると捉えました。

　・「完成」の類型　“Edges to Photo”（線画から写真へ）
　・「変換」の類型　“Aerial to Map”（航空写真から地図画像へ）

ところで、以下の場合は、完成あるいは変換に該当するのでしょうか？

出展：U-Net: Convolutional Networks for Biomedical Image Segmentation

これは、画像のセグメンテーション（領域区画）の例であり、おそらく「変換」の一態様に該当すると思われます。このＵ－Ｎｅｔが公知技術であれば、セグメンテーションを除外するような「変換」に代わる新しい文言を使う必要があります。また、別の例を挙げると、画像内の途切れた線を繋ぐような加工処理も画像の「完成」に該当するかもしれません。このように、案１の場合は、画像処理の種類や、画像の特徴の違いだけでは、先行技術との差別化が難しそうな印象を受けます。

案２の検討

次に、クレーム案２の検討を行います。この案２の方が、「ノイズ入力機構の省略」という具体的な作用効果がある点で、案１と比べて特許性を主張しやすい気がします。

ただ、前回に述べた通り、ノイズと比べて画像の方が入力データ量として支配的であるため、ノイズが適正に機能しなかった可能性があります。そこで、Ｚベクトルの成分数を増やすなどの対策によってドロップアウトを使わずに解決できるかもしれません。このように、案２の場合は、クレームの実効性についてやや問題がありそうです。そもそも、学習方法では・・・という議論もありますが。