Pix2Pix(4/4)総括

はぐれ弁理士 PA Tora-O です。前回(第3回)では、Pix2Pix におけるノイズの入力機構を省略できた理由について解説しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回(第4回)は、クレームを試作しつつ、これまで3回分の検討を総括します。

クレームの試作

これまで、生成器の構成を中心に Pix2Pix の検討を行ってきました。生成器に関する主な特徴は、[1]画像データを入出力すること、[2]ノイズの入力機能を省略できること、の2点であると思われます。そこで、2つのクレーム案を試作してみました。

【クレーム案1】
 画像データを生成する生成器を構築可能に構成され、
 生成器は、完成前又は変換前である第1画像データを含む情報を入力とし、完成後又は変更後である第2画像データを出力とするニューラルネットワークである
 ことを特徴とする情報処理装置。(111文字)

【クレーム案2】
 敵対的生成ネットワークにおける生成器の学習方法であって、
 生成器は、第1データに対して符号化処理及び復号化処理を順次施すことで、第1データとは異なる第2データを出力とするニューラルネットワークであり、
 生成器の入力層からノイズを入力する代わりに、入力層又は該入力層に近い中間層に対してドロップアウトを用いた学習処理を行うことを特徴とする学習方法。(171文字)

案1の検討

まず、クレーム案1の検討を行います。ここで、生成器が実行する画像処理は、「完成」と「変換」の2種類に大別されると捉えました。

 ・「完成」の類型 “Edges to Photo”(線画から写真へ)
 ・「変換」の類型 “Aerial to Map”(航空写真から地図画像へ)

ところで、以下の場合は、完成あるいは変換に該当するのでしょうか?

【図】U-Netによる画像の生成結果

出展:U-Net: Convolutional Networks for Biomedical Image Segmentation

これは、画像のセグメンテーション(領域区画)の例であり、おそらく「変換」の一態様に該当すると思われます。このU-Netが公知技術であれば、セグメンテーションを除外するような「変換」に代わる新しい文言を使う必要があります。また、別の例を挙げると、画像内の途切れた線を繋ぐような加工処理も画像の「完成」に該当するかもしれません。このように、案1の場合は、画像処理の種類や、画像の特徴の違いだけでは、先行技術との差別化が難しそうな印象を受けます。

案2の検討

次に、クレーム案2の検討を行います。この案2の方が、「ノイズ入力機構の省略」という具体的な作用効果がある点で、案1と比べて特許性を主張しやすい気がします。

ただ、前回に述べた通り、ノイズと比べて画像の方が入力データ量として支配的であるため、ノイズが適正に機能しなかった可能性があります。そこで、Zベクトルの成分数を増やすなどの対策によってドロップアウトを使わずに解決できるかもしれません。このように、案2の場合は、クレームの実効性についてやや問題がありそうです。そもそも、学習方法では・・・という議論もありますが。

結論

以上のように、Pix2Pix は、研究的な価値がきわめて高いものの、公知技術であるCGANをシンプルに改良したモデルである以上、特許性を主張しにくい類の発明であると思われます。研究成果と特許性の高さとは必ずしも相関しないという一例でしょう。

なお、今回の事例検討では触れませんでしたが、本論文では、学習効率を高めることを目的とした Patch GAN という技術も提案されています。こちらも機会があれば、別枠で事例検討を行う予定です。

 

以上をもちまして、Pix2Pix の事例検討を終了します。次回から、また別のテーマに移ります。

↓ブログランキングに参加しています。よろしければ1クリックお願いします。

にほんブログ村 士業ブログ 弁理士へ
にほんブログ村

にほんブログ村 IT技術ブログ IT技術メモへ
にほんブログ村