アテンション機構(4/4)発明ストーリーの作成

はぐれ弁理士 PA Tora-O です。前回(第3回)では、アテンション機構の変形例について検討しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回(第4回)は、これまでの検討を踏まえ、クレームを含む発明ストーリーを試作してみます。

発明ストーリー

【従来技術】
例えば、自動翻訳を含む自然言語処理の分野において、エンコーダ部分とデコーダ部分に相当する2種類の再帰型ニューラルネットワーク(RNN)を接続して構成される Encoder-Decoder モデル(いわゆる、Seq2Seq モデル)が提案されている。

【問題点と課題】
問題点は、変換前における単語列の長さによって変換精度にばらつきが生じること。
課題は、単語列の長さに起因する変換精度のばらつきを抑制すること。

【クレーム】(Seq2Seq with Attention
 それぞれ再帰型ニューラルネットワークからなるエンコーダ及びデコーダを接続した変換モデルを構築可能に構成される情報処理装置であって、
 エンコーダは、第1単語列を構成する単語の入力を伴う再帰演算を逐次実行し、生成される時点が異なる複数の隠れ状態ベクトルを、第1単語列に関する特徴ベクトル群として出力し、
 デコーダは、単語の入力を伴う再帰演算を実行する度に、特徴ベクトル毎の重みを決定するとともに、特徴ベクトル群を参照して算出した特徴ベクトルの重み付け和を、第2単語列を構成する次の単語を出力するための中間特徴量の一部または全部として生成する
 ことを特徴とする情報処理装置。(281文字)

【作用と効果】
 エンコーダの再帰演算を通じて段階的に生成される隠れ状態ベクトルは、第1単語列の一部または全部を構成する単語列要素に関する特徴量に相当する。すなわち、生成時点(=単語列の長さ)が異なる複数の特徴ベクトルを取得することで、第1単語列を特徴付ける情報量が増加する。そして、デコーダによる再帰演算の度に特徴ベクトルの重み付け和を算出することで、第2単語列の復号時の状況に適した中間特徴量を生成することができる。これにより、単語列の長さに起因する変換精度のばらつきが抑制される。
 また、エンコーダが予め生成した特徴ベクトル群をデコーダの再帰演算の度に参照することで、特徴ベクトル群の同一性を保持しながら再帰演算を実行可能となり、元の特徴ベクトルをデコーダの内部で逐次的に加工する場合と比べて、変換精度が向上しやすくなる効果もある。
 さらに、デコーダの演算過程で逐次的に決定される特徴ベクトルの重み分布を解析することで、第1単語列と第2単語列の間における単語同士の関係性を定量化できるという追加的な効果もある。

作者コメント

今回の事例では、「アテンション機構の導入」と「変換精度の向上」の因果関係をどのように見出すかが最大のポイントになります。隠れ状態行列{H}が、単語S個の単語列に含まれる1~i番目(1≦i≦S)の単語列要素に関する特徴ベクトルの集合体であると理解すれば、上記した作用の流れを何とか構築できると思われます。

ところで、RNNデコーダは、エンコーダからの特徴ベクトルが示す時系列情報を段階的に復号化して単語を順次取り出すような処理を行います。つまり、符号化されたオリジナル情報がデコーダの再帰演算を通じて逐次更新されることで情報欠損などが生じ、その結果、思ったほど変換精度が高くならないという弊害も一応考えられます。そこで、RNN限定の作用効果として「外部参照による特徴量の同一性保持」→「変換精度の向上」もあり得ますので、追記しておきました。

また、単語同士の関係性を定量化できる、という追加的効果を念のため記載しました。が、アテンション機構の技術およびその効果が既に公知であれば、特許性には寄与しにくいと考えます。

最後に、今回の事例検討では、Seq2Seq への実装を想定してクレーム骨子を作成したのですが、それ以外のニューラルネットワークへの実装を広くカバーできるクレーム表現はどのようになるのでしょうか? 自称AI弁理士を名乗りながらも、残念ながらまだそこまでAIを究めていないので、現時点で明確な解答が出せていません。今後、全方位的な理解が深まった上で、再チャレンジしたいと考えています。

 

以上をもちまして、アテンション機構の事例検討を終了します。次回から、また別のテーマに移ります。

↓ブログランキングに参加しています。よろしければ1クリックお願いします。

にほんブログ村 士業ブログ 弁理士へ
にほんブログ村

にほんブログ村 IT技術ブログ IT技術メモへ
にほんブログ村