アテンション機構（2/4）全体構成の説明

2020年4月10日

はぐれ弁理士 PA Tora-O です。前回（第１回）では、アテンション機構の概要について説明しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回（第２回）は、アテンション機構の実装例として、“Seq2Seq with Attention” の全体構成について説明します。

エンコーダの構造

まず、エンコーダのネットワーク構造を図１に示します。

エンコーダは、入力層と、１層以上の再帰演算層から構成されます。再帰演算層は、単純ＲＮＮ、ＬＳＴＭ、ＧＲＵのいずれであっても構いません。エンコーダの構造は、「アテンション無し」と全く同じです。が、唯一の違いは、出力される特徴量のデータ構造にあります。「アテンション無し」の特徴量は、最終的に生成される１つの隠れ状態ベクトルのみです。これに対して、「アテンション有り」の特徴量は、逐次的に生成される複数の隠れ状態ベクトルの集合体です。

具体的には、エンコーダは、再帰演算を実行する度に、計算したＬ次元の隠れ状態ベクトルｈ１(ｔ) を出力します。この結果、Ｓ回の再帰演算を通じて、ｈ１(ｔ) の時系列集合を示す（Ｓ×Ｌ）の隠れ状態行列が得られます。簡単に言えば、取り扱う情報量がＳ倍に増えたという程度でしょうか。

デコーダの構造

続いて、デコーダのネットワーク構造を図２、図３に示します。

図２に示すように、デコーダは、入力層と、再帰演算層と、アテンション層と、出力層から構成されます。「アテンション無し」との大きな相違点は、再帰演算層と出力層の間に「アテンション層（機構）」が設けられていることです。アテンション層は、隠れ状態行列｛Ｈ１｝と隠れ状態ベクトルｈ２(ｔ) を用いて、コンテキストベクトルｃ(ｔ) を計算します。

図３に示すように、アテンション層は、コンテキスト生成器と、全結合演算器から構成されます。ここで、コンテキスト生成器のサブ構成について簡単に説明します。

（１）特徴量保持部
　エンコーダにより生成された隠れ状態行列｛Ｈ１｝を保持します。ちなみに、「アテンション無し」では、隠れ状態ベクトルｈ１は、再帰演算層に投入された後、値を変えながら逐次的に更新されます。このように、符号化された特徴量をそのまま保持するという概念は、新しい特徴であると言えるでしょう。

（２）注意度演算部
　Ｓ個の隠れ状態ベクトルｈ１に対する注意度ａ(ｔ) を計算します。注意度ａ(ｔ) は、隠れ状態ベクトルｈ１、ｈ２(ｔ) 同士の類似スコアを示すパラメータであり、Ｓ個の総和が１になるように［０，１］の範囲で正規化された値です。例えば、ｈ２(ｔ) が２番目のベクトル（つまり、隠れ状態行列の第２行）に一致する場合、注意度は、ａ(ｔ) ＝（０，１，０，・・・，０）、あるいは、このベクトルに近い値になります。

（３）積和演算部
　Ｓ個の隠れ状態ベクトルｈ１に対して注意度ａ(ｔ) を重み付けした積和演算を実行します。つまり、コンテキストベクトルｃ(ｔ) とは、隠れ状態行列｛Ｈ１｝をソースとして計算される中間的な特徴量とも言えそうです。

以上、今回（第２回）は、“Seq2Seq with Attention” の全体構成について説明しました。次回（第３回）は、アテンション機構の変形例について検討します。

↓ブログランキングに参加しています。よろしければ１クリックお願いします。

にほんブログ村