Seq2Seq（2/4）再帰型ニューラルネット

2020年4月1日

はぐれ弁理士 PA Tora-O です。前回（第１回）では、Seq2Seq の概要について説明しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回（第２回）は、Seq2Seq を理解する上での前提知識ともいえる再帰型ニューラルネットワーク（ＲＮＮ；Recurrent Neural Network）の概要について説明します。

問題の設定

ＲＮＮでは、指定された文章を１語ずつ暗唱する、暗唱問題について取り組みます（図１）。

ここでは、人間による実際の暗唱とは異なり、［１］１番目の単語（you）を入力して２番目の単語（say）を出力し、［２］２番目の単語（say）を入力して３番目の単語（goodbye）を出力する、［３］・・・というタスクを時系列に実行することで、１つの文章を完成させていきます。ここでは、データベース（あるいはコーパス）に登録されているすべての単語（Ｎ個）の中から、１個ずつ選択されることにします。ちなみに、ＥＯＳ（End Of Sequence）は、文章の終了を示す識別子です。

ネットワーク構造

続いて、上記した暗唱問題を解答させるＲＮＮのネットワーク構造を図２に示します。

ＲＮＮは、入力層、隠れ層（中間層）、および出力層が順次接続されてなるニューラルネットワークです。ＲＮＮの特徴は、各々の隠れ層に再帰的なループ構造が設けられている点にあります。隠れ層の層数は、図２のように１層のみであってもよいし、２層以上あっても構いません。なお、隠れ層から出力されるＬ次元のベクトルｈ(ｔ) は、隠れ状態ベクトル（Hidden State Vector）と呼ばれています。

続いて、演算子について説明します。「ＭＡＴＭＵＬ」は、行列同士の積を求める行列積算器に相当します。入力側の演算子は、（１×Ｎ）と（Ｎ×Ｌ）の行列積からＬ次元ベクトルを求めます。中央側の演算子は、（１×Ｌ）と（Ｌ×Ｌ）の行列積からＬ次元ベクトルを求めます。出力側の演算子は、（１×Ｌ）と（Ｌ×Ｎ）の行列積からＮ次元ベクトルを求めます。また、「ＤＥＬＡＹ」は、１ステップ分の演算時間を遅延させて出力する遅延器に相当します。

続いて、学習パラメータについて説明します。機械学習を通じて更新される学習パラメータは、以下の４種類で構成されます。
　｛Ｗx｝：入力層と隠れ層の間における結合重み係数（Ｎ・Ｌ個）
　｛Ｗh｝：隠れ層の演算ユニット同士を接続する結合重み係数（Ｌ・Ｌ個）
　｛Ｗy｝：隠れ層と出力層の間における結合重み係数（Ｎ・Ｌ個）
　｛θ｝：活性化関数のバイアス（Ｌ個）

ここで、隠れ層の層数がＫである場合、学習パラメータの総数＃Ｐは、
　　＃Ｐ＝２ＮＬ＋ＫＬ（Ｌ＋１）
となります。次元削減（Dimensionality Reduction）を考慮すると、通常はＬ≪Ｎを満たすので、第１項の方が第２項よりも圧倒的に大きい数になっている筈です。

ＲＮＮの欠点と改良モデル

このように、ＲＮＮでは、活性化関数の合成演算および線形和演算を繰り返すことで、単語の配列関係（コンテキスト）を表現することができます。つまり、活性化関数の再帰的な呼び出しを通じて隠れ状態ベクトルが段階的に作成されることで、文字の配列を示す時系列情報が最終的な出力ベクトルに何らかの形で反映される、と解釈してもよいでしょう。この点は、畳み込みニューラルネット（ＣＮＮ）における「空間情報と特徴マップの間の関係」に近いものがあります。
＜参考：全体平均プーリング（3/5）特許性の検討＞

ところが、ＲＮＮでは、先出した単語のみとの関係から隠れ状態ベクトルを次々と作成・更新するので、上記したコンテキスト（特に、離れた単語間の関係）を精度よく学習・再現できない場合があります。そこで、制御パラメータを追加してＲＮＮの概念を拡張した新しいモデル、ＬＳＴＭ（Long Short-Term Memory）やＧＲＵ（Gated Recurrent Unit）が登場しました。今回の事例検討では、ＲＮＮの挙動を理解していれば十分ですので、上記した改良モデルの説明を省略します。

以上、今回（第２回）は、ＲＮＮモデルについて重要なポイントのみを説明しました。次回（第３回）は、Seq2Seq の実施例について説明します。

↓ブログランキングに参加しています。よろしければ１クリックお願いします。

にほんブログ村