Doc2Vec（2/5）PV-DBOW＜前編＞

2020年3月11日

はぐれ弁理士 PA Tora-O です。前回（第１回）では、Doc2Vec の概要について説明しました。改めて復習されたい方は、こちらのリンクから確認をお願いします。今回（第２回）は、Doc2Vec を構成する２種類のモデルのうち、ＰＶ－ＤＢＯＷ（Distributed Bag of Words version of Paragraph Vector）の概要について説明します。

問題の設定

ＰＶ－ＤＢＯＷモデルでは、図１に示す暗唱問題について取り組みます。

より身近な問題に置き換えると、曲名を挙げて好きなパートを歌わせるというイメージでしょうか。実際の試験問題では紙面スペースなどの都合から選択肢が狭まっていますが、ここでは、データベースに登録されているすべての段落（Ｎ個）を構成するすべての単語（Ｍ個）の中から選択され得ることにします。

ネットワーク構造

続いて、ＰＶ－ＤＢＯＷモデルのネットワーク構造を図２に示します。

入力層のユニット数を「Ｎ」、中間層の入力側ユニット数を「Ｐ」、出力層のユニット数を「Ｍ」とするとき、Ｎ＞ＰかつＭ＞Ｐの関係を満たすように設計されています。ちなみに、分岐器は、第０全結合器（Fully-Connected）からのＰ個の出力値を複製した後、第１～第Ｋ全結合器に向けてそれぞれ出力します。

Paragraph Vector の獲得

このように構築されたＰＶ－ＤＢＯＷモデルを用いて、上記した暗唱問題を解くことができます。しかし、本来の目的は、段落の分散表現（論文で言うところの “Paragraph Vector”）を獲得することにあります。

図３に示すように、学習を通じて計算された結合重みのセット、つまり線形変換行列｛Ｗ０｝（Ｎ×Ｐ行列）のうち、任意の行を抜き取ることで、各々の段落に対応するＰ次元ベクトルを求めることができます。このあたりの要領は、Word2Vec とほぼ同じです。

素朴な疑問

このように、ＰＶ－ＤＢＯＷは、入力側を１個の段落ＩＤ（Paragraph ID）とし、出力側をＫ個の単語ＩＤ（Word ID）とする、比較的単純な学習モデルであることを確認しました。ここで、素朴な疑問が浮かんできます。例えば、１つの段落がＳ個の単語で構成される場合、１つの段落につき（Ｓ－Ｋ＋１）個の正解が存在します。つまり、入出力の関係が、１：１ではなく、１：（Ｓ－Ｋ＋１）となるので、出力側の「正解」をどのように教示すればよいのか、大変気になるところです。

以上、今回（第２回）は、ＰＶ－ＤＢＯＷモデルの概要について説明しました。次回（第３回）は、このモデルの学習方法について補足した後にクレーム骨子の作成を試みます。

↓ブログランキングに参加しています。よろしければ１クリックお願いします。

にほんブログ村