Doc2Vec（1/5）発明の概要

2020年3月7日

はぐれ弁理士 PA Tora-O です。今回のテーマとして、Word2Vec の発展的モデルである “Doc2Vec”を題材に取り上げていきます。

背景

近年、自然言語処理（ＮＬＰ）の研究分野において、従来型のカウントベース手法とは異なる、ニューラルネットワークを用いた推論ベース手法の研究も盛んになっています。特に、モデルの簡素化と演算の工夫による処理の高速化を実現した Word2Vec の登場によって、推論ベース手法の高いポテンシャルが示されました。“Word2Vec” によれば、単語の分散表現（連続値成分のベクトル化）を行うことで、単語間の関係性を定量的に表現することを目指しています。具体的には、図１のように、ＣＢＯＷ（Continuous Bag-Of-Words）モデルの学習を通じて最適化された線形変換行列により、Ｎ次元のワンホット表現をＬ次元の分散表現に変換します。

ところで、複数の単語（Word）を組み合わせることで文章（Sentence）が、複数の文章を組み合わせることで段落（Paragraph）が、複数の段落を組み合わせることで文書（Document）が構成されます。つまり、Word2Vec のような手法を用いることで、単語だけではなく、文章・段落・文書の分散表現も可能ではないか、と考えられます。

概要

そこで、“Word2Vec” をベースとした手法である “Doc2Vec” が Tomas Mikolov 氏のグループによって提案されました。この Doc2Vec は、文書（From Document）からベクトルへ（To Vector）の変換モデルであり、（１）ＰＶ－ＤＢＯＷ、（２）ＰＶ－ＤＭ、の２種類のモデルから構成されます。
出展：Distributed Representations of Sentences and_Documents

（１）ＰＶ－ＤＢＯＷ
　　“Distributed Bag of Words version of Paragraph Vector” の略。
　　ネットワーク構造が Skip-gram モデルに似ています。
（２）ＰＶ－ＤＭ
　　“Distributed Memory Model of Paragraph Vector” の略。
　　ネットワーク構造がＣＢＯＷモデルに似ています。

なお、 Doc2Vec は後ほど命名された通称であり、本論文中では、“Paragraph Vector” と呼んでいます。

以上、今回（第１回）は、Doc2Vec の概要について、Word2Vec との関係性を含めて説明しました。次回（第２回）は、ＰＶ－ＤＢＯＷについて詳しく説明します。

↓ブログランキングに参加しています。よろしければ１クリックお願いします。

にほんブログ村