Negative Sampling（1/4）発明の概要

2020年2月14日

はぐれ弁理士 PA Tora-O です。今回のテーマとして、自然言語処理で多用される技術の１つである “Negative Sampling” を題材に取り上げていきます。

この手法は、“Tomas Mikolov, et al” による論文（いわゆるWord2Vec）で提案されており、CBOW／Skip-gramモデルに対する学習処理の高速化を図ることを目的としています。以下の事例検討では、上記した２種類のモデルに関する知識があることを前提に話を進めるため、まずはこちらの記事（Word2Vec）を先に読むことをお勧めします。

背景

単語の分散表現を獲得する手法として、連続する単語の配列パターンを学習し、結合重み行列からベクトルを求める手法が挙げられます。例えば、図１のように、ＣＢＯＷ（Continuous Bag-Of-Words）モデルの学習を通じて最適化された線形変換行列により、Ｎ次元のワンホット表現をＬ次元の分散表現に変換します。

問題の所在

“Word2Vec” の記事で既に説明した通り、「文章の穴埋め問題」というタスクを与えることで、ニューラルネット君に単語の配列パターンを学習させます。このタスクの実行中に、入力層→中間層→出力層へのフォワード処理に伴い、（Ｎ×Ｌ）又は（Ｌ×Ｎ）行列の重み付け和を求める荷重和演算を行う必要があります。「入力層→中間層」の前段処理に関して言えば、入力側が “one-hot vector”であるという特殊性から、上記した「ベクトル抜き出し法」によって荷重和演算を省略することができます。ところが、後段処理の「中間層→出力層」についてはそう上手くいきません。