Word2Vec（1/4）発明の概要

2020年2月1日

はぐれ弁理士 PA Tora-O です。今回のテーマとして、自然言語処理（ＮＬＰ ; Natural Language Processing）の超メジャーなモデルである “Word2Vec" を題材に取り上げていきます。

よくある誤解

色々な技術系ブログなどを読んでいると、Word2Vec に関して、例えば、次のような説明を行っている場合があります。

［文章１］単語のベクトル表現手法は、カウントベースと推論ベースの２種類に大別される。
［文章２］Word2Vec の登場により、推論ベース手法の有用性が示された。

もしＡＩ万能論者がこの２つの文章を繋げると、（Ａ）ニューラルネットワークを初めて導入した “Word2Vec" により、（Ｂ）従来型の確率論的手法よりも良い結果が得られるようになった、という意味に曲解しがちです。これは、完全な誤解です。私は、この事例検討を始めるまで、（Ａ）に近いような勘違いをしていました。実は、ニューラルネットワークを用いた推論手法は、“Yoshua Bengio, et al.” によって２００３年に既に発表されています。

出展：A Neural Probabilistic Language Model

Word2Vec の特徴

結局のところ、より正確な表現を目指すとなると、概ね以下の通りになると思います。
※ 従来型のカウントベース手法の研究が長年続いているが、近年、ニューラルネットワークを用いた推論ベース手法の研究も盛んになってきた。モデルの簡素化と演算の工夫による処理の高速化を実現した Word2Vec の登場によって、推論ベース手法の高いポテンシャルが示された。

通称 “Word2Vec" は、“Tomas Mikolov, et al.” の一連の論文によって提案された言語処理モデルです。この Word2Vec は、単語から（From Word）ベクトルへ（To Vector）の変換モデルであり、（１）ＣＢＯＷ、（２）Skip-gram、の２種類のモデルを総称したものです。
（１）ＣＢＯＷ（Continuous Bag-Of-Words）
　文脈からターゲットの単語を予測するモデル。
（２）Ｓｋｉｐ－ｇｒａｍ
　ターゲットの単語から文脈を予測するモデル。

なお、文脈（コンテキスト/コンテクスト＝Context）は、ターゲットの周辺にある１又は複数の単語を意味し、直前の単語、直後の単語、あるいはその両方の単語を含みます。