Word2Vec①（論文の概要 Abstract&Introduction）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #18

f:id:lib-arts:20190930180548p:plain

言語処理へのDeepLearningの導入をご紹介するにあたって、#3〜#8においては、Transformer[2017]やBERT[2018]について、#9~#10ではXLNet[2019]について、#11~#12ではTransformer-XL[2019]について、#13~#17ではRoBERTa[2019]について取り扱ってきました。

XLNet②（事前学習におけるAutoRegressiveとPermutation）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #10 - lib-arts’s diary

Transformer-XL（論文のAbstractの確認）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #12 - lib-arts’s diary

RoBERTa（論文の詳細④ RoBERTa、Related Work、Conclusion）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #17 - lib-arts’s diary

#18以降ではSeq2Seq以前の論文は解説書などで把握しただけだったので、もう少し詳しく見てみれればということで、手始めとしてWord2Vec[2013]を取り扱っていきます。

[1301.3781] Efficient Estimation of Word Representations in Vector Space

#18ではWord2Vec[2013]に関する論文である、"Efficient Estimation of Word Representations in Vector Space"よりAbstractとIntroductionを確認します。この論文については深さの意味でDeepLearningと考えて良いかの判断が難しいところではあるのですが、ニューラルネットワークを用いた言語処理という意味や分散表現という考え方はその後のDeepLearningベースの言語処理に生きているということからこのシリーズで取り扱うことにしました。
以下目次になります。

1. Abstract
2. Introduction(Section1)
2-1. Goals of the Paper(Section1-1)
2-2. Previous Work(Section1-2)
3. まとめ

1. Abstract
1節ではAbstractについて確認していきます。以下一文ずつ和訳と補足をおこなっていきます。

We propose two novel model architectures for computing continuous vector representations of words from very large data sets.

和訳：『我々はとても大きなデータセットから単語の連続的ベクトル表現を計算する、二つの新しいアーキテクチャを提案する。』
"continuous vector representation"は連続的ベクトル表現と訳しましたが、以前の分散表現とWord2Vecの記事でも述べたように、単語をパラメータ表記で表現することを指しています。

またここで述べている二つの新しいアーキテクチャはFigure1で言及されるCBOWとSkip-gramについてです。こちらについてはFigure1が出てくるタイミングでまとめます。

The quality of these representations is measured in a word similarity task, and the results are compared to the previously best performing techniques based on different types of neural networks.

和訳：『これらの表現の質は単語の類似度のタスクによって計測され、また結果についても異なったニューラルネットワークのモデルに基づく従来で最も良いパフォーマンスと同レベルの成果となった。』
研究は精度の向上もしくは速度の向上のどちらかを成果として主張することが多いですが、この研究では計算の効率性や速度などにフォーカスしているので、従来の結果と同レベルの成果となったことを強調しています。

We observe large improvements in accuracy at much lower computational cost, i.e. it takes less than a day to learn high quality word vectors from a 1.6 billion words data set.

和訳：『我々の手法を用いることでより少ない計算コストにおける精度において大きな改善が見られ、具体的には16億の単語のデータセットから高品質の単語ベクトルを学習するのに一日かからなくなった。』
前文の内容に引き続き、ここでは計算コストについて言及が行われています。論文のSection3などで言及されるCBOWやSkip-gramはこれまでのモデルに比べ、非常にシンプルなモデルになっています。

Furthermore, we show that these vectors provide state-of-the-art performance on our test set for measuring syntactic and semantic word similarities.

和訳：『また、これらのベクトル表現がテストデータにおいて構文的、意味的な単語の類似度を計測するにあたってSotAを記録したことを我々は示した。』
単語をベクトルで表現することで、Cos類似度などの考え方を用いて単語の類似度について計算することができます。またこれによって単語のベクトル表現の足し算引き算などもできるため、これを元に単語のベクトル表現の品質の検証を行うことができます。

2. Introduction(Section1)
2節ではIntroductionについて取り扱っていきます。Introductionはパラグラフリーディングを行なっていきます。

f:id:lib-arts:20190930183500p:plain

第一パラグラフでは、多くの自然言語処理(NLP; Natural Language Processing)のシステムはBoW(treat words as atomic units)の形式で取り扱っていることについて述べています。単語をベースとして表現することでシンプルに表現を行うことができるとされています。

f:id:lib-arts:20190930183521p:plain

第二パラグラフでは、単語ベースの表現は多くのタスクにおいて限界があるとされています。例として機械翻訳(machine translation)が挙げられており、多くの単語が用いられているとされています。

f:id:lib-arts:20190930184121p:plain

第三パラグラフでは、機械学習の技術の発展に伴い従来の単語ベースのアプローチとは違う考え方として単語の分散表現(distributed representations of words)を用いることについて言及されています。さらに、ニューラルネットワークベースの言語モデルがN-gramを用いたモデルを大幅に上回っていることについても[1]にあたるBengio[2003]の"A neural probabilistic language model."などの引用を元に言及されています。

2-1. Goals of the Paper(Section1-1)
次にSection1-1のGoals of the Paperについて取り扱います。こちらもパラグラフリーディングしていきます。

f:id:lib-arts:20190930184835p:plain

f:id:lib-arts:20190930184847p:plain

第一パラグラフでは、「論文のゴールが、大きなデータセットから高品質の単語ベクトルを抽出する技術を導入することであること」について言及されています。従来の研究では単語ベクトルの次元は50〜100の間が妥当とされているとされています。

f:id:lib-arts:20190930185422p:plain

f:id:lib-arts:20190930185435p:plain

第二、第三パラグラフでは、ベクトル表現の品質(quality)の計測にあたってがまとめられています。「king-man+women=queen」などの単語のベクトル演算についても言及されています。

f:id:lib-arts:20190930185654p:plain

第四パラグラフでは、この論文における新しいモデルアーキテクチャを元に取り組むことについて言及されています。

2-2. Previous Work(Section1-2)
次にSection1-2の"Previous Work"について取り扱います。こちらもパラグラフ単位で確認していきます。

f:id:lib-arts:20190930190005p:plain

第一パラグラフでは、単語の連続的なベクトルを用いた表現が長い歴史を持つことや、有名なアーキテクチャとしてBengio[2003]で示されているNNLM(Nural Network Language Model)について言及されています。
第二パラグラフでは、ニューラルネットワークの一つの隠れ層において単語ベクトルが学習されたことについて言及されています。
第三パラグラフでは、単語ベクトルの言語処理の応用について言及されています。

3. まとめ
#18では"Efficient Estimation of Word Representations in Vector Space"のAbstractとIntroductionの内容を元にWord2Vecの概要を確認しました。
#19では引き続き、こちらの論文の続きを確認していきます。