ELMo(Deep contextualized word representations)②(Related Work以降)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #34
言語処理へのDeepLearningの導入をご紹介するにあたって、#3〜#8においては、Transformer[2017]やBERT[2018]について、#9~#10ではXLNet[2019]について、#11~#12ではTransformer-XL[2019]について、#13~#17ではRoBERTa[2019]について、#18~#20ではWord2Vec[2013]について、#21~#24ではALBERT[2019]について、#26〜#30ではT5[2019]について、#31〜#32ではERNIEについて取り扱ってきました。
XLNet②(事前学習におけるAutoRegressiveとPermutation)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #10 - lib-arts’s diary
ALBERT③(The Elements of ALBERT)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #23 - lib-arts’s diary
#33、#34ではBERTやERINEの論文で言及のあった、ELMoについて確認するにあたって"Deep contextualized word representations"について取り扱います。
[1802.05365] Deep contextualized word representations
#33ではAbstractとIntroductionの確認を行いました。
#34ではRelated Work以後の内容の重要部分の抜粋を行います。
以下目次になります。
1. Related Work(Section2)
2. ELMo: Embeddings from Language Models(Section3)
2-1. Bidirectional language models(Section3.1)
2-2. ELMo(Section3.2)
2-3. Using biLMs for supervised NLP tasks(Section3.3)
2-4. Pre-trained bidirectional language model architecture(Section3.4)
3. Evaluation(Section4)
4. Analysis(Section5)
5. Conclusion(Section6)
6. まとめ
1. Related Work(Section2)
1節ではRelated Workの内容について確認していきます。
第一パラグラフでは、Word2vec[2013]の手法は文法や意味の情報を取得できることから多くの状況において用いられているものの、一方でそれぞれの単語に対して文脈を総合して一つと見なす学習しかできないと述べられています。
第二パラグラフでは、Word2vecの問題点を解決するにあたって、いくつかの研究の例示とともに、ELMoのアプローチについて示唆されています。
このような文脈で様々な関連研究について紹介されています。
2. ELMo: Embeddings from Language Models(Section3)
2節ではSection3のELMo: Embeddings from Language Modelsについて取り扱います。
冒頭部では、広く用いられている単語のベクトル表現(word embeddings)とは違って、ELMoでは文全体を入力として用いていると記述されています。また、この詳細についてSection3では記載されているとあり、論文のMainのIdeaに関連するので、以下2-1〜2-4節でそれぞれについて確認していきます。
2-1. Bidirectional language models(Section3.1)
Section3.1では双方向言語モデル(biLM; bidirectional Language Model)について言及されており、上記の数式を尤度(likelihood)と見なし計算を行うとなっています。ここで式が二つの同様の数式の和となっているのは、双方向性の考慮を意味しており、上の項が進む向きのLSTM、下の項が戻る向きのLSTMを意味しています。
2-2. ELMo(Section3.2)
Section3.2ではELMoをSection3.1で取り扱ったbiLMの層の中間表現をタスク特化した条件での組み合わせとして記述されています。ここでxは文脈から独立した単語の表現(context independent token representation)とされており、隠れ層の0層目と見なせるとして式定義がなされています。このようにして定義した表現(representation)を用いてELMoでは計算を行うとされています。
2-3. Using biLMs for supervised NLP tasks(Section3.3)
2-4. Pre-trained bidirectional language model architecture(Section3.4)
3. Evaluation(Section4)
4. Analysis(Section5)
5. Conclusion(Section6)
ここまでの内容で大体の知りたい内容が掴めたので、残りは省略します。
6. まとめ
#34ではBERTやERINEの論文で言及のあった、ELMoについて確認するにあたって"Deep contextualized word representations"のRelated Work以降の内容を取り扱いました。
#35以降ではTransformerの構造のベースになっているself-attentionについて言及されている論文である、"
A Structured Self-attentive Sentence Embedding"について取り扱います。