ELMo(Deep contextualized word representations)①（Abstract＆Introduction）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #33

f:id:lib-arts:20200108190749p:plain

言語処理へのDeepLearningの導入をご紹介するにあたって、#3〜#8においては、Transformer[2017]やBERT[2018]について、#9~#10ではXLNet[2019]について、#11~#12ではTransformer-XL[2019]について、#13~#17ではRoBERTa[2019]について、#18~#20ではWord2Vec[2013]について、#21~#24ではALBERT[2019]について、#26〜#30ではT5[2019]について、#31〜#32ではERNIEについて取り扱ってきました。

XLNet②（事前学習におけるAutoRegressiveとPermutation）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #10 - lib-arts’s diary

RoBERTa（論文の詳細④ RoBERTa、Related Work、Conclusion）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #17 - lib-arts’s diary

ALBERT③（The Elements of ALBERT）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #23 - lib-arts’s diary

T5(Text-toText Transfer Transformer)③（Section2_Setup）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #28 - lib-arts’s diary

#33からはBERTやERNIEの論文で言及のあった、ELMoについて取り扱います。

[1802.05365] Deep contextualized word representations

#33ではAbstractとIntroductionの確認を行います。
以下目次になります。
1. Abstract
2. Introduction(Section1)
3. まとめ

1. Abstract

We introduce a new type of deep contextualized word representation that models both (1) complex characteristics of word use (e.g., syntax and semantics), and (2) how these uses vary across linguistic contexts (i.e., to model polysemy).

和訳：『我々は(1)文法や意味などの複雑な単語使用の特徴と(2)それらが文脈上どのように変化するかをモデリングする、深層学習を用いた文脈を考慮した新しいタイプの単語表現を紹介する。』
単語表現(word representation)の研究としてはWord2vecが有名ですが、Word2vecよりもより文脈を考慮するにあたっての手法の一つとしてELMoの研究は取り組んでいます。

Our word vectors are learned functions of the internal states of a deep bidirectional language model (biLM), which is pre-trained on a large text corpus.

和訳：『単語のベクトルは深層双方向言語モデル(biLM; bidirectional Language Model)の内部状態の学習された関数で、大きなテキストコーパスで事前学習されたものである。』
ELMoを用いて作成する単語のベクトルはbiLMを用いており、これは双方向のLSTMがベースになっていると後ろの方で述べられています。

We show that these representations can be easily added to existing models and significantly improve the state of the art across six challenging NLP problems, including question answering, textual entailment and sentiment analysis.

和訳：『我々はそれらの表現が既存のモデルに簡単に加えることができ、質問応答(question answering)やtextual entailment、感情分析(sentiment analysis)などの6つの自然言語処理の問題においてSotAを著しく更新したことを示す。』
ELMoは2018年の2月の研究で、BERTの少し前の研究です。BERTでは11のタスクでSotAを更新したとありましたが、ELMoでは6つのタスクでSotAを更新したとされています。

We also present an analysis showing that exposing the deep internals of the pre-trained network is crucial, allowing downstream models to mix different types of semi-supervision signals.

和訳：『我々は事前学習のネットワークの内部状態をはっきりさせることが重要であると示す分析を行っており、downstreamモデルがsemi-supervision signalsの異なる種類を混ぜることができるようにしている。』
この文だけだと少々読み取りづらいですが、単語表現を作成するにあたってのLSTMの内部をどのように用いるかについての言及であると思われます。

2. Introduction(Section1)
2節ではSection1のIntroductionについて確認します。以下パラグラフ単位で確認していきます。

f:id:lib-arts:20200108200729p:plain

第一パラグラフでは、Word2vecのような事前学習された単語表現(pre-trained representation)は多くの自然言語の理解にあたってのモデリングにおいて重要である一方で、質の高い表現(representation)を学習するのはchallengingであるとされています。これらを踏まえてELMoの論文では新しいタイプの文脈を考慮した深層単語表現(deep contextualized word representation)を導入するとなっています。

f:id:lib-arts:20200108200748p:plain

f:id:lib-arts:20200108200804p:plain

第二パラグラフでは、ELMoの特徴について触れられています。ELMoは二つの言語モデルの目的関数に基づいて学習された双方向のLSTMから派生したベクトルを用いており、そのためELMo(Embeddings from Language Model)と名付けたとされています。また、bidirectional Language Modelの内部の層の関数という意味で、ELMoの表現は深層である(deep)とされています。

f:id:lib-arts:20200108200827p:plain

第三パラグラフでは、LSTMの内部表現を組み合わせることはリッチな単語表現につながり、higher-level LSTM stateは単語の意味の文脈依存の側面を得ることができるとされています。

f:id:lib-arts:20200108200915p:plain

f:id:lib-arts:20200108201150p:plain

第四パラグラフでは、実験においてELMoの表現がうまくいったことについて言及されています。また、モデルやコードは一般的に公開したことについても触れられています。

3. まとめ
#33ではELMoについての論文である、"Deep contextualized word representations"のAbstractとIntroductionを確認し、論文の概要を掴みました。
#34ではRelated Work以下の重要なポイントについて取り扱っていきます。