A Structured Self-attentive Sentence Embedding②(Related Work以降)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #36
言語処理へのDeepLearningの導入をご紹介するにあたって、#3〜#8においては、Transformer[2017]やBERT[2018]について、#9~#10ではXLNet[2019]について、#11~#12ではTransformer-XL[2019]について、#13~#17ではRoBERTa[2019]について、#18~#20ではWord2Vec[2013]について、#21~#24ではALBERT[2019]について、#26〜#30ではT5[2019]について、#31〜#32ではERNIEについて、#33〜#34ではELMo[2018]について取り扱ってきました。
XLNet②(事前学習におけるAutoRegressiveとPermutation)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #10 - lib-arts’s diary
ALBERT③(The Elements of ALBERT)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #23 - lib-arts’s diary
#35、#36ではTransformerの構造のベースになっているself-attentionを確認するにあたって"
A Structured Self-attentive Sentence Embedding"について取り扱います。
[1703.03130] A Structured Self-attentive Sentence Embedding
#35ではAbstractとIntroductionの確認を行いました。
#36ではRelated Work以後の内容の重要部分の抜粋を行います。
以下目次になります。
1. APPROACH(Section2)
1-1. MODEL(Section2.1)
1-2. PENALIZATION TERM(Section2.2)
1-3. VISUALIZATION(Section2.3)
2. RELATED WORK(Section3)
3. EXPERIMENTAL RESULTS(Section4)
4. CONCLUSION AND DISCUSSION(Section5)
5. まとめ
1. APPROACH(Section2)
1-1. MODEL(Section2.1)
1-1節ではSection2.1のMODELについて確認します。
まず、第一パラグラフですが、この論文で提案しているsentence embedding modelは二つの要素によって構成されているとなっています。それぞれ、(1)双方向LSTM、(2)self-attention mechanismであるとなっています。self-attentionは隠れ層の値を用いてattention maskを作成する手法ですが、Figure1に図示しているとされています。
上記のFigure1がこの論文でのself-attentionについて図示しています。(a)で図示された双方向のLSTMの隠れ層の値を用いて(b)でattention maskを生成しています。ここで図において青が隠れ層の表現(hidden representations)を表しており、(b)の図における赤のWが学習するweightsの情報を意味しています。
数式を用いての定義は上記のようにされています。ここで(1)のwはFigure1の(b)のWとは違う意味で用いられていることに注意が必要です(ちょっとややこしい気がします)。nが入力する文の長さ、dは単語の分散表現(word embedding)、uはそれぞれの隠れ層におけるunitの数であるとされています。(5)の数式でattention maskであるaが計算されています。
上記では多様なattention maskを得るにあたってさらにrを定義しており、(6)のようにattentionの情報を持った行列のAを計算しています。これを隠れ層のHに掛け合わせることで、文の埋め込み行列(embedding matrix)であるMを計算しています。
1-2. PENALIZATION TERM(Section2.2)
上記で記述されているように、埋め込み行列のMが冗長性の問題(redundancy problems)が生じる可能性について言及されており、これに対する対策としてペナルティ項を設けるとされています。詳細については省略します。
1-3. VISUALIZATION(Section2.3)
Section2.3のVISUALIZATIONでは、attentionの情報を持ったアノテーション行列(annotation matrix)のAを用いた解釈についてまとめられています。詳細については省略します。
2. RELATED WORK(Section3)
3. EXPERIMENTAL RESULTS(Section4)
Section3のRELATED WORKとSection4のEXPERIMENTAL RESULTSについては今回は省略します。
4. CONCLUSION AND DISCUSSION(Section5)
以下パラグラフ単位で確認していきます。
第一パラグラフでは、この論文では文のベクトル表現(sentence embedding)をself-attentionメカニズムを用いることで取得できるようにしたとあります。
第二パラグラフでは、self-attentionのLSTMの導入について記述されています。
第三パラグラフでは、self-attentionメカニズムを導入することで、LSTMにおける長い系列に対する頑健性を実現できたことについて言及されています。
第四パラグラフでは、今回の論文ではdownstreamタスクに過度に依存した学習になっており、(BERTのような)教師なし学習にはなっていないことについて言及されています。Transformerの少し前の研究のため、この頃から教師なし学習(Unsupervised Learning)を用いた事前学習(pre-training)について模索されていたというのが読み取ることができます。
5. まとめ
#36ではTransformerの構造のベースになっているself-attentionを確認するにあたって"
A Structured Self-attentive Sentence Embedding"のRelated Work以下の内容を確認しました。
5. まとめ
#36ではTransformerの構造のベースになっているself-attentionを確認するにあたって"
A Structured Self-attentive Sentence Embedding"のRelated Work以下の内容を確認しました。
#37以降ではDecomposable Attentionについて取り扱っている"A Decomposable Attention Model for Natural Language Inference"について確認できればと思います。