A Decomposable Attention Model for Natural Language Inference②（Related Work以降）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #38

f:id:lib-arts:20200114222450p:plain

言語処理へのDeepLearningの導入をご紹介するにあたって、#3〜#8においては、Transformer[2017]やBERT[2018]について、#9~#10ではXLNet[2019]について、#11~#12ではTransformer-XL[2019]について、#13~#17ではRoBERTa[2019]について、#18~#20ではWord2Vec[2013]について、#21~#24ではALBERT[2019]について、#26〜#30ではT5[2019]について、#31〜#32ではERNIEについて、#33〜#34ではELMo[2018]について、#35〜#36ではself-attentionについて取り扱ってきました。

XLNet②（事前学習におけるAutoRegressiveとPermutation）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #10 - lib-arts’s diary

RoBERTa（論文の詳細④ RoBERTa、Related Work、Conclusion）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #17 - lib-arts’s diary

ALBERT③（The Elements of ALBERT）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #23 - lib-arts’s diary

T5(Text-toText Transfer Transformer)③（Section2_Setup）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #28 - lib-arts’s diary

#37以降ではDecomposable Attentionを確認するにあたって"
A Decomposable Attention Model for Natural Language Inference"について取り扱います。

[1606.01933] A Decomposable Attention Model for Natural Language Inference

#37ではAbstractとIntroductionの確認を行いました。

A Decomposable Attention Model for Natural Language Inference①（Abstract＆Introduction）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #37 - Liberal Art’s diary

#38ではRelated Work以後の内容の重要部分の抜粋を行います。
以下目次になります。
1. Related Work(Section2)
2. Approach(Section3)
3. Computational Complexity(Section4)
4. Experiments(Section5)
5. Conclusion(Section6)
6. まとめ

1. Related Work(Section2)
1節ではSection2のRelated Workについて取り扱います。

f:id:lib-arts:20200115115104p:plain

上記のように関連研究が挙げられていますが、(Bahdanau et al., 2015)とされているのがニューラルネットワークのattentionに関しての初期の研究としてその後の論文から数多く参照されています。従来の研究と対照的に、Decomposable Attention Modelの研究では単語のベクトル表現(word embeddings)を主に用いているとされています。

2. Approach(Section3)
2節ではSection3のApproachについて取り扱います。

f:id:lib-arts:20200115120129p:plain

f:id:lib-arts:20200115120148p:plain

冒頭のパラグラフでは、問題を数式で表現するにあたって、文字の定義を行っています。 $\mathbf{a}$ と $\mathbf{b}$ は入力する系列(言語)とし、 $a_{i}$ と $b_{j}$ は次元dの単語のベクトル表現であるとされています。また $\mathbf{y}$ はindicator vectorとされており、Cは出力のクラス数であるとされています。

f:id:lib-arts:20200115120206p:plain

上記ではInput representationについて記述されています。Decomposable Attention Modelの論文で取り扱うvanilla versionでは $\mathbf{\bar{a}}$ と $\mathbf{\bar{b}}$ はそれぞれ $\mathbf{a}$ と $\mathbf{b}$ と同様に取り扱うとされているので、記号が変わったことは特に意識しなくて良さそうです。また、Decomposable Attention Modelのコア部分は三つの構成要素からなるとされています。

f:id:lib-arts:20200115120225p:plain

上記ではInput representationの三つの構成要素として、Attend、Compare、Aggregateが紹介されています。

f:id:lib-arts:20200115121318p:plain

Attend、Compare、AggregateはFigure1で概要が図示されています。Attendが左、Compareが中央、Aggregateが右側を指すとされています。

3. Computational Complexity(Section4)
省略します。

4. Experiments(Section5)
4節ではSection5のExperimentsについて取り扱います。

f:id:lib-arts:20200115121822p:plain

Table1では実験における正答率(accuracy)の比較が行われています。Test Accuracyに置いてこの研究の手法がSotAを実現したとされています。

5. Conclusion(Section6)
省略します。

6. まとめ
#38ではDecomposable Attentionに関する"
A Decomposable Attention Model for Natural Language Inference"のRelated Work以下の内容を確認しました。
#39以降ではTransformerの効率化について取り扱ったReformerについて確認していきます。