ERNIE(ERNIE: Enhanced Language Representation with Informative Entities)②（Related Work以降）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #32

f:id:lib-arts:20191224161230p:plain

言語処理へのDeepLearningの導入をご紹介するにあたって、#3〜#8においては、Transformer[2017]やBERT[2018]について、#9~#10ではXLNet[2019]について、#11~#12ではTransformer-XL[2019]について、#13~#17ではRoBERTa[2019]について、#18~#20ではWord2Vec[2013]について、#21~#24ではALBERT[2019]について、#26〜#30ではT5[2019]について取り扱ってきました。

XLNet②（事前学習におけるAutoRegressiveとPermutation）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #10 - lib-arts’s diary

Transformer-XL（論文のAbstractの確認）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #12 - lib-arts’s diary

RoBERTa（論文の詳細④ RoBERTa、Related Work、Conclusion）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #17 - lib-arts’s diary

Word2Vec②（Model Architectures＆New Log-linear Models）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #19 - lib-arts’s diary

ALBERT③（The Elements of ALBERT）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #23 - lib-arts’s diary

T5(Text-toText Transfer Transformer)③（Section2_Setup）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #28 - lib-arts’s diary

#31、#32では事前学習モデルにおいてSotAを達成したERINEについて確認するにあたり、"ERNIE: Enhanced Representation through Knowledge Integration"について取り扱います(GLUEのsubmitに対応する論文は見当たらなかったのでメインアイデアだけでもということで、2019年5月のERINEの論文を確認します)。

[1905.07129] ERNIE: Enhanced Language Representation with Informative Entities

#31ではAbstractとIntroductionの確認を行ないました。

ERINE①（Abstract＆Introduction）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #31 - lib-arts’s diary

#32ではRelated Work以後の内容の重要部分の抜粋を行います。
以下目次になります。
1. Related Work(Section2)
2. Methodology(Section3)
3. Experiments(Section4)
4. Conclusion
5. まとめ

1. Related Work(Section2)

f:id:lib-arts:20200107152255p:plain

まず上記では事前学習(pre-training)による言語表現モデル(language representation models)のアプローチは大きく分けると特徴量ベースのアプローチ(feature-based approaches)とファインチューニングを行うアプローチ(fine-tuning approaches)の二つに分けることができるとされています。feature-based approachesはWord2vecが例として挙げられており、fine-tuning approachesはBERTが例に挙げられているので、単に特徴量抽出として用いるか、downstream taskの再学習をした上で用いるのかの違いと捉えておいて良さそうです。
ここまでの内容は事前学習(pre-training)に関する話題でしたが、ERNIEでは主に言語の知識情報を用いています。Related Workの後半では知識情報の利用について言及されています。

f:id:lib-arts:20200107153001p:plain

（中略）

f:id:lib-arts:20200107153016p:plain

ERINEではテキストデータ(corpora)と知識グラフ(KGs; Knowledge Graphs)の双方を用いて、BERTに基づいた言語表現を学習させるとされています。

2. Methodology(Section3)

f:id:lib-arts:20200107154029p:plain

Section3-1では数式を用いた議論をするにあたって諸々の表記の定義をしています。 $w$ が単語(token)、 $e$ が知識(entity)だと掴んでおけば十分だと思われます。また、Figure2に概念図がまとまっているとされています。

f:id:lib-arts:20200107154047p:plain

詳細は上記のFigure2で図示されています。通常のTransformerの構造は $w$ だけで構成されていますが、ここに $e$ を導入しようと試みられています。

f:id:lib-arts:20200107154801p:plain

また、Figure2についてはSection3-2でも触れられています。T-encoder(textual encoder)では基本的な語彙や文法の情報を入力トークンから得ることができるようになっており、K-encoder(knowledgeable encoder)ではT-encoderの出力と追加のトークンベースの知識情報を統合する(integrate)ことができるようになっているとされています。

3. Experiments(Section4)

f:id:lib-arts:20200107160104p:plain

f:id:lib-arts:20200107160117p:plain

Table3ではOpen Entity datasetにおける比較についてまとまっており、ERNIEがBERTの結果を上回っていることが確認できます。

f:id:lib-arts:20200107160132p:plain

f:id:lib-arts:20200107160146p:plain

Table6ではGLUEにおける比較についてまとまっています。GLUEにおける比較においてはほぼ同じくらいの結果になっていますが（若干BERTが上回っている）、GLUE自体は外部知識を必要としないタスクのため、これについては外部情報が混ざっても情報を失わないという解釈がされています。論理展開自体は若干強引な気もしますが、実験系の論文だとこの手の書き方は多いので考察の一つとして捉えておくのが良いのではと思われます。

4. Conclusion

f:id:lib-arts:20200107160848p:plain

将来研究の方向性について示されていたのでこちらだけ確認します。(1)ELMoのようなfeature-basedのアプローチにも知識を導入する、(2)ConceptNetのような多様な構造化された知識を言語表現モデルに導入する、(3)より大きな事前学習データを用いる、の三点が記載されています。執筆時点(2020年1月7日)においてGLUEにおいてSotAとなっているので、この三点を意識しつつ機会があれば実装なども確認してみると良さそうです。

GitHub - PaddlePaddle/ERNIE: An Implementation of ERNIE For Language Understanding (including Pre-training models and Fine-tuning tools)

5. まとめ
#32ではERNIEについての論文である、"ERNIE: Enhanced Language Representation with Informative Entities"のRelated Work以下の内容を確認しました。
#33では今回論文でも言及されていましたが、BERTの論文で比較対象として出されていたELMoについて確認します。

[1802.05365] Deep contextualized word representations