ERNIE①（Abstract＆Introduction）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #31

f:id:lib-arts:20191224161230p:plain
言語処理へのDeepLearningの導入をご紹介するにあたって、#3〜#8においては、Transformer[2017]やBERT[2018]について、#9~#10ではXLNet[2019]について、#11~#12ではTransformer-XL[2019]について、#13~#17ではRoBERTa[2019]について、#18~#20ではWord2Vec[2013]について、#21~#24ではALBERT[2019]について、#26〜#30ではT5[2019]について取り扱ってきました。

#31以降では事前学習モデルにおいてSotAを達成したERNIEについて確認するにあたり、"ERNIE: Enhanced Representation through Knowledge Integration"について取り扱っていきます(GLUEのsubmitに対応する論文は見当たらなかったのでメインアイデアだけでもということで、2019年5月のERNIEの論文を確認します)。

[1905.07129] ERNIE: Enhanced Language Representation with Informative Entities
#31ではAbstractとIntroductionの確認を行なっていきます。
以下目次になります。
1. Abstract
2. Introduction(Section1)
3. まとめ

1. Abstract
1節ではAbstractの和訳と簡単な補足を行なっていきます。

Neural language representation models such as BERT pre-trained on large-scale corpora can well capture rich semantic patterns from plain text, and be fine-tuned to consistently improve the performance of various NLP tasks.

和訳：『BERTのような大きなコーパスを用いて事前学習をおこなったニューラル言語モデルは、通常の(annotationなどがついていない)文から意味的なパターンを抽出し、finetuningによって多くの言語処理のタスクのパフォーマンスを向上させることができている。』
若干日本語にしにくい構造だったので、少々意訳も含めました。こちらについては一般的な内容のため流して良いと思います。

However, the existing pre-trained language models rarely consider incorporating knowledge graphs (KGs), which can provide rich structured knowledge facts for better language understanding.

和訳：『しかしながら、既存の事前学習言語モデルはほとんど知識グラフ(Knowledge Graphs)について考慮していない。知識グラフは言語理解に対して構造的な知識を与えてくれる。』
WordNetのような言語の知識グラフが構築されており、そちらについての言及がされています。近年のDeepLearningを用いた言語処理の事前学習の研究ではまだフォーカスされることが少ないですが、ERNIEの研究では知識グラフについてフォーカスをあてるにあたってこのような説明がなされています。

We argue that informative entities in KGs can enhance language representation with external knowledge.

和訳：『我々は知識グラフにおける情報entityが外部知識として(事前学習で獲得される)言語の表現を高めることについて議論する。』
argueの使い方に若干疑問があるのですが、概ね和訳通りの認識で良さそうです。

In this paper, we utilize both large-scale textual corpora and KGs to train an enhanced language representation model (ERNIE), which can take full advantage of lexical, syntactic, and knowledge information simultaneously.

和訳：『この論文では、我々は大規模のコーパスと知識グラフの双方を用いてERNIE(enhanced language representation model)を学習させた。ERNIEでは語彙や文法、知識情報を同時に活用している。』
テキストのコーパスだけでなく、知識グラフも用いて事前学習モデルを構築したとされています。BERT関連の研究の多くは事前学習にテキストのみを用いるケースがほとんどのため、ここに知識グラフを導入したというのがERNIEの研究の特徴的なポイントだと考えて良いと思います。

The experimental results have demonstrated that ERNIE achieves significant improvements on various knowledge-driven tasks, and meanwhile is comparable with the state-of-the-art model BERT on other common NLP tasks. The source code of this paper can be obtained from

https://github.com/thunlp/ERNIE.

和訳：『実験結果としてはERINEは様々な知識ドリブンなタスクにおいて大きな改善を示し、その他のNLPのタスクにおいてもBERTと同等の結果を示した。この論文のソースコードはGitHub上で公開している。』
特にknowledge-driven tasksの詳細についてはこの論文における強調ポイントであると思われるため、該当部分を詳しく確認できればと思います。

2. Introduction(Section1)
2節ではSection1のIntroductionについて確認します。以下パラグラフ単位で確認していきます。

f:id:lib-arts:20191224165646p:plain

f:id:lib-arts:20191224165705p:plain

第一パラグラフでは、一般的な事前学習の内容についてまとめられています。Word2vecからBERTにかけて言及されています。

f:id:lib-arts:20191224170729p:plain

第二パラグラフでは、言語処理における事前学習は非常に有力であるものの、言語理解における知識情報の組み込みについて考慮できていないと指摘されています。また知識情報を用いることでよりうまく学習できるポテンシャルを持つのではないかとされています。

f:id:lib-arts:20191224161230p:plain
また、知識グラフの例としてBob Dylanを例にFigure1で図式化されています。

f:id:lib-arts:20191224171428p:plain

f:id:lib-arts:20191224171445p:plain

第三パラグラフでは、(BERTのような)事前学習モデルに外部知識を組み込むにあたっては二つの課題があるとされています。一つ目の知識エンコーディング(Structured Knowledge Encoding)は「どのように知識グラフから関連する情報を抽出してエンコードするかの課題」とされています。二つ目の不均質な情報合成(Heterogeneous Information Fusion)は「BERTのような事前学習によって得られる表現と知識グラフを用いた表現が全く異なり合成するのが難しいという課題」とされています。

f:id:lib-arts:20191224172231p:plain

第四パラグラフでは、第三パラグラフで述べられた課題を克服するためにERNIE(Enhanced Language RepresentatioN with Informative Entities)を考案したとされています。詳細については後ろのセクションの方がわかりやすく記述されていると思われるのでここでは飛ばします。

f:id:lib-arts:20191224172452p:plain
第五パラグラフでは、関連の実験について言及されています。

3. まとめ
#31ではERNIEについての論文である、"ERNIE: Enhanced Language Representation with Informative Entities"のAbstractとIntroductionを確認し、論文の概要を掴みました。
#32では引き続き論文の内容を確認していきます。