T5(Text-toText Transfer Transformer)③（Section2_Setup）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #28

f:id:lib-arts:20191125191712p:plain

言語処理へのDeepLearningの導入をご紹介するにあたって、#3〜#8においては、Transformer[2017]やBERT[2018]について、#9~#10ではXLNet[2019]について、#11~#12ではTransformer-XL[2019]について、#13~#17ではRoBERTa[2019]について、#18~#20ではWord2Vec[2013]について、#21~#24ではALBERT[2019]について取り扱ってきました。

RoBERTa（論文の詳細④ RoBERTa、Related Work、Conclusion）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #17 - lib-arts’s diary

Word2Vec②（Model Architectures＆New Log-linear Models）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #19 - lib-arts’s diary

ALBERT③（The Elements of ALBERT）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #23 - lib-arts’s diary

#26以降では事前学習モデルにおいてSotAを達成した2019年10月のT5(Text-to-Text Transformer)について確認するにあたり、"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"について取り扱っていきます。

[1910.10683] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

#27ではIntroductionの内容を確認しました。

T5(Text-toText Transfer Transformer)②（Introductionの確認）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #27 - lib-arts’s diary

#28ではSection2のSetupの内容を確認します。
以下目次になります。
1. Setup(Section2)
1-1. Model(Section2-1)
1-2. The Colossal Clean Crawled Corpus(Section2-2)
1-3. Downstream tasks(Section2-3)
1-4. Input and output format(Section2-4)
2. まとめ

1. Setup(Section2)
まずはSection2の冒頭部について確認します。

f:id:lib-arts:20191219203322p:plain

上記では、大規模な包括的な研究の結果について見る前に、背景トピックを再度確認するとあります。T5(Text-to-Text Transfer Transformer)の形式のモデルと、C4(Colossal Clean Crawled Corpus)というデータセットだけ抑えておけば十分だと思われます。

1-1. Model(Section2-1)
1-1節ではSection2-1のModelについて確認します。以下、パラグラフ単位で確認していきます。

f:id:lib-arts:20191219204706p:plain

第一パラグラフでは、自然言語処理タスクに対するDeepLearningの導入にあたって、RNN(Recurrent Neural Networks)からattention構造を中心的に用いたTransformer[2017]にシフトしてきていることについて言及されています。Transformerは汎用的なモジュールとしてここ最近の数多くの研究に適用されています。

f:id:lib-arts:20191219204722p:plain

第二パラグラフでは、Transformerモジュールの主要なブロックとして、自身の値を用いてattention maskを計算する手法であるself-attentionが紹介されています。また、T5の研究ではSection3.2で述べられた構造の一種を包括的に探索していると記述されています。

f:id:lib-arts:20191219205748p:plain

第三パラグラフでは、Transformerモジュールの内部処理について記述されています。

f:id:lib-arts:20191219205827p:plain

第四パラグラフでは語順の情報を与えるためのpositional encodingについての議論がされています。

f:id:lib-arts:20191219205851p:plain

第五パラグラフでは様々な補足情報について言及されています。

1-2. The Colossal Clean Crawled Corpus(Section2-2)
1-2節ではSection2-2のThe Colossal Clean Crawled Corpus(C4 dataset)について確認します。以下、パラグラフ単位で確認していきます。

f:id:lib-arts:20191219210627p:plain

第一パラグラフでは、自然言語処理における転移学習(transfer learning)関連の先行研究では事前学習(pre-training)に教師なし学習(unsupervised learning)を用いていることについて言及した上で、Wikipediaなどを用いている従来の研究を踏まえてT5の研究におけるニーズを満たすにあたりWebから取得されたCommon Crawlを学習データとすることについて言及されています。

f:id:lib-arts:20191219210643p:plain

f:id:lib-arts:20191219210657p:plain

第二パラグラフでは、1ヶ月に20TBほどにもなるCommon Crawlをデータとして活用するにあたって、下記のようなデータのクリーニングを行ったとされています。

・ピリオドや?や!で終わる文のみを用いた
・不適切な語を含むページを取り除いた
・ダミーテキスト(lorem ipsum)があるページを取り除いた
・ソースコードなどを取り除いた
・重複文を取り除いた

f:id:lib-arts:20191219211923p:plain

第三パラグラフでは、データセットとしては2019年の4月のデータを用いて前述のフィルタリングを施すことで、750GBほどの事前学習(pre-training)のためのデータセットを作成したとされています。また、このデータセットのことをC4(Colossal Clean Crawled Corpus)と名付けています。

1-3. Downstream tasks(Section2-3)
1-3節ではection2-3のDownstream tasksについて確認します。以下、パラグラフ単位で確認していきます。

f:id:lib-arts:20191219212453p:plain

第一パラグラフでは、事前学習の質を測定する(measure)にあたって、downstream taskのパフォーマンスについてのベンチマークについて議論しています。タスクとしては機械翻訳(machine translation)、質問応答(question answering)、要約(summarization)、テキスト分類(text classification)などがあるとされています。ベンチマークとしてはGLUE、SuperGLUE、SQuAD、WMT English to German etcなどが参照されています。

f:id:lib-arts:20191219213439p:plain

f:id:lib-arts:20191219213457p:plain

第二パラグラフでは、GLUEやSuperGLUEのベンチマークについて言及されています。
第三パラグラフ以下は省略します。

1-4. Input and output format(Section2-4)
1-3節ではSection2-4のInput and output formatについて確認します。以下、パラグラフ単位で確認していきます。

f:id:lib-arts:20191219213524p:plain

f:id:lib-arts:20191219213605p:plain

第一パラグラフでは、異なるタスクセットを統一的な一つのモデルで取り扱うにあたって、タスク間で一貫性を持ったフォーマットを作成することについて議論されています。Figure1のようなtext-to-textの入出力のフォーマットを採用したとされています(Figure1はこのページのトップにある画像です)。
第二パラグラフ以降は省略します。

2. まとめ
#28ではT5(Text-to-Text Transformer)についての論文である、"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"のSection2のSetupを確認しました。
#29では引き続き論文の内容を確認していきます。