T5(Text-toText Transfer Transformer)②(Introductionの確認)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #27

f:id:lib-arts:20191125191712p:plain

言語処理へのDeepLearningの導入をご紹介するにあたって、#3〜#8においては、Transformer[2017]やBERT[2018]について、#9~#10ではXLNet[2019]について、#11~#12ではTransformer-XL[2019]について、#13~#17ではRoBERTa[2019]について、#18~#20ではWord2Vec[2013]について、#21~#24ではALBERT[2019]について取り扱ってきました。

BERTリポジトリのサンプル実行の流れ|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #6 - lib-arts’s diary

XLNet②(事前学習におけるAutoRegressiveとPermutation)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #10 - lib-arts’s diary

Transformer-XL(論文のAbstractの確認)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #12 - lib-arts’s diary

RoBERTa(論文の詳細④ RoBERTa、Related Work、Conclusion)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #17 - lib-arts’s diary

Word2Vec②(Model Architectures&New Log-linear Models)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #19 - lib-arts’s diary

ALBERT③(The Elements of ALBERT)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #23 - lib-arts’s diary

#26以降では事前学習モデルにおいてSotAを達成した2019年10月のT5(Text-to-Text Transfer Transformer)について確認するにあたり、"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transfer Transformer"について取り扱っていきます。

[1910.10683] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
#26ではAbstractを確認し、論文の概要を掴みました。

T5①(論文のAbstractの確認)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #26 - lib-arts’s diary

#27ではIntroductionの内容を確認していきます。
以下目次になります。
1. Introduction(Section1)
2. まとめ

 

1. Abstractと論文の概要
1節ではSection1のIntroductionについて取り扱います。以下パラグラフ単位で確認していきます。

f:id:lib-arts:20191218160646p:plain

第一パラグラフでは、自然言語処理(NLP)のタスクに取り組むにあたって、downstream taskの形式に従う必要があることに触れた後に、ここ数年の(modern)実践として明示的に行うというよりは補助タスクの要素として学習されることがしばしばあるとされています。例として2013年のWord2vecが挙げられており、"word vector"を得るにあたって共起を元に学習していると述べられています。

f:id:lib-arts:20191218161746p:plain

f:id:lib-arts:20191218161758p:plain

第二パラグラフでは、言語処理における事前学習(pre-training)への期待が高まったことと、画像処理におけるImageNetを用いて行う事前学習(pre-training)について触れた上で、BERT(Devlin et al., 2018がBERTの論文です)について話題が展開されています。画像処理における事前学習がラベル付けされたImageNetの画像を用いた教師あり学習(supervised learning)であるのに対して、言語処理における事前学習はラベル付けされていないテキストを元にした教師なし学習(unsupervised learning)を行なっているとされています。また、このことによってInternetなどを介して多くの学習データを集めることができるとされています。

f:id:lib-arts:20191218162617p:plain

第三パラグラフでは、BERTをきっかけに多くの事前学習モデルが提案されるようになった上で、その急速な進歩に対して異なるアルゴリズムを比較することが難しい状況について触れられています。より厳密な(rigorous)理解へのニーズを踏まえて、T5の研究では転移学習(transfer learning)に関する統合的なアプローチ(unified approach)を提案するとされています。

f:id:lib-arts:20191218165844p:plain

第四パラグラフでは、T5のアイデアとして自然言語処理(NLP; Natural Language Processing)の問題を入力と出力を全てテキストとして扱う"text-to-text"の問題に帰着させるというのが紹介されています。取り扱うタスクとしても質問応答(question answering)、文書要約(document summarization)、極性分類(sentiment classification)など様々なタスクが紹介されています。これらのタスクを統一的に扱うことで、目的関数やデータセットに対する探求の余裕が多く取れるようになったことで、T5は多くのタスクでSotAを達成したとされています。

f:id:lib-arts:20191218170712p:plain

f:id:lib-arts:20191218170736p:plain

第五パラグラフでは、T5の研究では新規手法の提案が主な目的ではなく、既存の研究が成立している分野における包括的な捉え方について考察することが目的であるとされています。また、実験を大規模で行うにあたってC4(Colossal Clean Crawled Corpus)という新しいデータセットを導入したとされています。後述されますがC4は750GBほどにもなり、160GBのRoBERTaなどと比べても非常に大きなデータセットとなっています。T5は統合的なアプローチの提供がメインの目的で、SotAの改善については統合的なアプローチの導入にあたってデータセットを増強したところが大きかったのではないかと思われます。

f:id:lib-arts:20191218171540p:plain

第六パラグラフでは、残りの論文の構成について言及されています。


2. まとめ
#27ではT5(Text-to-Text Transformer)についての論文である、"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"のIntroductionを確認しました。
#28では引き続き論文の内容を確認していきます。