T5①(論文のAbstractの確認)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #26

f:id:lib-arts:20191125191712p:plain

言語処理へのDeepLearningの導入をご紹介するにあたって、#3〜#8においては、Transformer[2017]やBERT[2018]について、#9~#10ではXLNet[2019]について、#11~#12ではTransformer-XL[2019]について、#13~#17ではRoBERTa[2019]について、#18~#20ではWord2Vec[2013]について、#21~#24ではALBERT[2019]について取り扱ってきました。

XLNet②(事前学習におけるAutoRegressiveとPermutation)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #10 - lib-arts’s diary

Transformer-XL(論文のAbstractの確認)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #12 - lib-arts’s diary

RoBERTa(論文の詳細④ RoBERTa、Related Work、Conclusion)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #17 - lib-arts’s diary

Word2Vec②(Model Architectures&New Log-linear Models)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #19 - lib-arts’s diary

ALBERT③(The Elements of ALBERT)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #23 - lib-arts’s diary

#26以降では事前学習モデルにおいてSotAを達成した2019年10月のT5(Text-to-Text Transformer)について確認するにあたり、"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"について取り扱って行きます。

[1910.10683] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

#26ではAbstractを確認し、論文の概要を掴んでいきます。
以下目次になります。
1. Abstractと論文の概要
2. まとめ

 

1. Abstractと論文の概要
以下Abstractの和訳と簡単な補足を行なっていきます。

Transfer learning, where a model is first pre-trained on a data-rich task before being fine-tuned on a downstream task, has emerged as a powerful technique in natural language processing (NLP).

和訳:『まず最初に豊富なデータのあるタスクモデルの事前学習を行い、downstream taskでfine-tuneを行う転移学習(transfer learning)は言語処理の分野でとても強力な技術として提唱されてきている。』
基本直訳ベースですが、少々日本語的にわかりやすい語順に直すにあたり訳は改変しました。BERT[2018]やXLNet[2019]などに代表される、言語処理における事前学習(pre-training)と転移学習(transfer learning)について記されています。大まかな考え方としては、Wikipediaのような大きなデータで事前学習を行い、正解ラベルを付与したタスクで転移学習をすることで、比較的小さなデータセットでも学習ができるようにというのが大まかな流れです。

The effectiveness of transfer learning has given rise to a diversity of approaches, methodology, and practice.

和訳:『転移学習の効果によって、多様なアプローチ、手法、実践がなされるようになってきている。』
転移学習時のベンチマークであるGLUE(General Language Understanding Evaluation)のスコアの更新一つとっても、BERT、XLNet、RoBERTa、ALBERT、T5などに挙げられるように2018年10月に発表されたBERT以来、一年ほどで様々な研究がなされてきています。これらは単なるSotAの更新もそうですが、それぞれフォーカスポイントが違っており、多様な研究がなされているというのが納得できるのではと思われます。また、SotAの更新以外にも研究はなされており、その辺を反映してdiversityという言葉が用いられていると思われます。

In this paper, we explore the landscape of transfer learning techniques for NLP by introducing a unified framework that converts every language problem into a text-to-text format.

和訳:『この論文において、我々は全ての言語処理の問題をtext-to-textのフォーマットに変換する統一的なフレームワークを導入することで、言語処理における転移学習の景観(landscape)を探索する。』
T5は"Text-to-Text Transfer Transformer"の略で、言語処理の問題設定や実装のフォーマットとして統一な規格を導入するとされています。

f:id:lib-arts:20191125191712p:plain

フォーマットとしては、上図のようにすることで多様な問題を一つのフォーマットに落とすことができるとされています。

Our systematic study compares pre-training objectives, architectures, unlabeled datasets, transfer approaches, and other factors on dozens of language understanding tasks.

和訳:『我々の体系的な研究は事前学習の目的関数(pre-training objectives)、ネットワーク構造(architectures)、ラベル付けされていないデータセット、転移学習のアプローチ、そして多くの言語理解タスクにおけるその他の懸案事項(factor)の比較を行なっている。』
様々なアプローチの統合がT5におけるテーマであり、text-to-textの形で統一的にアプローチをまとめています。

By combining the insights from our exploration with scale and our new "Colossal Clean Crawled Corpus", we achieve state-of-the-art results on many benchmarks covering summarization, question answering, text classification, and more.

和訳:『"Colossal Clean Crawled Corpus"などのデータセットの探求からの洞察を加えることで、我々は文書要約、質問応答、テキスト分類などを含む多くのベンチマークにおいてSotAを獲得した。』
若干文意が取れないところは意訳にしましたが、概ね間違っていないとは思われます。新しく導入されたデータセットの"Colossal Clean Crawled Corpus"は大体750GBのテキストで、16GBほどのWikipediaよりも大きなデータとなっています。T5のフォーカスは精度よりもtext-to-textの構造にありながらSotAを出すに至った背景としては、この辺のデータセットの充実もあるのではと考えられます。

To facilitate future work on transfer learning for NLP, we release our dataset, pre-trained models, and code.

和訳:『言語処理における転移学習の将来研究を容易にするために、我々はデータセット、事前学習モデル、及びコードをリリースした。』
近年の他の研究と同様に、データセットや事前学習モデル、コードが公開されているとのことです。


2. まとめ
#26ではT5(Text-to-Text Transformer)についての論文である、"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"のAbstractを確認し、論文の概要を掴みました。
#27では引き続き論文の内容を確認していきます。