T5(Text-toText Transfer Transformer)⑤（Section4_Reflection）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #30

f:id:lib-arts:20191125191712p:plain

言語処理へのDeepLearningの導入をご紹介するにあたって、#3〜#8においては、Transformer[2017]やBERT[2018]について、#9~#10ではXLNet[2019]について、#11~#12ではTransformer-XL[2019]について、#13~#17ではRoBERTa[2019]について、#18~#20ではWord2Vec[2013]について、#21~#24ではALBERT[2019]について取り扱ってきました。

BERTリポジトリのサンプル実行の流れ｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #6 - lib-arts’s diary

XLNet②（事前学習におけるAutoRegressiveとPermutation）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #10 - lib-arts’s diary

Transformer-XL（論文のAbstractの確認）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #12 - lib-arts’s diary

RoBERTa（論文の詳細④ RoBERTa、Related Work、Conclusion）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #17 - lib-arts’s diary

Word2Vec②（Model Architectures＆New Log-linear Models）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #19 - lib-arts’s diary

ALBERT③（The Elements of ALBERT）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #23 - lib-arts’s diary

#26以降では事前学習モデルにおいてSotAを達成した2019年10月のT5(Text-to-Text Transformer)について確認するにあたり、"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"について取り扱っていきます。

[1910.10683] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

#29ではSection3のSetupの内容を確認しました。
https://lib-arts.hatenablog.com/entry/nlp_dl29
#30ではSection4のReflectionの内容を確認します。
以下目次になります。
1. Reflection(Section4)
1-1. Takeaways(Section4-1)
1-2. Outlook(Section4-2)
2. まとめ

1. Reflection(Section4)
まずはSection4の冒頭部について確認します。

f:id:lib-arts:20191224151826p:plain

Section4のReflectionはConclusionと同様の意味で用いられています。普段ならConlusionは飛ばすのですが、T5の論文は比較実験のまとめ的な意味合いも強いので、こちらも確認していくことにします。冒頭部の記載では、いくつかの重要なfindingsについて振り返り、同様の研究における有用なアプローチに関するトピックの取りまとめをおこなうとされています。

1-1. Takeaways(Section4-1)
1-1節ではSection4-1のトピックからいくつかピックアップして取り扱います。

f:id:lib-arts:20191224152618p:plain

まず、上記のText-to-Textですが、T5において導入したText-to-Textのフレームワークは全てのdownstream tasksに対して同じ誤差関数(loss function)とデコードの手順(decoding procedure)を用いたシンプルな手法であるのにも関わらず、通常のタスク特化の構造と同等の(comparable)パフォーマンスを示し、規模を大きくすることでSotAを実現したとされています。タスクの内容までTextに加えてしまうことで問題を抽象化するというのはアイデアとして非常に面白いですが、それに基づいて性能まで実現したという内容になっており非常に興味深いです。

f:id:lib-arts:20191224153120p:plain

上記のDatasetsではC4(Colossal Clean Crawled Corpus)について言及されています。事前学習における教師なし学習に同じデータセットをずっと用いて学習させるとモデルの性能が落ちる(degrade)とされているので、C4のような大きくて多様なデータセットを用いる有用性について示されています。

f:id:lib-arts:20191224153424p:plain

上記のPushing the limitsでは様々な洞察を組み合わせて最終的なアウトプットを作成したとされています。強化学習のRainbow[2017]はいくつかの洞察を組み合わせたreplication studyとなっていましたが、T5にも同様の点はありそうです。

1-2. Outlook(Section4-2)
1-2節ではSection4-2のOutlookのトピックから二点をピックアップして確認します。

f:id:lib-arts:20191224153938p:plain

上記のThe inconvenience of large modelsでは、T5の研究における調査で大きなモデルがより良いパフォーマンスを出す傾向にあったが、client-sideでの実行のようにアプリケーションの制約上より小さくて計算コストの低いモデルが有用なケースもあることについて触れられています。

f:id:lib-arts:20191224154501p:plain

上記のMore efficient knowledge extractionでは、事前学習(pre-training)の目的がdownstream tasksを解くにあたっての汎用的な知識(general-purpose knowledge)を得ることにあると述べた上で、現状の方法が必ずしも良い方法ではないだろうと述べられています。T5のGLUEのベンチマークを上回ったERINEはwordnetのような言語のentityを利用しているようなので、この辺が若干反映されているようにも思われます(ERINEについては#31以降で確認していきます)。

2. まとめ
#30ではT5(Text-to-Text Transformer)についての論文である、"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"のSection4のReflectionを確認しました。
#31からはERNIE(ERNIE: Enhanced Representation through Knowledge Integration)について見ていきます。