T5(Text-toText Transfer Transformer)④(Section3_Experiments)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #29
言語処理へのDeepLearningの導入をご紹介するにあたって、#3〜#8においては、Transformer[2017]やBERT[2018]について、#9~#10ではXLNet[2019]について、#11~#12ではTransformer-XL[2019]について、#13~#17ではRoBERTa[2019]について、#18~#20ではWord2Vec[2013]について、#21~#24ではALBERT[2019]について取り扱ってきました。
BERTリポジトリのサンプル実行の流れ|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #6 - lib-arts’s diary
XLNet②(事前学習におけるAutoRegressiveとPermutation)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #10 - lib-arts’s diary
Transformer-XL(論文のAbstractの確認)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #12 - lib-arts’s diary
ALBERT③(The Elements of ALBERT)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #23 - lib-arts’s diary
#26以降では事前学習モデルにおいてSotAを達成した2019年10月のT5(Text-to-Text Transformer)について確認するにあたり、"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"について取り扱っていきます。
[1910.10683] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
#28ではSection2のSetupの内容を確認しました。
https://lib-arts.hatenablog.com/entry/nlp_dl28
#29ではSection3のExperimentsの内容を確認します。
以下目次になります。
1. Experiments(Section3)
1-1. Baseline(Section3-1)
1-2. Architectures(Section3-2)
1-3. Unsupervised objectives(Section3-3)
1-4. Pre-training dataset(Section3-4)
1-5. Training strategy(Section3-5)
1-6. Scaling(Section3-6)
1-7. Putting it all together(Section3-7)
2. まとめ
1. Experiments(Section3)
まずはSection3の冒頭部について確認します。以下パラグラフ単位で確認していきます。
第一パラグラフでは、transfer learningの近年の進歩を受けて、包括的な調査(empirical study)を行うことについて言及されています。
第二〜第四パラグラフではSection3-1〜Section3-7の内容と関連付けながら議論されているためここでは省略します。
1-1. Baseline(Section3-1)
Section3-1の冒頭部は上記のように、empirical studyにあたってのベースラインについて記載されています。基本的には事前学習(pre-training)には標準的なTransformerを用いていると考えて良さそうです。
Section3-1-1のModelでは、BaselineのModelについて言及されています。大元のTransformerやBERTと大きな違いはないようなので、この辺は読み流して良さそうです。
(以下略)
Section3-1-2のTrainingでは、学習にあたっての諸々が記載されています。まずモデル構造としてSection2-4で論述されたtext-to-textの形式を取ったとされています。また、データセットとしては事前学習にC4を用いたとされています。以下詳細の話が記載されています。
Section3-1-3のVocabularyでは、SentencePieceやWordPiece tokenについて言及されています。語彙としては32,000のwordpieceを用いているとされています。
Section3-1-4のUnsupervised objectiveでは、教師なし学習に用いる目的関数についての議論がされています。Figure2に図式化されており、この図はBERTの教師なし学習の目的関数として用いられたMasked Language Modelingを意味しています。
Section3-1-5のBaseline performanceでは、Baselineのパフォーマンスについて言及されています。上記のTable1に結果がまとめられており、Baselineの結果の平均や標準偏差についてそれぞれのベンチマークにおいて評価されています。
1-2. Architectures(Section3-2)
Section3-2の冒頭部は上記のように、オリジナルのTransformerがencoder-decoderの構造であることについて言及した上で、Section3-2では構造の類似系(variants)を比較していくとされています。Section3-2の内容はFigure3とFigure4とTable2にまとめられているので以下、この二つの図と表を参照します。
上記のFigure3では、Attention Maskについて可視化されています。Fully-visibleは全ての入力を出力の計算に用いるマスクになっている一方で、Causalは時系列でのみ用いていると考えると良いです。Causalは日本語では因果なので、一方向性だと考えておくと良さそうです。
上記のFigure4では、様々な形式のモデルのアーキテクチャについてまとめられています。左の図がオーソドックスなTransformerのアーキテクチャだと抑えておくと良いです。
上記のTable2ではFigure4で表された様々なArchitectureに関して、パフォーマンスの比較を行なっています。この中ではEncoder-decoderの形式の結果が一番良いものとなっています。
1-3. Unsupervised objectives(Section3-3)
図表を中心に確認します。
上記のTable4では事前学習(pre-training)における目的関数の比較を行なっているとされています。Table5ではBERT-styleの目的関数のマイナーチェンジをした上での比較を行なっています。以下省略します。
1-4. Pre-training dataset(Section3-4)
1-5. Training strategy(Section3-5)
1-6. Scaling(Section3-6)
長いので省略します。
1-7. Putting it all together(Section3-7)
全てを組み合わせた最終的な結果としては上記のようになったとされています。
2. まとめ
#29ではT5(Text-to-Text Transformer)についての論文である、"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"のSection3のExperimentsを確認しました。少々長かったので、途中は省略しました。
#30では引き続き論文の内容を確認していきます。