ALBERT②（Introduction&Related Work）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #22

f:id:lib-arts:20191010182154p:plain

言語処理へのDeepLearningの導入をご紹介するにあたって、#3〜#8においては、Transformer[2017]やBERT[2018]について、#9~#10ではXLNet[2019]について、#11~#12ではTransformer-XL[2019]について、#13~#17ではRoBERTa[2019]について、#18~#20ではWord2Vec[2013]について取り扱ってきました。

Transformer-XL（論文のAbstractの確認）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #12 - lib-arts’s diary

RoBERTa（論文の詳細④ RoBERTa、Related Work、Conclusion）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #17 - lib-arts’s diary

Word2Vec②（Model Architectures＆New Log-linear Models）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #19 - lib-arts’s diary

#21以降ではGLUEベンチマークにおいてRoBERTa[2019]を上回ってSotAとなった2019年9月に発表されたALBERTについて確認していきます。

[1909.11942] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

#21では上記のALBERT[2019]の論文の"ALBERT: A Lite BERT for Self-supervised Learning of Language Representations"のAbstractを確認し、論文の概要を掴みました。

ALBERT①（論文のAbstractの確認）｜言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #21 - lib-arts’s diary

#22ではSection1のIntroductionとSection2のRelated Workについて取り扱えればと思います。
以下目次になります。

1. Introduction(Section1)
2. Related Work(Section2)
2-1. Scaling up Representation Learning for Natural Language(Section2-1)
2-2. Cross-Layer Parameter Sharing(Section2-2)
2-3. Sentence Ordering Objectives(Section2-3)
3. まとめ

1. Introduction(Section1)
1節ではSection1のIntroductionについて取り扱います。以下パラグラフ単位で確認していきます。

f:id:lib-arts:20191011192114p:plain

第一パラグラフでは、言語処理において(BERTやXLNetなどの)pre-trainingが言語表現の学習に置いてブレークスルーを起こしたことについて言及されています。タスクとしてはreading comprehensionタスクとして中国の中学校や高校の英語の試験を集めたデータセットであるRACEについて言及されており、また手法として(Liu et al., 2019)とされているのがRoBERTaを引用しています。

f:id:lib-arts:20191011192713p:plain

第二パラグラフでは、pre-trainingにあたっての大きなネットワーク構造を利用することによって精度を上げることができていることについて言及されています。Abstractであったように、ALBERTでは処理の軽量化を試みており、その内容につながるように前提の論述が行われています。

f:id:lib-arts:20191011193157p:plain

第三パラグラフでは、モデルを大きくするにあたってハードウェアの制約があるとされています。モデルが数億〜数十億のパラメータで構成されているならば、モデルをスケールさせるにあたって限界に引っかかる可能性があることについて論じられています。

f:id:lib-arts:20191011193441p:plain

また、上記に記載されているように、BERT-largeに置いて隠れ層のサイズを二倍にするなどモデルを大きくすることで、結果が悪くなっていることについても記載がされています。

f:id:lib-arts:20191011194111p:plain

第四パラグラフでは、モデルの増大にあたっては並列処理やメモリの効率化によって、パフォーマンスの改善は図れるものの、オーバヘッドやモデルの劣化の問題は生じてしまうとされています。それに対し、論文においては軽量な(A Lite)BERTをデザインすることによって、これらの問題に対応しようとしたとされています。また、A Lite BERTということで、ALBERTと略しています。

f:id:lib-arts:20191011194539p:plain

第五パラグラフでは、ALBERTが二つのパラメータ削減の技術を用いたとされています。これによってBERT-largeのパラメータを18分の1に、速度を1.7倍にできたとされています。細かいテクニック面はMain Contribution部分に記載があると思われるので、ここでは飛ばします。

f:id:lib-arts:20191011194843p:plain

第六パラグラフでは、ALBERTのパフォーマンスをさらに向上させるにあたって、self-supervised lossを導入したとあります。こちらもMain Contribution部分に記載があると思われるので、ここでは流します。

f:id:lib-arts:20191011195114p:plain

第七パラグラフでは、ALBERTのパフォーマンス向上について記載されています。GLUE、SQuAD、RACEのデータセットでそれぞれパフォーマンスが記載されています。

2. Related Work(Section2)
2-1. Scaling up Representation Learning for Natural Language(Section2-1)
Section2-1の"Scaling up Representation Learning for Natural Language"では、言語処理における表現学習のスケーリングについて論述されています。以下、パラグラフ単位で確認していきます。

f:id:lib-arts:20191011200122p:plain

f:id:lib-arts:20191011200131p:plain

第一パラグラフでは、Word2Vec[2013]からBERTやXLNetなどの事前学習モデルまでの変遷について記載した上で、事前学習モデルにおけるモデルサイズとパフォーマンスの関係について記載されています。1024までは隠れ層のサイズを増やしても精度が上がっていたけれども、2048にするとモデルの劣化(degradation)が起きたとされています。したがって、言語処理における表現学習のスケールアップは単純にモデルのサイズを増大させるほど簡単ではないとされています。

f:id:lib-arts:20191011200933p:plain