ALBERT①(論文のAbstractの確認)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #21
言語処理へのDeepLearningの導入をご紹介するにあたって、#3〜#8においては、Transformer[2017]やBERT[2018]について、#9~#10ではXLNet[2019]について、#11~#12ではTransformer-XL[2019]について、#13~#17ではRoBERTa[2019]について、#18~#20ではWord2Vec[2013]について取り扱ってきました。
Transformer-XL(論文のAbstractの確認)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #12 - lib-arts’s diary
#21以降ではGLUEベンチマークにおいてRoBERTa[2019]を上回ってSotAとなった2019年9月に発表されたALBERTについて確認していきます。
[1909.11942] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
#21では上記のALBERT[2019]の論文の"ALBERT: A Lite BERT for Self-supervised Learning of Language Representations"のAbstractを確認し、論文の概要を掴んでいきます。
以下目次になります。
1. ALBERTの概要の把握(Abstractの把握)
2. まとめ
1. ALBERTの概要の把握(Abstractの把握)
Increasing model size when pretraining natural language representations often results in improved performance on downstream tasks.
和訳:『言語表現(natural language representations)の事前学習におけるモデルのサイズの増大はしばしばfinetuningを行うタスク(downstream task)のパフォーマンスの改善の結果につながる。』
downstream taskに関する良い訳語が思いつかなかったので、少々意訳を行いました。BERT系の論文においてはpretraningとdownstream taskへの学習であるfinetuningが対比的に用いられていることは抑えておくと良いです。
このdownstream taskにおけるパフォーマンスの向上にあたってモデルを大きくすることがベンチマークの改善につながっているとされています。
However, at some point further model increases become harder due to GPU/TPU memory limitations, longer training times, and unexpected model degradation.
和訳:『しかしながらモデルの増大は、GPUやTPUのメモリ限界、学習時間の長期化、予期しないモデルの劣化(degradation)によって、ある時点で困難になる。』
1文目で示したモデルのサイズの増大によるアプローチの可能性に対し、マイナス面を指摘しています。論文では、「一般的な成功->そのマイナス面->解決策」という論理展開がよく出てきますが、howeverなどの逆接が出てきたらその可能性を考慮すると良いです。
To address these problems, we present two parameter-reduction techniques to lower memory consumption and increase the training speed of BERT.
和訳:『これらの問題に取り組むにあたって、我々はメモリ消費を抑えBERTの学習スピードを上げるために二つのパラメータ削減の技術(parameter-reduction techniques)を提案する。』
「一般的な成功->そのマイナス面->解決策」としましたが、解決策として"two parameter-reduction techniques"が提案されています。このような論理展開はよく出てくるので、抑えておくと良いと思います。
Comprehensive empirical evidence shows that our proposed methods lead to models that scale much better compared to the original BERT.
和訳:『包括的なevidenceによって、我々の手法がoriginalのBERTと比較した際によりスケールが可能になったことを示している。』
comprehensiveとempiricalがどちらも"包括的な"という意味なので、少々被っている印象は受けました。とにかく、BERTの計算コストを下げることでスケール可能にしたというのがここで強調されているポイントです。
We also use a self-supervised loss that focuses on modeling inter-sentence coherence, and show it consistently helps downstream tasks with multi-sentence inputs.
和訳:『inter-sentence coherenceのモデリングにフォーカスするself-supervised誤差関数を用い、multi-sentenceの入力のdownstream tasksを補助している。』
この文がAbstract段階ではいまいち読み取れませんでしたが、新しい言葉が多く出てくるので、Main Contributionの説明がされるときに解説されると思われます。変に訳語で誤解を生まないように、キーワードは英語のまま残しておきました。
As a result, our best model establishes new state-of-the-art results on the GLUE, RACE, and SQuAD benchmarks while having fewer parameters compared to BERT-large.
和訳:『結果として、我々のベストなモデルはBERT-largeに比較してより少ないパラメータを用いながら、GLUE、RACE、SQuADなどのベンチマークにおいて新しいSotAを実現した。』
Abstractの最終文では、ALBERTのパフォーマンスについて総括されています。BERT-largeよりも少ないパラメータでSotAが達成されているので、実用上の期待も大きいモデルだと考えて良さそうです。
2. まとめ
#21ではALBERT[2019]の論文である"ALBERT: A Lite BERT for Self-supervised Learning of Language Representations"のAbstractの内容を確認しました。軽量化と精度向上の双方を実現した実用性においても期待できそうなモデルで、キーワードとして"self-supervised loss"や"inter-sentence coherence"、"multi-sentence inputs"などを抑えておくと良さそうでした。
#22では論文のIntroductionとRelated Workを確認していければと思います。