Transformer-XL(論文のAbstractの確認)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #11

f:id:lib-arts:20190816211709p:plain

言語処理へのDeepLearningの導入をご紹介するにあたって、#3〜#8においては、Transformer[2017]やBERT[2018]について、#9~#10ではXLNet[2019]について取り扱ってきました。

BERTリポジトリのサンプル実行の流れ|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #6 - lib-arts’s diary

BERTリポジトリのコードリーディング①(概要を掴む)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #7 - lib-arts’s diary

XLNet①(論文のAbstractの確認)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #9 - lib-arts’s diary

#11ではXLNetにおいて導入された考え方である、Transformer-XL[2019]について取り扱います。

[1901.02860] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

上記のAbstractをベースにTransformer-XL[2019]の概要について確認します。
以下目次になります。

1. Transformer-XLの概要の把握(Abstractの把握)
2. まとめ

 

1. Transformer-XLの概要の把握(Abstractの把握)
1節ではTransformer-XL(Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context)の概要の把握を行います。概要を掴むにあたっては、論文の重要な点は基本的にAbstractに記載されているのでAbstractを確認していきます。

f:id:lib-arts:20190816212024p:plain

[1901.02860] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
上記を元に1文ずつ和訳と解説を行なっていきます。

Transformers have a potential of learning longer-term dependency, but are limited by a fixed-length context in the setting of language modeling. We propose a novel neural architecture Transformer-XL that enables learning dependency beyond a fixed length without disrupting temporal coherence.

和訳:『Transformerはより長い系列の依存性を学習するポテンシャルを持つが、言語モデルを考える文脈において固定長に限定される。我々は一貫性を無くさずに固定長を超えて依存関係の学習を行うことのできるTransformer-XLという新しいニューラルネットの構造を提案する。』
Transformerにおいて固定長(fixed-length)が必要になるところを変動長にするにあたって、Transformer-XLについて提唱されています。ここで、Transformersがlonger-termの依存性を学習できるというように言及されていますが、こちらについてはLSTM(Long Short-Term Memory)などと同様にLongとTermが使われているので、比較対象としてなんとなく意識しているようにも思われます。Transformer(Attention Is All You Need)はLSTMなどのRNN系の再帰型の構造ではなくAttention構造を用いて長い系列データへの適応を高めたモデルです。

It consists of a segment-level recurrence mechanism and a novel positional encoding scheme. Our method not only enables capturing longer-term dependency, but also resolves the context fragmentation problem.

和訳:『Transformer-XLは、セグメントレベルでの再帰的メカニズムかつ新しい位置情報のエンコードの仕組みで成り立っている。我々の手法はより長い系列の依存性を獲得することが可能になるだけでなく、文脈が分断の問題も解決する。』
この辺が手法のメインのアイデアで、Section3のModelでまとめられています。詳細については#12で取り扱います。

As a result, Transformer-XL learns dependency that is 80% longer than RNNs and 450% longer than vanilla Transformers, achieves better performance on both short and long sequences, and is up to 1,800+ times faster than vanilla Transformers during evaluation.

和訳:『結果として、Transformer-XLはRNNよりも80%、vanilla Transformersよりも450%長い依存関係を学習し、様々な長さの系列に対しより良いパフォーマンスを示し、推論においてvanilla Transformersよりも1,800倍以上速い。』
Transformer-XLのパフォーマンスについて記されています。

Notably, we improve the state-of-the-art results of bpc/perplexity to 0.99 on enwiki8, 1.08 on text8, 18.3 on WikiText-103, 21.8 on One Billion Word, and 54.5 on Penn Treebank (without finetuning).

和訳:『特に、bpc/perplexityの指標で評価した際に、enwiki8において0.99、text8において1.08、WikiText-103において18.3、One Billion Wordにおいて21.8、Penn Treebankにおいて54.5の結果となり、SOTAを更新した。』
こちらについてもTransformer-XLのパフォーマンスについて記されています。様々なデータセットに対するベンチマークということで、WikipediaやPenn Treebank(PTB)の結果について言及されています。

When trained only on WikiText-103, Transformer-XL manages to generate reasonably coherent, novel text articles with thousands of tokens. Our code, pretrained models, and hyperparameters are available in both Tensorflow and PyTorch.

和訳:『WikiText-103のみで学習した際に、Transformer-XLは何千もの単語を含んだ合理的に一貫性がある新規のテキスト記事を生成した。我々の実装や学習済みモデル、ハイパーパラメータはTensorFlowとPyTorchの両方で入手可能である。』
実装に関しては下記が注釈で載っています。こちらを著者実装と考えて良さそうです。

GitHub - kimiyoung/transformer-xl

2. まとめ
#11ではTransformer-XL(Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context)の概要を掴むにあたって、Abstractの和訳と簡単な補足を行いました。
#12では同じくTransformer-XLより、Section3のModelについて取り扱います。