Sequence to Sequence Learning with Neural Networks|DeepLearning論文の原文を読む #20
#19はYOLOについて取り扱いました。
#20ではGoogle翻訳に導入して精度が上がったと一時期話題になった系列変換モデルであるSequence to Sequence(Seq2Seq)について取り扱います。(必要以上に固く書きたくなく90%〜95%程度の確信度で書きますので、もし間違いなどがあれば気軽にご指摘いただけたらと思います。)
[1409.3215] Sequence to Sequence Learning with Neural Networks
以下論文の目次です。基本的な書き方の流れとしてはAbstractは和訳&補足、それ以外の章に関しては要約を中心にまとめます(省く章もあるかもしれません)
0. Abstract
1. Introduction
2. The model
3. Experiments
4. Related work
5. Conclusion
0 Abstract
Abstractは論文の要旨がまとまっているので一文ずつ精読していければと思います。
Deep Neural Networks (DNNs) are powerful models that have achieved excellent performance on difficult learning tasks. Although DNNs work well whenever large labeled training sets are available, they cannot be used to map sequences to sequences.
和訳:『深層ニューラルネットワーク(DNN)は難解な学習タスクにおいて非常に良い成果を出した強力なモデルであるが、DNNはラベル付けされた大規模データセットが利用可能な時はうまくいく一方で、系列から系列へのマッピングにおいて用いることができない。』
上記ではDeepLearningの成功に対してフォーカスすると共に、今回のテーマである系列変換モデルに取り組むにあたっての従来の課題についてまとまっています。
In this paper, we present a general end-to-end approach to sequence learning that makes minimal assumptions on the sequence structure. Our method uses a multilayered Long Short-Term Memory (LSTM) to map the input sequence to a vector of a fixed dimensionality, and then another deep LSTM to decode the target sequence from the vector.
和訳:『この論文において、我々は系列(sequence)の構造に最小の過程を置くというend-to-endで汎用的な系列学習のアプローチを提唱する。我々の手法はインプットの系列を固定長のベクトルにマッピングする多層のLSTMと、その後ベクトルからターゲットの系列をデコードするもう一つのLSTMを用いている。』
ここでは系列変換にあたって、二つのLSTMを用いていると言及されています。それに関しては冒頭の画像であるFigure1に概要が図示されており、エンコード用のLSTMに入力文(翻訳元の文)を入れ、デコード用のLSTMから出力文(翻訳後の文)を取り出しています。
Our main result is that on an English to French translation task from the WMT'14 dataset, the translations produced by the LSTM achieve a BLEU score of 34.8 on the entire test set, where the LSTM's BLEU score was penalized on out-of-vocabulary words. Additionally, the LSTM did not have difficulty on long sentences. For comparison, a phrase-based SMT system achieves a BLEU score of 33.3 on the same dataset. When we used the LSTM to rerank the 1000 hypotheses produced by the aforementioned SMT system, its BLEU score increases to 36.5, which is close to the previous best result on this task.
和訳:『我々の行なったメインの実験結果はWMT'14のデータセットを用いた英語からフランス語の翻訳タスクで、LSTMによって生成された翻訳はテストセット全体において34.8のBLEUのスコアが出た(LSTMのBLEUスコアは語彙にない単語によってもペナルティが与えられている)。さらに、LSTMは長文においても困難が生じず、同じデータセットを用いて33.3のBLUE値を獲得したフレーズベースのSMTシステムと同様だった。前述のSMTシステムによって生成された1,000の仮説を再ランクするLSTMを用いることで、BLEUスコアは36.5まで増加し、同様のタスクにおいてこれまでのSOTAに近い結果となった。』
BLEUスコアとはBilingual Evaluation Understudyのことで、出力された翻訳と参照訳の類似度を計算したものです。
http://www.anlp.jp/proceedings/annual_meeting/2004/pdf_dir/P4-8.pdf
上記の3.1より画像は拝借しました。
The LSTM also learned sensible phrase and sentence representations that are sensitive to word order and are relatively invariant to the active and the passive voice. Finally, we found that reversing the order of the words in all source sentences (but not target sentences) improved the LSTM's performance markedly, because doing so introduced many short term dependencies between the source and the target sentence which made the optimization problem easier.
和訳:『LSTMは懸命な言い回しや語順に敏感で能動受動で相対的に変化しない文の表現も学習する。最後に入力文において語順を逆転させることでLSTMの精度を著しく向上させたが、これは最適化問題を簡易化するにあたって入力と出力の文の間の多くの短期的な依存関係を導入したからだと思われる。』
語順逆転については2節のThe Modelや3.3のReversing the Source Sentencesでも言及されています。
1. Introduction
1stパラグラフではDeepLearningの成功についての歴史的経緯について言及されています。2ndパラグラフでは従来のDNNの制約(limitation)として系列データの取り扱いについて言及し、系列変換(sequence to sequence)のモデルが有用であることについて述べています。3rdパラグラフでは、論文の提案手法としてLSTMを拡張して二つのLSTMを用いてデータの入力と出力をそれぞれ取り扱うモデルについて言及されています。4thパラグラフでは関連研究について言及されています。5th〜7thパラグラフでは実験におけるパフォーマンスについて言及されています。8thパラグラフでは考察としてVectorの形式でインプットの系列を取り扱えるなどについて言及されています。
2. The model
2節ではモデルについて簡単な数式で表現されています。
上記のようにRNNの数式と言語モデルの数式がまとまっています。特に3番目の式は系列の出現確率ではなくそれぞれの単語の出現確率の積(同時確率)に落としているところは言語モデルのよくある論理展開なので注意が必要です。ここにマルコフ性(周辺単語のみを元に次の単語を考える)なども仮定することもありますが、今回ケースでは言及されていないようです。(とはいえ、長文や複数文の際は文単位で仮定している可能性もあります)
また後半部分では先行研究との差分として、(1)2種類のLSTMを用いたこと、(2)DeepLSTMを用いたこと、(3)語順を逆転させたことについてまとまっていました。
詳細についての言及は他の論文に比較しても少々少ない印象だったので、詳しくは実装などを確認するのが良いかと思われます。
3. Experiments
『WMT’14 English to French MT task』を用いて実験を行なったとされています。
3.1ではデータセットについて言及されており、3.48億語のフランス語の単語と3.04億語の英語の単語で構成された1,200万文がデータセットに含まれているとされています。単語の取り扱いとしては、入力側は16万、出力側は8万の単語のみを取り扱い残りはUnknownということでUNKで表すとされています。
3.2では出力文へのデコードとスコアの計算などについて言及されています。3.3では入力文の語順変形についてまとめられています。3.4では学習にあたっての詳細についてまとめられています。
残りは省略しますが、BLEUスコアの比較と出力された文のサンプルを参考として貼っておきます。
4. Related work
機械翻訳(MT; Machine Translation)について諸々の関連研究がまとまっています。
5. Conclusion
省略します。