WaveNet: A Generative Model for Raw Audio|DeepLearning論文の原文を読む #9

f:id:lib-arts:20190130170907p:plain

DeepLearning系の研究を中心に論文の読解メモをまとめていきます。
エポックになった有名どころの論文を精読し、所感などをまとめられればと思います。
(必要以上に固く書きたくなく90%〜95%程度の確信度で書きますので、もし間違いなどがあれば気軽にご指摘いただけたらと思います。)

#9では音声の生成モデルとしてWaveNetについて取り扱います。中で扱われている考え方が音声だけではなく時系列全般に応用可能なような気がするのでその視点も持った上で読むのが良いのではと思います。

[1609.03499] WaveNet: A Generative Model for Raw Audio


以下論文の目次です。基本的な書き方の流れとしてはAbstractは和訳&補足、それ以外の章に関しては要約を中心にまとめます(省く章もあるかもしれません)

0. Abstract
1. Introduction
2. WaveNet
3. Experiments
4. Conclusion


0. Abstract

This paper introduces WaveNet, a deep neural network for generating raw audio waveforms.

和訳:『この論文では生の音声の波形を生成するDNNのモデルであるWaveNetを紹介する。』

この論文の主題(メインテーマ)について言及されています。ここではWaveNetは生成モデルであるとされています。

The model is fully probabilistic and autoregressive, with the predictive distribution for each audio sample conditioned on all previous ones; nonetheless we show that it can be efficiently trained on data with tens of thousands of samples per second of audio.

和訳:『WaveNetモデルは確率的かつ自己回帰的で、何万秒という音声のデータから効率的に学習されたのにも関わらずそれぞれの音声サンプルの分布を予測できる。』

probabilisticは生成モデルは確率分布の形で生成されるという文脈でよく出てくるのと、今回が系列データの生成のためAutoRegressive(自己回帰)について出てきていると思われます。時系列モデルのベースとして用いられるARモデルはAutoRegressiveから取られているので、その辺も意識すると良いかと思われます。(和訳が若干怪しいのでまた見直せればと思います。)

When applied to text-to-speech, it yields state-of-the-art performance, with human listeners rating it as significantly more natural sounding than the best parametric and concatenative systems for both English and Mandarin.

和訳:『Text-to-Speechタスクに応用した際に、人間が聞いた際の判定でSOTAの性能を出し、具体的には英語と中国語の双方においてもっとも良い性能であるとされた。』

若干意訳していますが文意は取れているかと思います。こちらは実際に出てきた結果のパフォーマンスについて言及されています。

A single WaveNet can capture the characteristics of many different speakers with equal fidelity, and can switch between them by conditioning on the speaker identity.

和訳:『WaveNetは話者の特徴を掴むことができ、話者の属性を条件づけることによって話者を変換することができる。』

話者の特徴を掴むことができることについて言及されています。注目したい表現としてはcharacteisticsで表されている「特徴」と、conditioningで表されている「〜の条件において」などがあるかと思います。特にconditionは条件付き確率が関連する話でよく出てきますので必見です。(具体的には言語モデル、生成モデルなどは条件付き確率で表現されることが多いです。)

When trained to model music, we find that it generates novel and often highly realistic musical fragments. We also show that it can be employed as a discriminative model, returning promising results for phoneme recognition.

和訳:『音楽についてのモデルを学習した際に実際の音源に近い音楽的な旋律を生成した。我々は識別モデルにおける良い結果も示すことができた』

生成モデルだけでなく、識別モデル(discriminative model)としての性能も高い点について言及されています。DCGANなどでも言及されていますが、生成モデルのパフォーマンス測定を識別モデルで行うというのも一つの方法なようです。


1. Introduction

パラグラフ単位で要旨を取っていければと思います。
1stパラグラフでは研究の紹介として、画像などで成功したNeural AutoRegressive Modelに刺激を受けて行った、音声生成(raw audio generation)についての探究だとまとめられています。
2ndパラグラフも1stパラグラフと要旨としては同様のようです。
3rdパラグラフは論文のメインの成果(contributions)の4点についてまとめられています。それぞれ具体的には、「TTS(text-to-speech)タスクにおける過去最高の成果を出した」、「dilated causal convolutionsという音声のような時間依存のデータを取り扱うための新しいモデル構造を開発した」、「話者を変換できるモデルであることを示した」、「モデル構造が音声認識においても良い結果を出すものであった」の4点です。
4thパラグラフはちょっとした宣伝的にbelieveが使われており、Introductionの締めとされています。 


2. WaveNet

2節ではWaveNetのモデルに関しての情報が諸々まとまっています。
まず(1)式で条件付き確率の積(product of conditional probabilities)の形式で記述されています。こちらについては言語モデルの大元の式と同じなので、比較して捉えておくと良いかと思います。2.1節では、論文のcontributionの一つとされたdilated causal convolutionについてまとめられています。causalは因果の意味で、becauseなどと対比で理解すると良いと思います。音声モデルのような系列モデリングにおいては未来から遡らないようにこのような畳み込みの方式を用います。Figure2でベーシックなcausal convolutionが書かれていますが、これだと過去の情報を遡るにあたって(知覚できる範囲のことをreceptive fieldと呼ぶ)、大量にニューラルネットワークの層を構築しなくてはならないので、冒頭で貼ったFigure3のような形式にすることで層(layer)を増やす際に指数関数状にreceptive fieldを大きくできるようにというのがdilated causal convolutionの概要になります。
2.1がつかめれば大体の流れはわかるので、2.2節以降は後日必要があれば追記します。


3. Experiments

様々な実験などについての情報がまとまっています。
3.1と3.2では音声生成に関してまとまっており、3.2では実際にMOS(Most Opinion Score; 5段階評価の平均スコア)での評価結果がまとまっています。

f:id:lib-arts:20190130190835p:plain

Table1によると、実際に人間の音声ほどのスコアは出ていないですが、比較対象のモデルを上回っていることが確認できます。また、Figure5ではSubjective preference scoresについての比較結果についてまとまっており、こちらでもモデルの比較についての情報がまとまっています。
3.3節では音楽の生成に関して、3.4では音声認識についてまとまっており、3.4ではTIMITデータセットでの実験の結果が著者の方が知る限りではベストだったと言及されています。


4. Conclusion

省略します。