Progressive Growing of GANs①（Abstract＆Introduction）｜Style Transferの研究を俯瞰する #7

f:id:lib-arts:20200123211457p:plain

2019年にNVIDIAが公開して話題になったStyle GANにもあるように、生成モデルへのStyle Transferの研究の導入が注目されています。当シリーズではそれを受けて、Style Transferの研究を俯瞰しながらStyle GANやStyle GAN2などの研究を取り扱っていきます。
#1、#2ではStyle Transfer関連の初期の研究である、Image Style Transferについて、#3、4ではAdaINについて、#5、#6ではStyleGANについて取り扱いました。

AdaIN①（Abstract＆Introduction）｜Style Transferの研究を俯瞰する #3 - Liberal Art’s diary

StyleGAN①（Abstract＆Introduction）｜Style Transferの研究を俯瞰する #5 - Liberal Art’s diary

#7以降ではStyleGANの研究でベースラインとして比較されていたPGGAN(Progressive Growing of GANs for Improved Quality, Stability, and Variation)について取り扱います。

[1710.10196] Progressive Growing of GANs for Improved Quality, Stability, and Variation

#7ではAbstractとIntroductionの確認を行います。
以下目次になります。
1. Abstract
2. Introduction(Section1)
3. まとめ

1. Abstract
1節ではAbstractの内容を確認しながら概要について把握します。以下各文の和訳などを通して簡単に内容を確認します。

We describe a new training methodology for generative adversarial networks. The key idea is to grow both the generator and discriminator progressively: starting from a low resolution, we add new layers that model increasingly fine details as training progresses.

和訳：『我々は、敵対的生成ネットワークの新しい学習手法を提案する。手法の鍵となるアイデアは生成ネットワーク(Generator)と識別ネットワーク(Discriminator)が徐々に(progressively)学習していくことであり、それはどちらのネットワークも低い解像度の画像の取り扱いから始めモデルに徐々に層を追加していくという学習を意味している。』
2文目のadd new layers thatの構文がいまいち読み取れなかったですが、意味的には問題ない和訳となっていると思います。敵対的生成ネットワーク(GAN)の学習はminimax的なlossを用いて収束させることがなかなか難しく、そのため安定についての議論が多くなされます。この学習の安定や質の向上などを実現するにあたって、徐々に解像度を上げて学習していくProgressive Growing of GANsが提案されています。

This both speeds the training up and greatly stabilizes it, allowing us to produce images of unprecedented quality, e.g., CelebA images at 1024^2. We also propose a simple way to increase the variation in generated images, and achieve a record inception score of 8.80 in unsupervised CIFAR10.

和訳：『(解像度を徐々に上げて学習させる手法を用いることで)学習の高速化と安定化ができ、1024×1024の解像度におけるCelebAデータセットのような前例のないほど高品質な画像を生成することに成功した。我々は同時に生成イメージの多様化を行うためのシンプルな手法も実現することができ、unsupervised CIFAR10において8.80のinception scoreを記録した。』
問題を最初は簡単に設定し、徐々に難しくしていくという形式を用いることで、学習の高速化や安定化ができるというのは直感的なイメージもつきやすいと思います。VGGNetなどでは層を深くするにあたって、徐々に層を追加しfinetuningを行なっていたとされていましたが、発想自体は同様だと考えて良いと思います。

Additionally, we describe several implementation details that are important for discouraging unhealthy competition between the generator and discriminator. Finally, we suggest a new metric for evaluating GAN results, both in terms of image quality and variation. As an additional contribution, we construct a higher-quality version of the CelebA dataset.

和訳：『さらに、我々は生成ネットワーク(Generator)と識別ネットワーク(Discriminator)の間の望ましくない競争を減らすにあたって重要となるいくつかの細かい実装についても提案している。最終的に、我々はGANの結果の評価にあたって画質と画像の多様さの双方を踏まえた新しい指標を提案している。さらなる貢献として、我々はより高い品質のCelebAのデータセットを構築している。』
この辺の詳細について後述されていると思われます。

2. Introduction(Section1)
2節ではSection1のIntroductionについて確認します。以下パラグラフ単位で確認していきます。

f:id:lib-arts:20200123215221p:plain

第一パラグラフでは、新しいサンプルを生成する生成モデルに関するタスクや手法について紹介されています。タスクとしては、音声合成(speech synthesis)、画像変換(image-to-image translation)などがあげられています。また、手法としては近年よく用いられている手法として、ARモデル(Autoregressive model)、VAE、GANの三つが紹介されています。

f:id:lib-arts:20200123215243p:plain

f:id:lib-arts:20200123215258p:plain

第二、第三パラグラフでは、簡単に第一パラグラフの追加情報がまとめられています。

f:id:lib-arts:20200123215325p:plain

第四パラグラフでは、高解像度の画像(high-resolution images)は(評価基準が多すぎることで)Generatorの出力が学習画像と違ったものになりがちだという問題について言及した上で、この論文における主要な洞察(key insight)として、GeneratorとDiscriminatorを低い解像度から高い解像度まで漸近的に(progressively)するというアイデアが記載されています。これによって学習の高速化と高解像度の画像における画像の安定化につながるとされています。

f:id:lib-arts:20200123220614p:plain

第五、第六パラグラフは詳細の話、第七パラグラフは評価の話についてまとめられています。評価にあたっては、CIFAR10やCelebAのような通常の評価に用いられるデータセットは解像度が低いことから、1024×1024の高解像度のCelebAのデータセットを用意したとされています。

3. まとめ
#7ではProgressive Growing of GANs(Progressive Growing of GANs for Improved Quality, Stability, and Variation)の概要を掴むにあたって、AbstractとIntroductionの内容を確認しました。
#8では引き続き、Section2のPROGRESSIVE GROWING OF GANS以降を確認していきます。