Dual GAN(概要の把握)|DeepLearningを用いた生成モデルの研究を俯瞰する #3

f:id:lib-arts:20191203203253p:plain

当シリーズでは生成モデルの研究や実装にもフォーカスをあてられればということで、進めていきます。

GitHub - eriklindernoren/PyTorch-GAN: PyTorch implementations of Generative Adversarial Networks.

上記に様々なPyTorch実装や論文のリンクがまとめられていたので、こちらを参考に進めていくのが良いのではと思っています。
#1ではACGANの概要について、#2はBicycle GANについて取り扱いました。

Auxiliary Classifier GAN(概要の把握)|DeepLearningを用いた生成モデルの研究を俯瞰する #1 - lib-arts’s diary

Bicycle GAN(概要の把握)|DeepLearningを用いた生成モデルの研究を俯瞰する #2 - lib-arts’s diary

#3ではDual GAN(Unsupervised Dual Learning for Image-to-Image Translation)について取り扱います。基本的にCycleGANと同様のアプローチを取っているようなので、その辺を意識しながら読んでいくと良さそうです。

[1704.02510] DualGAN: Unsupervised Dual Learning for Image-to-Image Translation

以下目次になります。
1. Dual GANの概要(Abstract、Introductionの確認)
1-1 Abstractの確認
1-2 Introductionの確認(Section1)
2. 論文の重要なポイントの抜粋
2-1. Related Work(Section2)
2-2. Method(Section3)
2-3. Experimental results and evaluation(Section4)
2-4. Qualitative evaluation(Section5)
2-5. Conclusions(Section6)
3. まとめ


1. Dual GANの概要(Abstract、Introductionの確認)
1-1 Abstractの確認
まず1節では論文の概観を掴むにあたって、Abstractを確認していきます。

f:id:lib-arts:20191203203703p:plain

[1704.02510] DualGAN: Unsupervised Dual Learning for Image-to-Image Translation

f:id:lib-arts:20191203203727p:plain

以下簡単にAbstractを要約します。
要約:『ドメイン間の画像変換への条件付き敵対的生成ネットワークの適用は、近年大きな発展を遂げてきている。タスクの複雑さという理由からconditinal GANは多くの学習データセットを必要としているが、人間がアノテーションを行うのは高価で実用的ではない場合もある。言語処理における機械翻訳のdual learningを参考に、我々は新しいdual-GANのメカニズムを開発し、二つのドメインのラベルづけされてないデータを元に学習を行えるようにした。通常のGANではドメインUからドメインVの変換をするが、Dual GANではその反転も取り扱っている。これによりモデルはループ構造になるため、誤差関数として画像の再構成の誤差(reconstruction errorof images)を考慮している。』


1-2 Introductionの確認(Section1)
1-2ではIntroductionの確認を行っていきます。以下パラグラフ単位でリーディングを行なっていきます。

f:id:lib-arts:20191203205115p:plain

第一パラグラフでは、セグメンテーションなどの多くの画像処理のタスクは画像変換タスク(image-to-image translation problems)として取り扱うことができるものの、従来は別々に取り扱っていた一方で、FCN(Fully Convolutional Networks)やcGANs(conditional Generative Adversarial Nets)のように統合して取り扱えるフレームワークが2014〜2015年頃から出てきていることについて述べられています。

f:id:lib-arts:20191204171347p:plain

第二パラグラフでは、FCNやcGANsのような汎用的な目的での手法はラベルをつけたり合致する画像のペアを用意したりという意味で教師あり学習(supervised learning)であり、学習データを用意するのに非常に時間がかかるとされています。

f:id:lib-arts:20191204171404p:plain

第三パラグラフでは、DualGANの論文における取り組みとして、汎用的な目的で用いることができる画像変換(image-to-image translation)の教師なし学習(unsupervised learning)の枠組みを開発することを目指したとされています。教師なし学習にすることで、二つのグループにおけるデータ群を用意するだけで良くなるようにしたとされています。

f:id:lib-arts:20191204172258p:plain

f:id:lib-arts:20191204172314p:plain

第四パラグラフでは、DualGANのアプローチは機械翻訳における2016年の論文である、"Dual learning for machine translation."を参考にしたとされています。この論文のタイトルにあるDual learningからとって、DualGANにしたとされています。

 

f:id:lib-arts:20191204172720p:plain

第五パラグラフでは、DualGANの学習の仕組みについて簡単な言及がされています。2つのドメイン間の変換を同時に学習するとされています。詳しくはSection3で説明されています。


2. 論文の重要なポイントの抜粋
2-1. Related Work(Section2)

f:id:lib-arts:20191204173430p:plain

上記のように、originalのGAN(Goodfellow)やconditional GANについて参照したのちに、Dual learningについて、"Dual learning for machine translation."などを参照しています。

f:id:lib-arts:20191204173453p:plain

(中略)

f:id:lib-arts:20191204173521p:plain

また上記のように同時期に出されたCycleGANと同様のアプローチだということについても言及されています。CycleGANの方が1ヶ月先に公開されていることと、当記事の投稿時の引用数がCycleGANが3,000強、DualGANが500強となっていることから一般的な認知としてはCycleGANの方が大きいようです。こちらについては生成モデルの研究は2017年頃は非常に流行っていたようなので、研究テーマが被ってしまったように思われます。


2-2. Method(Section3)

f:id:lib-arts:20191204174144p:plain手法の大枠については上記の論文のFigure1から読み取ることができます。基本的にはCycleGANと同様のネットワークの全容になっています。


2-3. Experimental results and evaluation(Section4)
省略します。


2-4. Qualitative evaluation(Section5)

f:id:lib-arts:20191204174931p:plain

上記のような比較がされています。


2-5. Conclusions(Section6)
省略します。


3. まとめ
#3ではDualGAN(Unsupervised Dual Learning for Image-to-Image Translation)について取り扱いました。CycleGANと基本的に同様だったので、詳細についてはいくつか省略しました。
#4ではSemi-Supervised GAN(Semi-Supervised Generative Adversarial Network)について取り扱います。

[1606.01583] Semi-Supervised Learning with Generative Adversarial Networks