AdaIN②（Related Work以降の重要ポイント）｜Style Transferの研究を俯瞰する #4

f:id:lib-arts:20200117222649p:plain

2019年にNVIDIAが公開して話題になったStyle GANにもあるように、生成モデルへのStyle Transferの研究の導入が注目されています。当シリーズではそれを受けて、Style Transferの研究を俯瞰しながらStyle GANやStyle GAN2などの研究を取り扱っていきます。
#1、#2ではStyle Transfer関連の初期の研究である、Image Style Transfer(Image Style Transfer Using Convolutional Neural Networks)について取り扱いました。

Image Style Transfer②（Deep image representations以降の重要ポイント）｜Style Transferの研究を俯瞰する #2 - Liberal Art’s diary

#3、#4ではAdaIN(Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization)について取り扱います。

[1703.06868] Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization

#3ではAbstractとIntroductionの確認を行いました。

AdaIN①（Abstract＆Introduction）｜Style Transferの研究を俯瞰する #3 - Liberal Art’s diary

#4ではRelated Work以降の重要ポイントについて取り扱っていきます。
以下目次になります。
1. Related Work(Section2)
2. Background(Section3)
3. Interpreting Instance Normalization(Section4)
4. Adaptive Instance Normalization(Section5)
5. Experimental Setup(Section6)
6. Results(Section7)
7. Discussion and Conclusion(Section8)
8. まとめ

1. Related Work(Section2)
1節ではSection2のRelated Workについて確認します。Related Workでは"Style transfer"の研究と"Deep generative image modeling"の研究についてまとめられています。

f:id:lib-arts:20200119134202p:plain

(中略)

f:id:lib-arts:20200119134225p:plain

"Style transfer"の研究としては、従来のstyle transferの研究から#1、#2で取り扱ったGatysらの研究であるneural style transferの研究について取り扱われています。Introductionの内容として概要は取り扱ったのでここでは省略します。

f:id:lib-arts:20200119135032p:plain

f:id:lib-arts:20200119135146p:plain

"Deep generative image modeling"の研究としては、auto-encoderやgenerative adversarial networksについて紹介されています。

2. Background(Section3)
2節ではSection3のBackgroundについて確認します。ここではAdaINに用いられているInstance Normalizationについての背景情報についてまとめています。

f:id:lib-arts:20200119140719p:plain

Section3.1ではInstance Normalizationの話をする前提としてBatch Normalizationについて紹介されています。Batch Normalizationは特徴量の正規化を行うことでfeed-forwardネットワークの学習を著しく容易にする手法で、数式(1)のように入力バッチを変換するとされています。ここで数式(1)における $\mu$ と $\sigma$ の定義は数式(2)と数式(3)で記述されています。チャネル単位でバッチ内のサンプルの全ピクセルの値を用いて正規化を行うとなっています。

f:id:lib-arts:20200119140754p:plain

f:id:lib-arts:20200119140810p:plain

Section3.2ではInstance Normalizationについて紹介されています。Instance Normalizationは(4)の数式自体はBatch Normalizationの数式(1)と同じですが、 $\mu$ と $\sigma$ の定義が、各サンプルないの各チャネルに対して平均や分散を取るとされています。Ulyanovの研究においてBatch NormalizationをInstance Normalizationに変更することで著しい改善が見られたとされています。

f:id:lib-arts:20200119141814p:plain

Section3.3ではaffine parametersの $\gamma$ と $\beta$ についての従来とは違う取り扱いとしてConditional Instance Normalizationについて紹介しており、 $\gamma^{s}$ と $\beta^{s}$ が導入されています。

3. Interpreting Instance Normalization(Section4)
今回は省略します。

4. Adaptive Instance Normalization(Section5)
4節ではSection5のAdaptive Instance Normalizationについて確認します。

f:id:lib-arts:20200119151515p:plain

AdaIN(Adaptive Instance Normalization)の処理は数式(8)で記述されています。AdaINはIN(Instance Normalization)の拡張として紹介されており、contentの画像をx、styleの画像をyとおいた際に、contentの画像で通常のINと同様の処理を行ったのちに、affine parameterの代わりに $\sigma(y)$ や $\mu(y)$ を導入したとされています。

5. Experimental Setup(Section6)
5節ではSection6のExperimental Setupについて確認します。

f:id:lib-arts:20200119152853p:plain

まず冒頭部の記述として、Fig.2にAdaINの研究におけるstyle transferの大枠についてまとめたとされています。

f:id:lib-arts:20200119153055p:plain
Fig2は上記のようになっており、AdaINの導入にあたっての全体像について確認できます。

f:id:lib-arts:20200119153003p:plain

Architectureの数式としては、VGGのencoderを $f$ で表現し、 $f(c)$ と $f(s)$ を引数として $t=AdaIN(f(c),f(s))$ とし、この $t$ を用いて数式(10)で生成画像を表しています。この際のdecoderにあたるgは概ねencoderのミラーであるとなっています。

f:id:lib-arts:20200119153727p:plain

lossについては数式(11)のように定義されており、contentに関するlossの $L_{c}$ とstyleに関するlossの $L_{s}$ の重み付け和で定義されています。contentに関するlossは生成画像をencodeしたものがAdaINの出力に一致するかどうかで設定されています。

f:id:lib-arts:20200119153905p:plain

styleのlossとしては、元々のstyleの画像から抽出するstyleの情報と生成画像から抽出するstyleの情報の二つを比較して計算しています。

6. Results(Section7)

f:id:lib-arts:20200119154924p:plain

Fig.4のような生成画像について紹介されています。

7. Discussion and Conclusion(Section8)
省略します。

8. まとめ
#4ではAdaIN(Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization)のRelated Work以降の重要ポイントについて取り扱いました。
#5以降ではStyleGANについて取り扱います。