Image Style Transfer②(Deep image representations以降の重要ポイント)|Style Transferの研究を俯瞰する #2

f:id:lib-arts:20200117124826p:plain

当シリーズでは、Style Transferの研究を俯瞰しながらStyle GANやStyle GAN2などの研究を読み解いていきます。
#1、#2ではStyle Transfer関連の初期の研究である、Image Style Transfer(Image Style Transfer Using Convolutional Neural Networks)について取り扱います。

https://zpascal.net/cvpr2016/Gatys_Image_Style_Transfer_CVPR_2016_paper.pdf

#1ではAbstractとIntroductionの確認を行いました。

Image Style Transfer①(Abstract&Introduction)|Style Transferの研究を俯瞰する #1 - Liberal Art’s diary

#2ではSection2のDeep image representations以降の内容の重要ポイントについて取り扱っていきます。
以下目次になります。
1. Deep image representations(Section2)
1-1. Content representation(Section2.1)
1-2. Style representation(Section2.2)
1-3. Style transfer(Section2.3)
2. Results(Section3)
3. Discussion(Section4)
4. まとめ


1. Deep image representations(Section2)
1節ではSection2のDeep image representationsについて確認します。

f:id:lib-arts:20200118154612p:plain

冒頭部の記載としては、まずベースのネットワークとして学習済みのVGG19を導入したとなっています。Section2は手法の話なので、以下サブセクション単位で確認していきます。


1-1. Content representation(Section2.1)
Section2.1ではContent representationについて取り扱っています。研究内では画像のcontentとstyleが対になって取り扱われており、Section2.1ではcontent、Section2ではstyleの表現(representation)について取り扱われています。

f:id:lib-arts:20200118155735p:plain

少々複雑な手法となっているため、先にFigure2を元に計算の大枠について確認します。右上にL_{total}=\alpha L_{content} + \beta L_{style}と、学習におけるlossが記述されています。Section2.1では図の右側のL_{content}、Section2.2では図の左側のL_{style}について取り扱っています。

f:id:lib-arts:20200118173738p:plain

f:id:lib-arts:20200118173801p:plain

さて、L_{content}についてですが、数式(1)で定義されています。ここで\vec{p}は実際の画像(content)、\vec{x}は生成された画像を意味しているとされており、それに派生してP^{l}l層におけるcontentの特徴量表現、F^{l}l層における生成画像の特徴量表現を表すとされています。またここで、iは特徴マップのインデックス、jは特徴マップ内のインデックスを表しているとなっています。Figure2の右側についてはこれで大体のイメージがつかめるかと思います。


1-2. Style representation(Section2.2)
Section2.2ではStyle representationについて取り扱っています。

f:id:lib-arts:20200118202349p:plain

数式(5)でL_{style}について定義されています。また、数式の中心的な内容であるE_{l}は(4)で表されています。(4)はG^{l}A^{l}の差についての数式なのでG^{l}A^{l}について確認すると、G^{l}は生成される画像である\vec{x}に関連し、A^{l}はstyleの情報を提供する\vec{a}に関連するとされています。Figure2の左側についてはこれで大体のイメージがつかめるかと思います。


1-3. Style transfer(Section2.3)
Section2.3ではStyle transferについて取り扱っています。

f:id:lib-arts:20200118203550p:plain

f:id:lib-arts:20200118203605p:plain

数式(7)ではL_{total}=\alpha L_{content} + \beta L_{style}のようにL_{content}L_{style}の重み付け和としてL_{total}が表現されています。この際に生成された画像\vec{x}を用いた偏微分によって最適化問題を解くとされています。勾配に基づいたパラメータのアップデートではなく、画像のアップデートだということが他の研究などとは大きく異なるのでここで注意が必要なポイントです。また、最適化については準ニュートン法をベースにしたL-BFGS法を用いたとされています。


2. Results(Section3)
2節ではSection3のResultsについて確認していきます。いくつかの実験結果についてまとめられているので、以下簡単にピックアップします。

f:id:lib-arts:20200118205345p:plain

まずFigure4ではL_{total}に用いた\alpha\betaのバランスについて示されています。\alphaが大きくなるにつれてcontentの影響の方が強まっているであろうことが読み取れます。

f:id:lib-arts:20200118210013p:plain

上記のFigure5ではcontentのlossを計算するにあたってどのレイヤーを比較するかによっての違いについて実験されています。詳細の物体の形が残っているConv2_2層に比較してConv4_2層では細かい形などの情報については残らなくなっていると言及されています。


3. Discussion(Section4)
Section4のDiscussionについて確認していきます。

f:id:lib-arts:20200118204422p:plain

上記では研究の良かった点について言及しつつ、依然としてアルゴリズムにはいくつかの技術的な制約があると記載されています。

f:id:lib-arts:20200118204732p:plain

技術的な課題としては、「合成した画像の解像度の問題」や「low-level noize」などの課題が挙げられていますが、上記では「今回の手法であるcontentとstyleの分離は必ずしも良い問題設定ではなく、どの設定が良いのかについてはまだ曖昧である」とされています。このためあくまで一つの手法として紹介しており将来研究において他の手法が出てくる可能性があることを示唆するものとなっていると考えて良さそうです。


4. まとめ
#2ではStyle Transfer関連の初期の研究である、Image Style Transfer(Image Style Transfer Using Convolutional Neural Networks)のSection2のDeep image representations以下の重要なポイントについて取り扱いました。
#3以降ではAdaINについて取り扱っている"Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization"について確認します。