Image Style Transfer②(Deep image representations以降の重要ポイント)|Style Transferの研究を俯瞰する #2
当シリーズでは、Style Transferの研究を俯瞰しながらStyle GANやStyle GAN2などの研究を読み解いていきます。
#1、#2ではStyle Transfer関連の初期の研究である、Image Style Transfer(Image Style Transfer Using Convolutional Neural Networks)について取り扱います。
https://zpascal.net/cvpr2016/Gatys_Image_Style_Transfer_CVPR_2016_paper.pdf
#1ではAbstractとIntroductionの確認を行いました。
Image Style Transfer①(Abstract&Introduction)|Style Transferの研究を俯瞰する #1 - Liberal Art’s diary
#2ではSection2のDeep image representations以降の内容の重要ポイントについて取り扱っていきます。
以下目次になります。
1. Deep image representations(Section2)
1-1. Content representation(Section2.1)
1-2. Style representation(Section2.2)
1-3. Style transfer(Section2.3)
2. Results(Section3)
3. Discussion(Section4)
4. まとめ
1. Deep image representations(Section2)
1節ではSection2のDeep image representationsについて確認します。
冒頭部の記載としては、まずベースのネットワークとして学習済みのVGG19を導入したとなっています。Section2は手法の話なので、以下サブセクション単位で確認していきます。
1-1. Content representation(Section2.1)
Section2.1ではContent representationについて取り扱っています。研究内では画像のcontentとstyleが対になって取り扱われており、Section2.1ではcontent、Section2ではstyleの表現(representation)について取り扱われています。
少々複雑な手法となっているため、先にFigure2を元に計算の大枠について確認します。右上にと、学習におけるlossが記述されています。Section2.1では図の右側の、Section2.2では図の左側のについて取り扱っています。
さて、についてですが、数式(1)で定義されています。ここでは実際の画像(content)、は生成された画像を意味しているとされており、それに派生しては層におけるcontentの特徴量表現、は層における生成画像の特徴量表現を表すとされています。またここで、は特徴マップのインデックス、は特徴マップ内のインデックスを表しているとなっています。Figure2の右側についてはこれで大体のイメージがつかめるかと思います。
1-2. Style representation(Section2.2)
Section2.2ではStyle representationについて取り扱っています。
数式(5)でについて定義されています。また、数式の中心的な内容であるは(4)で表されています。(4)はとの差についての数式なのでとについて確認すると、は生成される画像であるに関連し、はstyleの情報を提供するに関連するとされています。Figure2の左側についてはこれで大体のイメージがつかめるかと思います。
1-3. Style transfer(Section2.3)
Section2.3ではStyle transferについて取り扱っています。
数式(7)ではのようにとの重み付け和としてが表現されています。この際に生成された画像を用いた偏微分によって最適化問題を解くとされています。勾配に基づいたパラメータのアップデートではなく、画像のアップデートだということが他の研究などとは大きく異なるのでここで注意が必要なポイントです。また、最適化については準ニュートン法をベースにしたL-BFGS法を用いたとされています。
2. Results(Section3)
2節ではSection3のResultsについて確認していきます。いくつかの実験結果についてまとめられているので、以下簡単にピックアップします。
まずFigure4ではに用いたとのバランスについて示されています。が大きくなるにつれてcontentの影響の方が強まっているであろうことが読み取れます。
上記のFigure5ではcontentのlossを計算するにあたってどのレイヤーを比較するかによっての違いについて実験されています。詳細の物体の形が残っているConv2_2層に比較してConv4_2層では細かい形などの情報については残らなくなっていると言及されています。
3. Discussion(Section4)
Section4のDiscussionについて確認していきます。
上記では研究の良かった点について言及しつつ、依然としてアルゴリズムにはいくつかの技術的な制約があると記載されています。
技術的な課題としては、「合成した画像の解像度の問題」や「low-level noize」などの課題が挙げられていますが、上記では「今回の手法であるcontentとstyleの分離は必ずしも良い問題設定ではなく、どの設定が良いのかについてはまだ曖昧である」とされています。このためあくまで一つの手法として紹介しており将来研究において他の手法が出てくる可能性があることを示唆するものとなっていると考えて良さそうです。
4. まとめ
#2ではStyle Transfer関連の初期の研究である、Image Style Transfer(Image Style Transfer Using Convolutional Neural Networks)のSection2のDeep image representations以下の重要なポイントについて取り扱いました。
#3以降ではAdaINについて取り扱っている"Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization"について確認します。