FCN(Fully Convolutional Networks)|DeepLearning論文の原文を読む #14

f:id:lib-arts:20190223155301p:plain

#13ではAdamについて取り扱いました。(#13は和訳のみとなっています。)

 #14ではセグメンテーションのアルゴリズムであるFCN(Fully Convolutional Networks)について取り扱います。(必要以上に固く書きたくなく90%〜95%程度の確信度で書きますので、もし間違いなどがあれば気軽にご指摘いただけたらと思います。)

[1411.4038] Fully Convolutional Networks for Semantic Segmentation
以下論文の目次です。基本的な書き方の流れとしてはAbstractは和訳&補足、それ以外の章に関しては要約を中心にまとめます(省く章もあるかもしれません)

0. Abstract
1. Introduction
2. Related work
3. Fully convolutional networks
4. Segmentation Architecture
5. Results
6. Conclusion

 

0. Abstract

Convolutional networks are powerful visual models that yield hierarchies of features. We show that convolutional networks by themselves, trained end-to-end, pixels-to-pixels, exceed the state-of-the-art in semantic segmentation.

和訳:『畳み込みニューラルネットは階層的な特徴を抽出する強力な画像認識のモデルである。我々はend-to-endでpixel-to-pixelで学習された畳み込みネットワーク自身がセグメンテーションの文脈でSOTAを上回ることについて示す。』
畳み込みニューラルネットワークの特徴量抽出に関するポテンシャルについて述べた上で、この論文のテーマであるセグメンテーションタスクへの応用に関して言及されています。

Our key insight is to build “fully convolutional” networks that take input of arbitrary size and produce correspondingly-sized output with efficient inference and learning. We define and detail the space of fully convolutional networks, explain their application to spatially dense prediction tasks, and draw connections to prior models.

和訳:『我々の手法の鍵は任意のサイズの入力に対しそれに沿ったサイズのアウトプットを出力するための効果的な推論や学習を行う"fully convolutional"ネットワークにあると洞察している。我々はFully Convolutional Networksの空間を定義し、空間的に密な予測のタスクへの応用について説明したり、既存のモデルとの関連について記述する。』
"fully convolutional"という考え方を導入し、これを手法の鍵だとされています。

We adapt contemporary classification networks (AlexNet, the VGG net, and GoogLeNet) into fully convolutional networks and transfer their learned representations by fine-tuning to the segmentation task. We then define a novel architecture that combines semantic information from a deep, coarse layer with appearance information from a shallow, fine layer to produce accurate and detailed segmentations.

和訳:『我々は現在よく用いられている分類のネットワーク(AlexNetやVGGNetやGoogLeNet)をFCNに導入し、finetuningによってセグメンテーションに対し転移学習を行う。次に深くて粗い出現情報を取り扱う層の情報と浅くて正確さや詳細のセグメンテーションを主に取り扱う層の情報を組み合わせる新しい構造に関して定義する。』
応用タスクにDeepLearningを導入する研究においては、ネットワークのベースラインとしては基本的にはAlexNetに始まる有名なネットワーク構造が選ばれます。FCNの研究は2014年のものなので、当時のSOTAであるAlexNet、VGGNet、GoogLeNetなどが選ばれています。深い層と浅い層の組み合わせに関してはFigure4で言及されているFCN-32s、FCN-16s、FCN-8sを示唆しています。アナロジーとして、フーリエ変換における高周波成分と低周波成分の組み合わせを想像するとわかりやすいのではと思います。

Our fully convolutional network achieves state-of-the-art segmentation of PASCAL VOC (20% relative improvement to 62.2% mean IU on 2012), NYUDv2, and SIFT Flow, while inference takes less than one fifth of a second for a typical image.

和訳:『我々のFCNは1つの画像あたり0.2秒よりも小さい推論時間を実現しながらPASCAL VOC、NYUDv2etcの様々なセグメンテーションタスクでSOTAの結果を出している。』
DeepLearningの文脈では精度と推論スピードを同時に考慮する際が多いので、このような言及のされ方がされています。

 

 1. Introduction
1stパラグラフでは畳み込みニューラルネットワークの成功と、それが分類タスクだけに止まらず物体検出などのローカライズ系でも向上に寄与することについて言及されています。2ndパラグラフでは物体検出の次はピクセル単位のセグメンテーションだということで、論文のテーマであるセグメンテーションについて言及されています。3rdパラグラフではこの論文での提案手法であるFCNについて言及されています。4thパラグラフでは3rdパラグラフに引き続きFCNの利点についてまとまっています。
5thパラグラフではセマンティックセグメンテーションの難しさとして大まかな認識と細かいピクセルの分類のバランスが上がっており、この解決策として4.2、4.3節で言及される"skip"の構造(architecture)について言及されています。6thパラグラフでは以降の節の内容に関して諸々まとまっています。

 

2. Related work
2節では関連研究として、FCNの研究やCNNをセグメンテーションに用いた研究について諸々まとまっています。

 

3. Fully convolutional networks
3節ではFCNについて諸々まとまっています。
3.1ではFC(Fully Connected)層を畳み込みで置き換えるという考え方についてまとまっています。Figure2を参考にすると良いかと思います。3.2以降は長かったので飛ばしました。 

 

4. Segmentation Architecture
4節ではセグメンテーションのアーキテクチャについて諸々まとまっていました。
4.1ではAlexNetなどのバックエンドで用いるモデルからFCNに関してなど諸々がまとまっていました。4.2ではより解像度の高いセグメンテーションを行う上でのアウトプットの合成についてまとめられていました。この辺の考え方は#15で扱うU-Netにも繋がってくるので抑えておくと良いかと思います。4.3では実際に実験を行う上での具体的な情報についてまとまっていました。


5. Results
実験結果について諸々まとまっていました。


6. Conclusion
かぶる内容が多いため割愛します。