U-Net｜DeepLearning論文の原文を読む #15

f:id:lib-arts:20190110182103p:plain

DeepLearning系の研究を中心に論文の読解メモをまとめていきます。
エポックになった有名どころの論文を精読し、所感などをまとめられればと思います。

#14はFCNについて取り扱いました。

#15ではFCNをベースのアイデアとして修正したアルゴリズムを医療画像のセグメンテーションに適用したU-Netについて取り扱います。

[1505.04597] U-Net: Convolutional Networks for Biomedical Image Segmentation
以下論文の目次です。基本的な書き方の流れとしてはAbstractは和訳＆補足、それ以外の章に関しては要約を中心にまとめます（省く章もあるかもしれません）

0. Abstract
1. Introduction
2. Network Architecture
3. Training
4. Experiments
5. Conclusion

0 Abstract
Abstractは論文の要旨がまとまっているので一文ずつ精読していければと思います。

There is large consent that successful training of deep networks requires many thousand annotated training samples.

和訳：『ディープラーニングの学習の成功は何千ものアノテートされた学習サンプルを必要とすることについては大きな合意がある』
話を始めるに当たって一般論から始めています。U-Netでは少ないサンプル画像をベースに学習がうまくいったことを強調するために最初このように入っているのだと思います。また、"many thousand"は数千ものと訳しましたが、数そのものよりも多くの画像というものを強調するために用いられていると考えると良いかと思います。

In this paper, we present a network and training strategy that relies on the strong use of data augmentation to use the available annotated samples more efficiently.

和訳：『この論文において、我々は利用可能なアノテーションデータをより効率的に利用するための強力なdata augmentationの利用を行うネットワーク構造や学習戦略について紹介する。』
relyの和訳が多少意訳にはなりましたが、こちらの方が良いのではと思います。data augmentationは学習用の画像データを平行移動や回転を行い増やすことで学習を安定させるための手法のことです。学習データが少ないというところの解決策として対照的にdata augmentationについて言及されています。

The architecture consists of a contracting path to capture context and a symmetric expanding path that enables precise localization.

和訳：『ネットワーク構造はコンテクストを掴むための収縮パスと正確なローカライゼーションを可能にする収縮パスに対称的な構造を持つ拡張パスによって構成されている。』
contractingの意味が最初は取りづらいが、contracting pathとsymmetric expanding pathが対比として用いられることに気づけば文脈的に読み解けるかと思います。contractは契約なので、話が収束するのと似たようなニュアンスで用いられているのではと思います。

We show that such a network can be trained end-to-end from very few images and outperforms the prior best method (a sliding-window convolutional network) on the ISBI challenge for segmentation of neuronal structures in electron microscopic stacks.

和訳：『U-Netのネットワークがとても少ない訓練画像からend-to-endで学習し、ISBIチャレンジにおけるセグメンテーションにおいて従来のベストな手法（sliding-window convolutional netowrk）を上回ったことを示す。』
U-NetはISBIチャレンジのセグメンテーションタスクにおいて、FCNの考え方をベースに拡張することでSOTAを更新したということについて言及しています。

Using the same network trained on transmitted light microscopy images (phase contrast and DIC) we won the ISBI cell tracking challenge 2015 in these categories by a large margin.

和訳：『transmitted light microscopy imagesにおいても同様なネットワーク構造を用いて学習させることで、我々はISBI2015のセルトラッキングチャレンジにおいても他に大きな差をつけて圧勝した。』
4のExperimentsでは3つのセグメンテーションタスクにおいて結果を出したということについてまとめられているのですが、その要約としてAbstractでもこのように言及されています。

Moreover, the network is fast. Segmentation of a 512x512 image takes less than a second on a recent GPU. The full implementation (based on Caffe) and the trained networks are available at "site-link".

和訳：『さらに、ネットワークの計算自体も速く、最近のGPUを用いれば512×512の画像のセグメンテーションが1秒かからず実行できる。Caffeベースの実装の全容と学習されたモデルはsite-linkで公開されている』
recentについては2015年の研究だということに注意した上で解釈する必要があることに注意です。また、モデルの実装については成果を公開したサイトが参照されています（現在では公開先が変更となっているようです）。

1. Introduction

Introductionでは他の論文ではRelated Workにあたるところもここにまとめており、若干冗長なのでパラグラフ単位で簡単な要約をあげていければと思います。
1stパラグラフは分類(classification)タスクにおいてディープラーニングが成功をおさめたことについて述べられています。論文としてはAlexNetやVGGNetなどが主に参照されています。
2ndパラグラフは生物医学的な分野(biomedical field)におけるローカライゼーションへの応用についてと、従来研究におけるSOTAとなっていたCiresanの2012年の研究(a sliding-window)について言及されています。
3rdパラグラフではCiresanの研究の二つの欠点（速度など）について言及されています。
4thパラグラフではFCNに着想を得てU-Netを構築したことについて述べられています。
5thパラグラフではFCNからのネットワーク構造の修正に関してまとまっています。U字型になるようにdownsamplingとupsamplingが対称的に行われたことについて言及されています。
6thパラグラフでは学習データが少なかったため、elastic deformationを利用したdata augmentationが必要だったことについて言及しています。
7thパラグラフでは医療分野でよく用いられる接しているオブジェクトの分離に当たって誤差関数に重み付けをしたことについて述べられています。
8thパラグラフではU-Netが達成したachivementsについてまとまっています。

2. Network Architecture

Section2ではネットワーク構造（モデルの構造）についてまとまっています。
基本的にFigure1（冒頭の画像）でまとまっています。気になった点を以下いくつかピックアップしておきます。

・収縮パス(downsampling)と拡張パス(upsampling)が対称的に構成されており、ダウンサンプリングにおいては画像のサイズが縦横それぞれ半分になる際にチャネルの数を倍に増やしている

・upsamplingの際は対称となるdownsamplingのパスから切り出した(cropped)画像を足し合わせている。画像を切り出す理由は、畳み込み処理の際にパディングを行わないことで画像が小さくなってしまうのが理由

・ネットワークは全部で23層の畳み込み層を持つ

3. Training

Section3では学習にあたっての諸々についてまとまっています。いくつか気になった点についてピックアップします。

・畳み込みの際にパディングを行わないことで画像が小さくなるというオーバーヘッドを少なくするために、入力画像は大きめになり、そのため学習が早く収束するように学習率のパラメータを大きめに設定している

・数式(1)において、誤差関数はそれぞれ領域ごとに重み付けがされており、このw(x)は(2)のように決めている。

・data augmentationにあたっては平行移動や回転の不変性などを利用するが、特にelastic deformationsを用いたdata augmentationについて学習の決め手だと強調している。

4. Experiments

3つの異なるセグメンテーションタスクにおいてU-Netの応用性がまとめられています。

5. Conclusion

Introductionと被るため割愛します。

↓論文の読み方については下記でテキスト化していますので、よろしければこちらもご検討ください！！