VGGNet|DeepLearning論文の原文を読む #2

DeepLearning系の研究を中心に論文の読解メモをまとめていきます。
エポックになった有名どころの論文を精読し、所感などをまとめられればと思います。
(必要以上に固く書きたくなく90%〜95%程度の確信度で書きますので、もし間違いなどがあれば気軽にご指摘いただけたらと思います。)

#1はDeepLearningの研究のエポックとなったAlexNetについて取り扱いました。

#2も基礎的なアーキテクチャについて取り扱えればということでVGGNetについて取り扱います。
https://arxiv.org/abs/1409.1556
以下論文の目次です。基本的な書き方の流れとしてはAbstractは和訳&補足、それ以外の章に関しては要約を中心にまとめます(省く章もあるかもしれません)

0. ABSTRACT
1. INTRODUCTION
2. CONVNET CONFIGURATIONS
3. CLASSIFICATION FRAMEWORK
4. CLASSIFICATION EXPERIMENTS
5. CONCLUSION


0. ABSTRACT
Abstractは論文の要旨がまとまっているので一文ずつ精読していければと思います。

In this work we investigate the effect of the convolutional network depth on its accuracy in the large-scale image recognition setting.

和訳:『この研究において、我々は大規模な画像認識の設定においてCNNの深さが精度に対して効果的であることを調査している。』
CNNの深さが精度に対して効果的であるということは、2013~2015年の研究のトレンドであり、深さが重要なファクターらしいということが把握されるようになってきたタイミングでどのようにすればネットワークを深くできるかについて色々と取り組まれていました。2012年に出たモデルであるAlexNetは8層のモデルだったが、2014年のVGGNetは16層や19層、同じく2014年のGoogleNetは22層とさらに深いモデルについて取り扱われています。また、通常の畳み込みでは20層前後で学習の頭打ちが起こることを受けてショートカットを導入することで差分の学習に変えることで深いネットワークの学習に成功したResNetの研究までがネットワークアーキテクチャの研究が最も重視されていた時期です。

Our main contribution is a thorough evaluation of networks of increasing depth using an architecture with very small (3 × 3) convolution filters, which shows that a significant improvement on the prior-art configurations can be achieved by pushing the depth to 16–19 weight layers.

和訳:『我々の主要なContributionは小さな3×3の畳み込みフィルタのアーキテクチャを用いて増やしたネットワークの深さの評価を行なったことである。またこの畳み込みフィルタによって先行研究の設定における大きな改善が16-19層に深さを増やすことで実現された。』

 VGGNetの特徴としてはスタックされた3×3の畳み込みフィルタを用いたアーキテクチャによって層の数を増やしたことにあります。結果としてAlexNetでは8層だったモデルが16層や19層まで拡張できました。

These findings were the basis of our ImageNet Challenge 2014 submission, where our team secured the first and the second places in the localisa- tion and classification tracks respectively.

和訳:『これらの発見は我々の2014年のImageNet Challenge(ILSVRCのこと)の提出の礎となり、そのコンペで我々のチームはlocalisationで1番、classificationで2番の結果をそれぞれ残した。』
この際のclassificationで1番となったのがGoogleNetであり、2014年は主にGoogleNetとVGGNetの成果をもって総括されていることが多いです。

We also show that our representations generalise well to other datasets, where they achieve state-of-the-art results.

和訳:『我々のモデル表現はImageNetに限らず他のデータセットでも汎用的であり、それらにおいてSOTAの結果を実現した。』
"We also show"は訳すと冗長な印象だったため訳しませんでした。"our representation"は文脈的にモデルのアーキテクチャを指していると思われるため、そのように訳しました。また、"other datasets"は前の文でILSVRCの話をしているので、ImageNet以外のデータセットと訳しました。画像分類系のCNNのアーキテクチャは汎用的なタスクに対して意味のある特徴量を抽出していることが多く、最初は分類タスク中心に始められた研究もFaster-RCNNやSSDなどの物体検出系やDQNなどの強化学習系、FCNやU-Netなどのセグメンテーション系など様々な研究に対し、分類タスクのネットワーク構造が用いられます。逆に、GAN系のアルゴリズムではDiscriminatorの分類能力を学習のベンチマークとすることもあり、"generalise"というのはこの辺に繋がってきます。

We have made our two best-performing ConvNet models publicly available to facili- tate further research on the use of deep visual representations in computer vision.

和訳:『二つの最も良いパフォーマンスを示した畳み込みネットワークのモデルを一般的に公開し、画像関連の研究にDeepLearningを仕様する将来の研究を容易に行えるようにした。』
後の研究を奨励するためにも、VGGNetの実装は一般的に公開されました。
https://gist.github.com/baraldilorenzo/07d7802847aaad0a35d3
このことにより、上記のように現在では学習済みのモデルを各フレームワークで使用可能な形式で気軽に手に入れることができます。

以下それぞれの章の要約についてまとめていきます。(備忘録目的も兼ねているので、説明不足のところは後日追記します)

 

1. INTRODUCTION

パラグラフ単位で要旨をまとめられればと思います。

1stパラグラフでは、導入にあたってCNNの発展やその要員についてまとめています。

In particular, an important role in the advance of deep visual recognition architectures has been played by the ImageNet Large-Scale Visual Recognition Challenge (ILSVRC)

中でも文面的に強調されているのが上記に書かれているILSVRCです。ImageNetを使ったコンペでデータセットがあり、GPUなどの並列処理の技術なども要員としてまとめられています。

2ndパラグラフでは、CNNが画像認識の分野で一般的になることを受けて行われた様々な研究について紹介した上で、この論文のテーマであるネットワークの深さと精度の関係について言及しています。

3rdパラグラフでは、研究の結果として考案した(come up with)ネットワークアーキテクチャ(VGG)について言及しています。VGGNetのポテンシャルについて諸々言及した上で、最も良い2つのモデルについて公開したということに関して言及しています。(VGG16とVGG19)

4thのパラグラフでは、論文の構成についてまとめています。Section2では畳み込みネットワークの設定、Section3では画像認識の学習と評価の詳細について、Section4では様々な比較のサマライズ、Section5はConclusionということで締めています。またAppendixではAでobject localisationに関して、BでImageNet以外のデータセットで試した結果、Cでは論文のRevisionに関してまとめています。


2. CONVNET CONFIGURATIONS

f:id:lib-arts:20181229162827p:plain

VGG Table1

Section2ではネットワークの設定についての情報がまとまっているのですが、上記の表に細かいネットワークアーキテクチャが載っていますのでこちらをつかんだ上で他を確認するのが良いと思います。3^2×3=27と7^2=49の比較で3×3のフィルタを3枚重ねるほうが効率的という話がされています。

 

3. CLASSIFICATION FRAMEWORK
Section3では畳み込みネットワークの学習と評価についてまとまっています。

 

4. CLASSIFICATION EXPERIMENTS
諸々の比較結果についてまとまっています。

 

5. CONCLUSION
結論についてまとまっています。

 

 

◆ まとめ

全体を通しての印象としては、読みやすい英語の表現が多かったと思います。VGG(Visual Geometry Group)はOxford大の研究チームなのでイギリス系の英語でした。スペルとしてはzがsになるようでlocalisation、generaliseなど最初違和感感じるかもしれないですがだんだん慣れてくるかと思います。
また、学習済みモデルが多く配布されているのはありがたい話で、finetuningを通して気軽に使用することができます。反面この後色々と研究が進んだ他のネットワーク構造に対してVGGは若干パラメータ数が大きいため、通常のローカルマシンで学習を回すのはきついかもしれません。気軽に学習を試したい際はAlexNet、ResNet50、MobileNetなどの方がマシンスペックに関係なく動くのではと思います。
とは言え、VGGNetはFaster-RCNNやSSDなどの物体検出系のタスクにその後用いられるなど多くの研究のベースとなっているので、歴史的な経緯を考えると知っておく価値のモデルなのではと思います。