GoogLeNet｜DeepLearning論文の原文を読む #4

f:id:lib-arts:20190110181935p:plain

DeepLearning系の研究を中心に論文の読解メモをまとめていきます。
エポックになった有名どころの論文を精読し、所感などをまとめられればと思います。
（必要以上に固く書きたくなく90%〜95%程度の確信度で書きますので、もし間違いなどがあれば気軽にご指摘いただけたらと思います。）

#3はResNetについて取り扱いました。

#4も基礎的なアーキテクチャについて取り扱えればということでGoogLeNetについて取り扱います。
https://arxiv.org/abs/1409.4842

以下論文の目次です。基本的な書き方の流れとしてはAbstractは和訳＆補足、それ以外の章に関しては要約を中心にまとめます（過去読解を行なった15本分まとめる都合上、今回は文章の分量が多かったのでRelated Work以後は全体的に流しました。後日必要に応じて追記したいと思いますが、現時点では情報量が少ないかもしれません）

0. Abstract
1. Introduction
2. Related Work
3. Motivation and High Level Considerations
4. Architectural Details
5. GoogLeNet
6. Training Methodology
7. ILSVRC 2014 Classification Challenge Setup and Results
8. ILSVRC 2014 Detection Challenge Setup and Results
9. Conclusions

0 Abstract
Abstractは論文の要旨がまとまっているので一文ずつ精読していければと思います。

We propose a deep convolutional neural network architecture codenamed Incep- tion, which was responsible for setting the new state of the art for classification and detection in the ImageNet Large-Scale Visual Recognition Challenge 2014 (ILSVRC14).

和訳：『我々はInceptionとコードネームを付けたCNNのアーキテクチャについて提案する。このアーキテクチャはILSVRC2014の分類や検出のタスクに置いて新しいSOTAを出すにあたって重要な責務を担った』
codenameやresponsibleは訳語に困ったので意訳しました。GoogLeNetは2014年のILSVRCで優勝したモデルです。この際に2位となったVGGNetと共にネットワークの構造に関しての議論になる際にはよく用いられます。

The main hallmark of this architecture is the improved utilization of the computing resources inside the network.

和訳：『このアーキテクチャの主要な部分はネットワーク内部の計算機資源の使用の改善である』
若干意訳が入っていますが上記で論旨は取れていると思います。コンペで精度面で優勝したモデルではありますが、論文全体として精度そのものよりもリソースの効率化を強調した記載が多かった印象です。

This was achieved by a carefully crafted design that allows for increasing the depth and width of the network while keeping the computational budget constant.

和訳：『この計算資源の効率化は計算リソースを一定に保つ一方でネットワークの深さや幅を増やすことを可能にする注意深く巧妙に作られたネットワークのデザインによって実現した。』
Thisは前文の計算資源の効率化を示唆していると思われます。craftedやbudgetはこなれていて日本語にそのまましにくいのでこちらも意訳しました。前文のhallmarkと同様意味は取れるものの訳語に困る表現が多い印象です。

To optimize quality, the architectural decisions were based on the Hebbian principle and the intuition of multi-scale processing. One particular incarnation used in our submission for ILSVRC14 is called GoogLeNet, a 22 layers deep network, the quality of which is assessed in the context of classification and detection.

和訳：『品質の最適化にあたって、アーキテクチャの決定はHebbian principleやマルチスケールでの処理に基づいて行われた。ILSVRC14への提出に使われた一つの具体例をGoogLeNetと呼ぶ。GoogleNetは22層の深層のニューラルネットワークで、分類と検出の文脈で品質を評価されている。』

GoogLeNetは2014年のILSVRCの分類と検出優勝したモデルであり、後ろの方での詳しい記述をAbstractで要約されています。

1. Introduction

Introductionはパラグラフ単位で要約します。
1stパラグラフではDeepLearningの画像分類タスクの成功について言及したのち、GoogLeNetについて話を展開しています。GoogLeNetは精度の面だけでなく、AlexNetの12分の1のパラメータ数になっており効率的だということが強調されています。また、物体検出(object-detection)についても言及されており、GirshickのR-CNNのようにアルゴリズムDeepLearningの知見に以前からの(classical)画像認識の知見を加えたものから良い結果を実現させたと言及されています。

2ndパラグラフではモバイルや組み込みで実装するにあたって、アルゴリズムの効率性の重要性が大きくなってくるということについて言及されています。
3rdパラグラフでも2ndパラグラフを踏襲し、GoogLeNetの効率性について諸々言及されています。Inception moduleについてや結果としてILSVRC2014で良い結果を出したことなどもまとめられています。計算の効率化に関する諸々の取り組みはXception[2016]やMobileNet[2017]に繋がってきますが、2014年頃から計算効率に注目しているというのはなかなか印象深い印象でした。

2. Related Work

1stパラグラフはCNNの起源であるLeNetからImageNetを用いて大きな発展を遂げた2011~2014年頃の研究についてまとめています。
2nd、3rdは読み飛ばしました。
4thはCNNの物体検出(object detection)への適用についてまとめられています。物体検出系のアルゴリズムはこの後にFasterRCNN[2015]やSSD[2016]を通して高速化がはかられるのですが、2014年時点で物体検出の研究成果として出されていたGirshickのR-CNNについてここでは言及されています。

3. Motivation and High Level Considerations

飛ばしました。

4. Architectural Details
5. GoogLeNet

4ではInceptionモジュールについて、5では全体のネットワークの構成についてまとまっていました。Figure2とFigure3がわかると良さそうです。

6. Training Methodology

ネットワークの学習に関しての諸々がまとまっていました。

7. ILSVRC 2014 Classification Challenge Setup and Results
8. ILSVRC 2014 Detection Challenge Setup and Results

諸々の結果がまとまっています。Classificationはtop-5 Errorで、DetectionはmAPで評価されています。

9. Conclusions

これまで書いた内容と被るため省略します。