MobileNets｜DeepLearning論文の原文を読む #10

f:id:lib-arts:20190220184145p:plain

#9ではWaveNetについて取り扱いました。

#10ではモデルの軽量化に関連してMobileNetsについて取り扱います。（必要以上に固く書きたくなく90%〜95%程度の確信度で書きますので、もし間違いなどがあれば気軽にご指摘いただけたらと思います。）

[1704.04861] MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
以下論文の目次です。基本的な書き方の流れとしてはAbstractは和訳＆補足、それ以外の章に関しては要約を中心にまとめます（省く章もあるかもしれません）

0. Abstract
1. Introduction
2. Prior Work
3. MobileNet Architecture
4. Experiments
5. Conclusion

0. Abstract

We present a class of efficient models called MobileNets for mobile and embedded vision applications. MobileNets are based on a streamlined architecture that uses depthwise separable convolutions to build light weight deep neural networks.

和訳：『モバイルや組み込み分野における画像認識の応用にあたってMobileNetsという効率的なモデルのクラスを提唱する。MobileNetsは軽量のディープラーニングのモデルを構築するためにdepthwise-separable-convolutionsを用いた合理的なネットワーク構造に基づいて作られている。』
この論文であるMobileNetsの目的や概要についてまとまっています。この論文ではdepthwise-separable-convolutionsという畳み込みの方法がベースとなっており、注意して抑えておきたいポイントです。

We introduce two simple global hyper-parameters that efficiently trade off between latency and accuracy. These hyper-parameters allow the model builder to choose the right sized model for their application based on the constraints of the problem.

和訳：『私たちはレイテンシ(遅延、スピード)と精度間のトレードオフという二つのシンプルな大域的なハイパーパラメータを導入する。これらのハイパーパラメータを考慮することで、問題の制約に応じた適切なサイズのモデルの選択が可能になる。』
DeepLearningの実装を行う上でのスピードと精度のトレードオフについて言及されており、問題に対して適切なサイズを選ぶことが求められるとされています。

We present extensive experiments on resource and accuracy tradeoffs and show strong performance compared to other popular models on ImageNet classification.

和訳：『我々はリソースと精度のトレードオフにおける実験を拡張し、ImageNetの分類に用いられている他のよく用いられるモデルと比較した際にとても高い性能を紹介する。』
諸々の行なった実験について示唆しています。詳しい実験については4のExperimentsにまとまっています。

We then demonstrate the effectiveness of MobileNets across a wide range of applications and use cases including object detection, finegrain classification, face attributes and large scale geo-localization

和訳：『多くの応用を通してMobileNetsの効率性や、物体検出、より詳細な画像認識(細かい品種まで分類)、顔の特徴抽出、大規模なgeo-localizationなどのユースケースを示す。』
MobileNetsを応用するにあたって様々なタスクについて言及されています。MobileNetsはベースとなるモデルの構造に関する研究なので、AlexNet、VGGNet、GoogLeNet、ResNetなどと同様の文脈で考えると良いです。

1. Introduction
1stパラグラフでは、AlexNet以来のDeepLearningの繁栄についての言及から始まり、精度(accuracy)が重視されている一方でモデルが肥大化していることに対し、問題によっては精度が高いことよりもサイズやスピードが重視されることがあることについて触れられています。
2ndパラグラフでは1stパラグラフの内容を受けてMobileNetsについて話が展開され、論文の構成についてまとめられています。2節が軽量モデルを作るにあたっての先行研究、3節がMobileNetの構造やハイパーパラメータについて、4節が実験についてまとめているとされています。

2. Prior Work
2節では先行研究についてまとまっています。2ndパラグラフでdepthwise separable convolutionsやXceptionなどについて言及されているので、意識しておくと良いのではと思われました。

3. MobileNet Architecture
1節で触れたように、MobileNetの構造やハイパーパラメータについて諸々まとめられています。
3.1ではDepthwise Separable Convolutionについて諸々まとまっています。簡単な仕組みとしては通常の畳み込みを分解する(factorize)することで、空間方向(depthwise)とチャネル方向(pointwise)に分けて計算することでフィルタのパラメータ数を減らそうという考え方です。(4)式と(5)式に基づいて計算することによって、通常の3×3の畳み込みについては8~9倍の計算資源の削減になるなど、付随の情報に関してもまとまっています。
3.2ではネットワークの構造について言及されています。Table1にネットワークの全体構造、Figure3にdepthwise-separable-convolutionの処理についてまとまっており、これらは抑えておきたい印象でした。

f:id:lib-arts:20190220195942p:plain
上図がTable1の内容で、28layersと本文中に言及されていました。

f:id:lib-arts:20190220200112p:plain
また上図がFigure3の内容で、右が今回メインで使用されているdepthwise-separable-convolutionsを表しています。

3.3ではさらなるモデルの軽量化にあたって、Width Multiplierという考え方について導入されています。こちらの考え方では、ネットワークの隠れ層におけるチャネルの数をパラメータα(0~1の値)を用いて減らします。具体的な数字としては論文内で「1, 0.75, 0.5 and 0.25」と言及されています。これにより計算に用いるパラメータの数を減らすことができます。
3.4も3.3と同様にモデルの軽量化にあたって、Resolution Multiplierが導入されています。こちらの考え方では入力画像のサイズをパラメータρを用いて解像度を低くします。実際に入力の224に対し、「224, 192, 160 or 128」のように画像のサイズを変更させ、諸々の処理を行います。

4. Experiments
4節では諸々の実験結果についてまとまっています。中でも元々のベースラインのモデルと比較したTable8、Table9は抑えておくと良いのではと思います。

f:id:lib-arts:20190220233843p:plain

上図のように、1.0 MobileNet-224とVGGやGoogLeNetが、0.50 MobileNet-160とSqueezenetやAlexNetが比較されています。ここで1.0や0.50はWidth Multiplierのαの値を示しています。また224や160は入力画像のサイズのため、224にρをかけた値にそれぞれ相当します。また4.3以降では様々な応用タスクについての検証結果がまとまっています。

5. Conclusion
前述の内容とかぶるところが多いため省略します。