SSD|DeepLearning論文の原文を読む #6

f:id:lib-arts:20190111191116p:plain

DeepLearning系の研究を中心に論文の読解メモをまとめていきます。
エポックになった有名どころの論文を精読し、所感などをまとめられればと思います。
(今回は読み流しが多いので、参考程度にご確認いただけたらと思います。)

#5では物体検出(object detection)のFasterRCNNについて取り扱いました。

#6では関連としてSSDについて取り扱います。
https://arxiv.org/abs/1512.02325
以下論文の目次です。基本的な書き方の流れとしてはAbstractは和訳&補足、それ以外の章に関しては要約を中心にまとめます(省く章もあるかもしれません)

0. Abstract
1. Introduction
2. The Single Shot Detector (SSD)
3. Experimental Results
4. Related Work
5. Conclusions


0 Abstract

Abstractは論文の要旨がまとまっているので一文ずつ精読していければと思います。

We present a method for detecting objects in images using a single deep neural network. Our approach, named SSD, discretizes the output space of bounding boxes into a set of default boxes over different aspect ratios and scales per feature map location. At prediction time, the network generates scores for the presence of each object category in each default box and produces adjustments to the box to better match the object shape. Additionally, the network combines predictions from multiple feature maps with different resolutions to naturally handle objects of various sizes.

和訳:『我々は単一のニューラルネットワークを用いた物体認識の手法を提案する。SSDと名付けた我々のアプローチは特徴マップの位置ごとに比率や大きさの比をバウンディングボックスとして具現化した。予測時において、SSDはデフォルトボックスにおいてそれぞれの物体のカテゴリの出現に関するスコアを生成し、同時に物体の形状の調整も行う。さらに、様々なサイズの物体を自然に扱うためにSSDは解像度の違う多重の特徴マップを組み合わせる。』
直訳するとちょっと分かりづらくなりそうだったので意訳しました。SSDの特徴としては解像度の違う特徴マップを組み合わせるところにあり、冒頭で貼った図がこれを象徴しています。

SSD is simple relative to methods that require object proposals because it completely eliminates proposal generation and subsequent pixel or feature resampling stages and encapsulates all computation in a single network. This makes SSD easy to train and straightforward to integrate into systems that require a detection component.

和訳:『SSDは物体の提案を必要とするシンプルな手法に関連していて、それは提案の生成を削除し単一のネットワークに隠蔽するからである。このことによりSSDは学習しやすくかつ全体の物体認識の要素が必要なシステムに直接的に統合していくことができる。』
ちょっとこの辺は意味が取りづらかったので読み流しました。(和訳も適当です)

Experimental results on the PASCAL VOC, COCO, and ILSVRC datasets confirm that SSD has competitive accuracy to methods that utilize an additional object proposal step and is much faster, while providing a unified framework for both training and inference.

和訳:『PASCAL VOC、COCO、ILSVRCのデータセットでの実験結果において、SSDは学習と推論を統一的なフレームワークで実現しながらこれまでと同様の成果を維持しつつより速さを実現した。』
こちらは実験結果についてです。詳細は3節でまとめられています。

For 300 × 300 input, SSD achieves 74.3% mAP1 on VOC2007 test at 59 FPS on a Nvidia Titan X and for 512 × 512 input, SSD achieves 76.9% mAP, outperforming a comparable state-of-the-art Faster R-CNN model. Compared to other single stage methods, SSD has much better accuracy even with a smaller input image size. Code is available at:site.

和訳:『VOC2007のデータセットにおいて、SSDは300×300の入力に対し74.3%のmAPかつ59FPSの速さ、512×512の入力においては76.9%のmAPを実現し、比較対象のSOTAのFaster R-CNNを上回った。他の手法と比較してもより良い精度だった。コードは参照サイトで利用可能である。』
主に#5で取り扱ったFaster R-CNNと比べられていますが、それまでのSOTAかつ同年のものなのでAbstractでも言及されているようです。


1. Introduction

Abstractが長かったので省略します。


2. The Single Shot Detector (SSD)

モデルの構造については2.1、学習においては2.2でまとまっています。

2.1 Model
モデルのアーキテクチャについてまとまっています。
1stパラグラフではネットワークが前半部分の"base network"に通常のオーソドックスな画像認識のネットワークアーキテクチャを用い(今回のネットワークとしてはVGG-16を用いたが、他のネットワークでもうまくいくだろうと補足されています)、後半部分で物体検出(object detection)を行う補間モジュール(auxiliary structure)を追加していると述べられています。
2nd&3rdパラグラフでは複数の縮尺の特徴マップを用いることで様々な大きさの物体が認識できるということについてまとめられています。この辺はFCNなどのセグメンテーションなどにおけるFCN-8などとも同様に考えても良いと思います。
4thパラグラフでは実際の物体検出部分について記載されており、基本的にはFaster R-CNNのアンカーボックスの考え方に似ているものの、マルチスケールな特徴マップを使用することにより効率性を実現したことなどがまとめられているようです。

2.2 Training
学習について諸々まとまっています。詳しく読むと参考になりそうなので後日また読む機会があればまとめたいと思います。

 

3. Experimental Results

3.1ではPASCAL VOC2007においてのSSDのパフォーマンスがFast R-CNNやFaster R-CNNと比較されています。Table1に結果の要約がまとまっています。
3.2以降は後日また読む機会があればまとめたいと思います。


4. Related Work

飛ばしました。


5. Conclusions

Abstractが長かったので省略します。