Faster R-CNN｜DeepLearning論文の原文を読む #5

f:id:lib-arts:20190111173339p:plain

DeepLearning系の研究を中心に論文の読解メモをまとめていきます。
エポックになった有名どころの論文を精読し、所感などをまとめられればと思います。
（必要以上に固く書きたくなく90%〜95%程度の確信度で書きますので、もし間違いなどがあれば気軽にご指摘いただけたらと思います。）

#1~#4まではAlexNet、VGGNet、ResNet、GoogLeNetと基本的なアーキテクチャについて取り扱いました。
#5では物体検出(object detection)について取り扱えればということで、FasterRCNNについて取り扱います。
https://arxiv.org/abs/1506.01497
以下論文の目次です。基本的な書き方の流れとしてはAbstractは和訳＆補足、それ以外の章に関しては要約を中心にまとめます（過去の輪読会で読解を行なった15本分をまとめる都合上、省略したり後日追記にしたりする章もよく出てくると思います。）

0. Abstract
1. Introduction
2. Related Work
3. Faster R-CNN
4. Experiments
5. Conclusion

0 Abstract
Abstractは論文の要旨がまとまっているので一文ずつ精読していければと思います。

State-of-the-art object detection networks depend on region proposal algorithms to hypothesize object locations. Advances like SPPnet and Fast R-CNN have reduced the running time of these detection networks, exposing region proposal computation as a bottleneck.

和訳：『SOTAの物体検出のネットワークは物体の場所を仮定するにあたって領域提案のアルゴリズムを用いている。SPPNetやFastRCNNのようなアルゴリズムの発展を通して領域提案のような検出ネットワークの実行時間は減少した一方で、領域提案の計算がボトルネックとして判明した。』
上記ではFaster R-CNNを提案する背景として、従来のSOTAの物体検出のアルゴリズムについて言及されています。それまでのアルゴリズムは領域提案のアルゴリズムを用いているが、高速化が行われる一方で領域提案部分の計算がネックになってきたことについて言及されています。

In this work, we introduce a Region Proposal Network(RPN) that shares full-image convolutional features with the detection network, thus enabling nearly cost-free region proposals.

和訳：『この研究では、全画像の畳み込みの特徴を物体検出ネットワークに共有する領域提案ネットワーク(Region Proposal Network)を提案する。このネットワークがほとんどコストのない領域提案を可能にする。』
Faster R-CNNでは従来手法が領域提案に時間がかかることを受けて、RPNを提案することでこれまでよりも軽い計算コストで領域提案をできるようにしたということについて言及しています。

An RPN is a fully convolutional network that simultaneously predicts object bounds and objectness scores at each position. The RPN is trained end-to-end to generate high-quality region proposals, which are used by Fast R-CNN for detection. We further merge RPN and Fast R-CNN into a single network by sharing their convolutional features—using the recently popular terminology of neural networks with “attention” mechanisms, the RPN component tells the unified network where to look.

和訳：『RPNは同時に物体の領域とその領域が物体かどうかのスコア(objectness scores)を予測するFCNである。RPNは高いクオリティでの領域提案をend-to-endで生成するように学習し、Fast R-CNNが物体検出のための用いられている。さらに、RPNとFast R-CNNをattentionメカニズムによって畳み込んだ特徴を共有することで単一のネットワークにマージし、RPN コンポーネントは統合されたネットワークにどこを注目すべきかについて教えてくれる。』
RPNの詳細部分についてまとめられています。RPNはVGGのアウトプット(feature map)を入力にして物体の領域の候補（厳密に言えば、大量の領域とそれのobjectness scoresを元に数を減らしたもの）を出力します。

For the very deep VGG-16 model, our detection system has a frame rate of 5fps (including all steps) on a GPU, while achieving state-of-the-art object detection accuracy on PASCAL VOC 2007, 2012, and MS COCO datasets with only 300 proposals per image. In ILSVRC and COCO 2015 competitions, Faster R-CNN and RPN are the foundations of the 1st-place winning entries in several tracks. Code has been made publicly available.

和訳：『VGG16を用いた際に、我々の物体検出システムはPASCAL VOC2007や2012、MS COCOのデータセットにおいてSOTAの物体検出精度を出しながら、GPU上で5fpsの計算速度を実現した。ILSVRCやCOCOの2015年のコンペティションにおいて、Faster R-CNNはいくつかの部門において1stの位置を占めたエントリーの礎となった。ソースコードは一般的に利用可能になるように公開した。』
精度面でも速度の面でも高い成果を出すことができたことに対して諸々言及されています。

1. Introduction
1stパラグラフは物体検出(object detection)の従来研究としてR-CNNやFast R-CNNについてまとめています。また、領域提案(proposals)が推論時の計算のボトルネックになっていることについて言及されています。
2ndパラグラフは先行研究で用いられているSelective Searchなどについて触れた上で、1stと同様に領域提案がネックになっていることについて述べられています。3rdパラグラフは補足なので論旨に影響はなさそうです。
4thパラグラフではFaster R-CNNで用いられている領域提案をニューラルネットワークで行う手法について言及されています。Abstractと内容自体はさほど変わらなさそうなので以後は省略します。

2. Related Work
関連研究は内容把握の際は読まないので飛ばします。

3. Faster R-CNN
記述が長くて読むのが大変だったため、実装を読み解いたところRPN部分はVGGのアウトプットのFeature mapの情報を元にAnchorを変換させるような計算になっていました。詳細は必要に応じて後日追記したいと思います。

4. Experiments
諸々の検証結果がまとまっています。こちらも詳細は必要に応じて後日追記したいと思います。

5. Conclusion
省略します。