Survey論文の確認④(3D Object Detection and Tracking)｜3D Point CloudsとDeepLearning #4

f:id:lib-arts:20200228012528p:plain

点群(Point Clouds)の基本的な内容については以前の記事で取り扱いました。

点群に対しても近年DeepLearningの導入が検討されており概要を掴むにあたって、下記のSurvey論文を元に読み進めています。

[1912.12033] Deep Learning for 3D Point Clouds: A Survey

#1ではAbstractについて、#2ではIntroduction(Section1)について、#3では3D Shape Classification(Section2)について取り扱いました。
https://lib-arts.hatenablog.com/entry/point_clouds_dl1
https://lib-arts.hatenablog.com/entry/point_clouds_dl2
https://lib-arts.hatenablog.com/entry/point_clouds_dl3
#4ではSection3の3D Object Detection and Trackingについて取り扱っていきます。
以下目次になります。
1. 3D Object Detection(Section3-1)
1-1. Region Proposal-based Methods(Section3-1-1)
1-2. Single Shot Methods(Section3-1-2)
2. 3D Object Tracking(Section3-2)
3. 3D Scene Flow Estimation(Section3-3)
4. まとめ

1. 3D Object Detection(Section3-1)
1節ではSection3-1の3D Object Detectionについて確認します。

f:id:lib-arts:20200303193540p:plain

まずはSection3全体の冒頭部も含めて冒頭部を確認します。まずSectionの冒頭部としては、Section3全体として3D object detection(Section3-1)、3D object tracking(Section3-2)、3D scene flow estimation(Section3-3)を取り扱うとしています。それぞれ1〜3節で取り扱っていきます。また、Section3-1の冒頭部の記載としては、3D object detectionを二つのカテゴリに分けておりそれぞれ、(1)region proposal-based methods(Section3-1-1)、(2)single shot methods(Section3-1-2)であるとしています。これらは通常のObject Detectionにおいて、(1)がFast RCNNやFaster RCNN、(2)がSSDやM2Detに対応すると考えておくと良さそうです。また、Fig.6に研究におけるいくつかのマイルストーンとなった研究を紹介しているとしています。

f:id:lib-arts:20200303194553p:plain

1-1. Region Proposal-based Methods(Section3-1-1)
1-1節ではSection3-1-1のegion Proposal-based Methodsについて確認します。

f:id:lib-arts:20200303194848p:plain

まず上記では、Region Proposal-based Methodsを三つのカテゴリに分けており、multi-view-based、segmentation-based、frustum-based methodsの三つを挙げています。

f:id:lib-arts:20200303195130p:plain

それぞれの手法の概要は上記のFig.7に図示されています。(a)がmulti-view based methodsでいくつかのViewを元に畳み込みを行い、そこからRoI(Region of Interest)を抽出する手法になっています。研究例としてはMV3Dが挙げられています。(b)がsegmentation-based methodsで、まずsemantic segmentationを行うことで背景を分離し、計算量を減らすとされています。研究例としてはPointRCNNが挙げられています。(c)がfrustum-based methodsで、2Dの画像の情報を3Dの点群に組み合わせることでRoIの抽出を行なっているとされています。研究例としてはFrustum PointNets(F-PointNets)が挙げられています。

1-2. Single Shot Methods(Section3-1-2)
1-2節ではSection3-1-2のingle Shot Methodsについて確認します。

f:id:lib-arts:20200303200038p:plain

冒頭部の記載では、Single Shot MethodsではRoIを計算せずに直接クラスの確率や3Dのobjectのbounding boxesを回帰するとしています。このことにより、結果として高速な処理が可能になるため、リアルタイムでの応用に適しているとされています。また、このSingle Shot Methodsは2つのカテゴリに分けることができそれぞれ、(1)BEV-based methods、(2)point-based methods、の二つが挙げられています。ここでBEVはBird's Eye Viewの略で鳥瞰図を意味しています。

f:id:lib-arts:20200303200743p:plain

上記のTable2で3D Object Detectionのそれぞれの手法と、ベンチマークのスコアがまとめられています。上記で頭を整理しつつ、詳細が気になれば都度調べていくというのが良さそうです。

2. 3D Object Tracking(Section3-2)
2節ではSection3-2の3D Object Trackingについて取り扱います。

f:id:lib-arts:20200303201020p:plain

f:id:lib-arts:20200303201106p:plain

冒頭部の記述では、3D Object Trackingのタスク概要として「初期フレームにおけるobjectの位置が与えられた際に、それに続くフレームにおけるそのobjectを推定する」ということや、3D Object Trackingに対する期待として「2Dの際にネックとなっている、objectの重なりやスケール変化の問題などの欠点を克服することが望まれる」ということが記述されています。

詳細については簡単な説明のみであったため、ここでは省略します。

3. 3D Scene Flow Estimation(Section3-3)
3節ではSection3-3の3D Scene Flow Estimationについて取り扱います。

f:id:lib-arts:20200303201650p:plain

冒頭の記載としては、3D Scene Flow Estimationの概要について2Dの画像処理におけるoptical flowの推定の類似として説明を行なっています。点群の系列(sequence of point clouds)から、3D scene flowやspatial-temporary informationなどの有用な情報を学習することをいくつかの手法が試み始めていることについて記載されています。また、具体的な研究例として、FlowNet3DやHPLFlowNetなどが紹介されています。

4. まとめ
#4ではSection3の3D Object Detection and Trackingについて確認しました。
#5では引き続きSection4の3D Point Cloud Segmentationについて取り扱っていきます。