Survey論文の確認③(3D Shape Classification)|3D Point CloudsとDeepLearning #3
点群(Point Clouds)の基本的な内容については以前の記事で取り扱いました。
点群に対しても近年DeepLearningの導入が検討されており概要を掴むにあたって、下記のSurvey論文を元に読み進めています。
[1912.12033] Deep Learning for 3D Point Clouds: A Survey
#1ではAbstractについて、#2ではIntroduction(Section1)について取り扱いました。
https://lib-arts.hatenablog.com/entry/point_clouds_dl1
https://lib-arts.hatenablog.com/entry/point_clouds_dl2
#3ではSection2の3D Shape Classificationについて取り扱っていきます。
以下目次になります。
1. 冒頭部(3D Shape Classification_Section2)
2. Projection-based Networks(Section2-1)
2-1. Multi-view representation(Section2-1-1)
2-2. Volumetric representation(Section2-1-2)
3. Point-based Networks(Section2-2)
3-1. Pointwise MLP Networks(Section2-2-1)
3-2. Convolution-based Networks(Section2-2-2)
3-3. Graph-based Networks(Section2-2-3)
3-4. Data Indexing-based Networks(Section2-2-4)
3-5. Other Networks(Section2-2-5)
4. まとめ
1. 冒頭部(3D Shape Classification_Section2)
1節ではSection2の冒頭部について確認します。
第一パラグラフでは、3D Shape Classificationの概要として、「全ての点のembeddingを学習した上で、全体の点群から全体のshape embeddingを抽出し、分類(classification)を行う」と紹介しています。実際に計算を進めていくにあたって3D Shape Classificationの手法はprojection-based networksとpoint-based networksの二つあるとされており、それぞれSection2-1とSection2-2で取り扱われてます。また、研究のmilestoneについてFig.2で取り扱っているとしています。
Fig.2では研究の時系列に沿っての外観(Chronological overview)がまとめられています。
第二パラグラフでは、projection-based methodsとpoint-based methodsの二つについてそれぞれ簡単に説明しています。projection-basedの手法では構造化されていない(unstructured)点群を中間正則表現(intermediate regular representation)に変換(project)し、shape classificationにあたっての2Dや3Dの畳み込みに影響を及ぼすとされています。対比的に、point-basedの手法では、点群(point clouds)のdataをそのまま用いて計算するとされています。また、このサーベイではどちらの手法も取り扱うものの、主にpoint-basedのネットワークについて取り扱うとされています。
2. Projection-based Networks(Section2-1)
2節ではSection2-1のProjection-based Networksについて取り扱います。
冒頭部の記載では、3D point cloudsのデータ形式を変換するにあたっての表現として、multi-viewとvolumetric representationについて言及しています。それぞれSection2-1-1とSection2-1-2節で取り扱っているので、それぞれ以下で確認していきます。
2-1. Multi-view representation(Section2-1-1)
2-1節ではSection2-1-1のMulti-view representationについて確認します。
Multi-view representationでは、3Dの物体を複数の視点に投影し視点毎の特徴量(view-wise features)を抽出し、物体認識に用いるとされています。先駆的な研究としてMVCNNやその改善の研究であるMHBNなどが研究例としては紹介されています。
2-2. Volumetric representation(Section2-1-2)
2-2節ではSection2-1-2のVolumetric representationについて確認します。
(中略)
Volumetric representationでは立体のグリッドであるvoxel(pixelの3D版)における二次元の変数による確率分布によって3Dの形状を表現するとされています。研究例として、VoxNetなどが挙げられていますが、このアプローチは解像度(resolution)を上げるとその3乗に比例して計算量が大きくなるとされています。これを解消するにあたって、octreeのような階層型のコンパクトなグラフ構造が考案されたとしており、OctNetなどがその例として挙げられています。
3. Point-based Networks(Section2-2)
3節ではSection2-2のPoint-based Networksについて取り扱います。
冒頭部では、point-basedな手法の大別として、pointwise MLP(Section2-2-1)、convolution-based(Section2-2-2)、graph-based(Section2-2-3)、data indexing-based networks(Section2-2-4)、other typical network(Section2-2-5)が挙げられています。以下それぞれについて確認していきます。
3-1. Pointwise MLP Networks(Section2-2-1)
3-1節ではSection2-2-1のPointwise MLP Networksについて確認します。
第一パラグラフでは、Fig.3を元に計算の全体像について説明しています。
Fig.3では、PointNetのネットワーク構造を元にPointwise MLP Networksの処理の概要について説明しています。nは入力する点の数、Mはそれぞれの点の特徴量の次元であるとされています。
以降ではPointNetやPointNet++などを紹介しながら詳細について説明されています。
また、上記に記載があるように、多くの後発の研究はPointNetをベースに開発されているとなっています。
3-2. Convolution-based Networks(Section2-2-2)
3-2節ではSection2-2-2のConvolution-based Networksについて確認します。
基本的な処理の概要については上記のFig.4に記載されています。Fig.4の(a)のように点の近さを考え、その点に近い点の情報を元に畳み込みを行うとされています。畳み込みにあたっては(b)のように連続的な(continuous)畳み込み処理を行う手法と、(c)のように離散的な(discrete)畳み込み処理を行う手法について紹介されています。
3-3. Graph-based Networks(Section2-2-3)
3-3節ではSection2-2-3のGraph-based Networksについて確認します。
Graph-basedな手法では、以前の記事で取り扱ったConvGNNsと同様の処理を行なっているようです。
spatialなアプローチとspectralなアプローチについてそれぞれ説明されています。
3-4. Data Indexing-based Networks(Section2-2-4)
3-5. Other Networks(Section2-2-5)
今回は省略しますが、全体の手法の整理がTable1にまとまっているので、こちらだけご紹介します。
4. まとめ
#3ではSection2の3D Shape Classificationについて取り扱いました。
#4では引き続き、Section3の3D Object Detection and Trackingについて取り扱っていきます。