PointNet①(Abstract & Introduction)|3D Point CloudsとDeepLearning #6

f:id:lib-arts:20200310233133p:plain

[1912.12033] Deep Learning for 3D Point Clouds: A Survey

点群に対しての近年DeepLearningの導入について、#1〜#5では上記のSurveyを読み進めました。

Survey論文の確認①(Abstractと概要)|3D Point CloudsとDeepLearning #1 - Liberal Art’s diary

Survey論文の確認②(Introduction)|3D Point CloudsとDeepLearning #2 - Liberal Art’s diary

Survey論文の確認③(3D Shape Classification)|3D Point CloudsとDeepLearning #3 - Liberal Art’s diary

Survey論文の確認④(3D Object Detection and Tracking)|3D Point CloudsとDeepLearning #4 - Liberal Art’s diary

Survey論文の確認⑤(3D Point Cloud Segmentation)|3D Point CloudsとDeepLearning #5 - Liberal Art’s diary

#6以降ではSurveyで確認した内容を踏まえて、論文を確認していければと思います。まず手始めとして、多くの項目において参照されていたPointNet[2016]について確認していきます。
#6ではPointNetの論文のAbstractとIntroductionを確認し、概要についてつかみます。
以下目次になります。
1. Abstract
2. Introduction(Section1)
3. まとめ


1. Abstract
1節ではAbstractの内容を確認しながら概要について把握します。以下各文の和訳などを通して簡単に内容を確認します。

Point cloud is an important type of geometric data structure. Due to its irregular format, most researchers transform such data to regular 3D voxel grids or collections of images.

和訳:『点群(point cloud)は幾何学的なdataの構造の重要なパターンである。その不規則なフォーマットのために、数多くの研究者が点群のデータを規則的な3Dのvoxelや画像の集合として変換した。』
#1〜#5で取り扱ったSurveyでは手法をprojection-basedとpoint-basedに分けていましたが、上記はその中のproject-basedの手法について言及しています。

This, however, renders data unnecessarily voluminous and causes issues. In this paper, we design a novel type of neural network that directly consumes point clouds, which well respects the permutation invariance of points in the input.

和訳:『しかしながら、前述の手法(projection-basedの手法)ではdataを不必要なレベルで増大させ、問題を引き起こす。この論文では、新しいタイプのニューラルネットワークを設計し、点群を直接取り扱い、入力における点のpermutation invarianceをうまく取り扱っている。』
permutation invarianceについてはここの記載だけだと読み取れませんでしたが、全体の流れとしては、projection-basedの手法では計算量やデータのサイズなどが大きくなってしまうため、点群の入力をそのまま取り扱う、point-basedなアプローチの導入を試みたと抑えておけば十分だと思います。

Our network, named PointNet, provides a unified architecture for applications ranging from object classification, part segmentation, to scene semantic parsing. Though simple, PointNet is highly efficient and effective.

和訳:『PointNetと名付けた我々のネットワークは、物体の分類や部分的なセグメンテーションからscene semantic parsingまでの範囲の応用にあたっての統合的な構造を提供している。シンプルな構造である一方で、PointNetはとても効率的で効果的である。』
この研究においてのネットワークをPointNetと名付け、その応用性などについて言及しています。詳細については該当部分を読み進めると良さそうです。

Empirically, it shows strong performance on par or even better than state of the art. Theoretically, we provide analysis towards understanding of what the network has learnt and why the network is robust with respect to input perturbation and corruption.

和訳:『包括的に評価した際に、PointNetはSotAを上回るパフォーマンスを示した。理論的に、我々はネットワークが学んだ内容やなぜネットワークがロバストなのかの理解にあたって、入力のpertubationやcorruptionの点からの分析を提供している。』
上記ではPointNetのパフォーマンスにあたって言及しています。こちらについても該当部分を確認しつつ詳細について理解すると良さそうです。


2. Introduction(Section1)
2節ではSection1のIntroductionについて確認します。以下パラグラフ単位で確認していきます。

f:id:lib-arts:20200311000443p:plain

第一パラグラフでは、Abstractでも記載したように、projection-basedについてのアプローチについて紹介した上で、欠点として不必要なデータの増大(unnecessarily voluminous)を招くと言及しています。

f:id:lib-arts:20200311001041p:plain

f:id:lib-arts:20200311001100p:plain
第二パラグラフでは、projection-basedの欠点を受けてシンプルに取り扱えるpoint-basedなアプローチを考えるにあたって、PointNetを提案しています。複雑な処理が必要なprojection-basedとは異なり、PointNetはシンプルな構造であるとされています。

f:id:lib-arts:20200311001446p:plain

第三パラグラフでは、同じくPointNetについて言及しています。点群の入力としては3Dの座標(three coordinates)として(x,y,z)で表現されています。
第四〜第七パラグラフは詳細部分を確認した方が良さそうなため、ここでは省略します。

f:id:lib-arts:20200311001842p:plain
第八パラグラフでは、論文の主要なcontributionsについてまとめられています。それぞれネットワーク構造、応用タスクに対する学習方法、包括的な分析、特徴量の可視化などが紹介されています。


3. まとめ
#6ではPointNetの論文のAbstractとIntroductionを確認し、概要についてつかみました。
#7ではSection2のRelated Work以降の内容について、重要箇所にフォーカスして確認していきます。