【Surveyの確認】A Survey on Visual Transformer

f:id:lib-arts:20210126203022p:plain

以前の記事ではVision Transformerについて論文の確認や実装の確認を行いました。

今回は研究トレンドの把握ということでSurveyの"A Survey on Visual Transformer"の確認を行えればと思います。

[2012.12556] A Survey on Visual Transformer

なお、名称がVisual Transformerで、以前取り扱ったVisual Transformersと若干被りますが、Surveyの内容的にVision Transformerの方が近しいと思われることに注意が必要です。

新規トピックの研究で用いられる名称に関しては表記が色々と混在することが多いので、この辺はあまり気にしなくて良いかと思います。
以下、目次になります。(基本的には主題のSection4を中心に取り扱います)
1. Vision Transformerの概要(Abstract、Introductionの確認)
1-1 Abstractの確認
1-2 Introductionの確認(Section1)
2. 重要なポイントの抜粋
2-1 Formulation of Transformer(Section2)
2-2 Revisiting Transformers for NLP(Section3)
2-3 Visual Transformer(Section4)
2-4 Conclusions and Future Prospects(Section5)
3. まとめ

 

1. Vision Transformerの概要(Abstract、Introductionの確認)
1-1 Abstractの確認
1-1節ではAbstractの内容を確認しながら概要について把握します。以下一文ずつ和訳とともに解説を行います。

Transformer, first applied to the field of natural language processing, is a type of deep neural network mainly based on the self-attention mechanism. Thanks to its strong representation capabilities, researchers are looking at ways to apply transformer to computer vision tasks.

和訳:『Transformerは最初に自然言語処理の分野で用いられた、主にself-attentionメカニズムに基づいたDeepLearningの一種である。Transformerの強力な表現のキャパシティを背景に、研究者達はTransformerをコンピュータビジョンのタスクに適用することに目を向けている。』
解説:『一般論としてのTransformerの紹介と、コンピュータビジョンのタスクへの適用について言及されています。こちらは前置きなので流して大丈夫です。』

In a variety of visual benchmarks, transformer-based models perform similar to or better than other types of networks such as convolutional and recurrent networks. Given its high performance and no need for human-defined inductive bias, transformer is receiving more and more attention from the computer vision community.

和訳:『様々なコンピュータビジョンのベンチマークにおいて、TransformerベースのモデルがCNNやRNNなどの他のDeepLearningの手法に比類したり上回ったりしている。高精度と人間が定義するinductive biasの必要性がないことによって、Transformerはコンピュータビジョンのコミュニティから益々の注目を集めている。』
解説:『Transformerのコンピュータビジョンへの適用にあたっての成果について言及されています。』

In this paper, we review these visual transformer models by categorizing them in different tasks and analyzing their advantages and disadvantages. The main categories we explore include the backbone network, high/mid-level vision, low-level vision, and video processing. We also take a brief look at the self-attention mechanism in computer vision, as it is the base component in transformer. Furthermore, we include efficient transformer methods for pushing transformer into real device-based applications. Toward the end of this paper, we discuss the challenges and provide several further research directions for visual transformers.

和訳:『この論文では、我々は様々なタスクにおけるカテゴライズによってVisual Transformerをレビューし優位性と非優位性の分析を行った。メインの分野としてbackbone network、high/mid-level vision、low-level vision、and video processingなどの調査を行った。我々はコンピュータビジョンにおけるself-attentionメカニズムの俯瞰も、self-attentionがTransformerの基本的な構成要素であるため取りまとめを行った。さらに、Transformerの実際のデバイスへの効率的な応用についてもトピックに加えた。このSurveyを通して、Visual Transformerの課題について議論し、将来研究のいくつかの方向性について示した。』
解説:『Surveyが取り扱う分野について色々と言及されています。』

Surveyなので解説は少なめでしたが、詳しくは主に2-3節で確認を行えればと思います。


1-2 Introductionの確認(Section1)
1-2節ではIntroductionの確認をパラグラフ単位で行っていきます。

f:id:lib-arts:20210208222620p:plain

f:id:lib-arts:20210208222636p:plain
第一パラグラフでは、DeepLearningの研究トレンドの大枠について記載されています。MLP(Multi Layer Perceptron)、CNN、RNN、Transformerなどが紹介されています。

f:id:lib-arts:20210208222920p:plain

第二パラグラフでは自然言語処理の文脈におけるTransformerについて記載されています。言語処理の事前学習モデルの契機となったBERT[2018]や、2020年に公開された大規模な学習モデルであるGPT-3などについて紹介されています。GPT-3のパラメータ数はBERTのおよそ1,000倍であり、非常に大規模であることが確認できます。

f:id:lib-arts:20210208223652p:plain
f:id:lib-arts:20210208223513p:plain
第三パラグラフでは、TransformerのConputer Vision分野への拡張について言及されています。以前確認したViT(Vision Transformer)についても触れられています。

f:id:lib-arts:20210208223842p:plain

第四パラグラフは省略し、第五パラグラフでは、Surveyの構成について記載されています。Section4がメイントピックであるため、続く2節ではSection4を中心に確認を行います。


2. 重要なポイントの抜粋
2-1 Formulation of Transformer(Section2)
一般的な内容のためここでは省略します。


2-2 Revisiting Transformers for NLP(Section3)

f:id:lib-arts:20210208230619p:plain

基本的には一般的な内容ですが、パラメータ数の比較だけ把握しておく方が望ましいと思われるので確認します。ベースラインのBERTやT5(Text-to-Text Transfer Transformer)、GPT-3などのパラメータ数の規模感を把握しておくと良いかと思います。


2-3 Visual Transformer(Section4)
2-3節ではSection4のVisual Transformerについて確認を行っていきます。

f:id:lib-arts:20210208224621p:plain

冒頭部の記載では、Section4の俯瞰として、タスクやself-attentionメカニズムなどについて言及されています。以下重要度が高いと思われる内容について抜粋していきます。

f:id:lib-arts:20210208224806p:plain

まず論文のSection4-1では画像分類(Image Classification)タスクについて言及されています。研究例としてiGPTと以前の記事で取り扱ったViTが紹介されています。

f:id:lib-arts:20210208225957p:plain

それぞれのパフォーマンス面は上記にまとめられており、TransformerベースのiGPTとViTに対して、CNNベースのBiT-Lのパフォーマンス比較が行われています。

f:id:lib-arts:20210208225130p:plain

次にSection4-2ではHigh-level Visionとして物体検出(Object Detection)やレーン検出(lane detection)、セグメンテーション(Segmentation)などのタスクが紹介されています。

f:id:lib-arts:20210208225420p:plain

lane detectionについてはこれまで取り扱っていなかったので簡単にタスク概要をご紹介しておきます。上記のように道路のレーンを検出すると考えておけば良いかと思います。

f:id:lib-arts:20210208230808p:plain

Section4-3ではLow-level Visionとして超解像(image super-resolution)や生成(generation)が挙げられています。

f:id:lib-arts:20210208231131p:plain
Section4-4ではVideo Processingについて紹介されています。背景として、Transformerが系列ベースのタスク(sequence-based tasks)に強いことが言及されています。また、spatial and temporal dimensionは空間的時間的次元を意味し、これは以前確認したGraph Neural NetworkのSurveyにも同様の記載があったことを合わせて抑えておくと良いかと思います。

上記では取り扱うグラフの動的性質(Dynamicity)の取り扱いに取り組んでいく必要があると言及されています。

f:id:lib-arts:20210208232331p:plain
Section4-5では、Computer Vision分野におけるself-attentionについてまとめられています。今回は詳しくは取り扱いませんが、Section4-5-2は必要に応じて参照するのが良さそうです。

f:id:lib-arts:20210208232752p:plain

Section4-6では、Transformerベースのモデルの軽量化について議論されています。

ALBERT(A Little BERT)については以前取り扱ったので、ご紹介だけしておきます。


2-4 Conclusions and Future Prospects(Section5)
省略します。


3. まとめ
今回はSurveyの"A Survey on Visual Transformer"を元に、Transformerの画像処理への導入について俯瞰を行いました。詳細までは確認しませんでしたが、必要に応じてSection4を参照できると良いのではと思われました。