PASCAL VOC①(概要&PASCAL VOC2007の確認)|機械学習の有名データセットや評価指標を確認する #1

f:id:lib-arts:20190621231512p:plain
機械学習の研究を読み解いたり実際に取り組んだりする中で、先に把握しておくと良いのが有名なデータセットやその評価指標などです。これらについて把握しておくことで、学習にあたっての目的が明確になったり、誤差関数を組むにあたっての参考になったりします。
また、どのようなデータセットでどのくらいの結果が出ているかを概ね把握しておくことで、取り組むタスクの難易度や予算感、マイルストーン設定なども明確になります。
このように、意外とデータセットや評価指標についてのポイントで詰まると時間が無駄になるので、それを受け当シリーズでは機械学習における有名なデータセットや評価指標についての確認を行なっていければと思います。
#1では2005年〜2012年頃の画像認識のデータセットとして有名なPASCAL VOCの概要と初期のデータセットとしてよく見かけるPASCAL VOC2007について取り扱います。
以下目次になります。
1. PASCAL VOCの概要
2. PASCAL VOC2007の概要
3. PASCAL VOC2007のデータセットやそれぞれの評価指標の確認
4. まとめ


1. PASCAL VOCの概要
1節ではPASCAL VOCの概要について取り扱います。まずは公式のトップページを確認します。

f:id:lib-arts:20190621232240p:plain

The PASCAL Visual Object Classes Homepage
PASCALは"Pattern Analysis, Statistical Modeling and Computational Learning"、VOCは"Visual Object Classes"を意味しています。概要を掴むにあたって上記を簡単に和訳します。

要約:
PASCAL VOCのプロジェクト
・物体クラス認識のためのスタンダードな画像のデータセットを提供します
・データセットアノテーションにアクセスするための一般的なツールセットを提供します
・結果の評価や異なる手法間の比較を可能にします
・パフォーマンスを評価するコンペティションを開催します(2005年〜2012年)

 

PASCAL VOCのデータセット
VOCのコンペティションのデータはリンクページから入手可能で、データセットに関する新規手法の評価は"PASCAL VOC Evaluation Server"から手に入れることができます。"evaluation server"はコンペティションが終了してもアクティブのまま残る予定です。

次にトップページの各年のコンペの詳細も簡単に見てみます。

f:id:lib-arts:20190622120829p:plain

f:id:lib-arts:20190622121139p:plain

2005年に始まり、2012年に終了しているのですが、ベンチマークとして時折見かける2007、2010、2012を中心に見ていきます。まずは2007年のところで20クラスの画像が用意されています。画像数はだいたい10,000ほどで、24,640の物体のアノテーションがあるとされています。2010年はNew developmentsのところでILSVRC(Imagenet Large Scale Visual Recognition Challenge)について言及されています。2012年は最終年ですが、画像やアノテートとしては一番多くなっています。
だいたいの概要はつかめたと思うので、2節、3節では上記を受けてPASCAL VOC2007について確認していきます。

 

2. PASCAL VOC2007の概要
2節ではPASCAL VOC2007の概要について見ていきます。まずは公式の2007年のページを確認します。

f:id:lib-arts:20190622122226p:plain

The PASCAL Visual Object Classes Challenge 2007 (VOC2007)

まずは概要について確認できればということでIntroductionを要約します。

f:id:lib-arts:20190622122502p:plain

要約:
このコンペティションの目的は多くの実際の画像(例えば事前に物体のセグメントなどがされていない画像)から物体を認識することです。基本的にはラベル付けされた画像の学習セットが与えられた状況での教師あり学習(supervised learning)の問題です。選ばれた20の物体のクラスは下記です。
・人:人
・動物:鳥、猫、牛、犬、馬、羊
・乗物:飛行機、自転車、ボート、バス、車、バイク、電車
・家具:ボトル、椅子、キッチンテーブル、ポット、ソファ、テレビ
二つの主要なコンペティションと、より小さな二つのお試し用の(taster)コンペティションがあります。

次にMain Competitionsについて確認していきます。こちらも簡単に要約します。

f:id:lib-arts:20190622123710p:plain

1. 画像分類:20クラスの画像それぞれに対して、テスト画像においてクラスが存在するか/しないかを予測する。
2. 物体検出:テスト画像の20クラスの対象からそれぞれの物体のbounding boxとラベルを予測する。
参加者はどちらか及び両方のコンペティションに参加でき、20クラスの中から任意の一つまたは全てのクラスに取り組むことができます。

また、Taster Competitionsについても確認していきましょう。こちらも簡単に要約します。

f:id:lib-arts:20190622124600p:plain

1. セグメンテーション:ピクセル単位のセグメンテーション(意味分割)を生成する。
2. Person Layout:頭や手、足など人の体の部位をbounding boxで予測する。

上記まででPASCAL VOC2007の概要については確認できたので、2節はここまでとできればと思います。
3節では実際にデータセットの中身を確認していきます。


3. PASCAL VOC2007のデータセットやそれぞれの評価指標の確認
3節ではPASCAL VOC2007のデータセットやそれぞれの評価指標について確認していきます。まずは"PASCAL VOC2007 Example Images"のページを確認します。

f:id:lib-arts:20190622125524p:plain

PASCAL VOC2007 Example Images

画像は少なくとも一つのインスタンスを含むとされています。リンクをクリックすることでそれぞれのサンプルについて確認することができます。以下いくつか例をご紹介します。
・鳥

f:id:lib-arts:20190622154847p:plain
・猫

f:id:lib-arts:20190622154910p:plain
・犬

f:id:lib-arts:20190622155137p:plain
飛行機

f:id:lib-arts:20190622155320p:plain
・ボート

f:id:lib-arts:20190622155357p:plain
・椅子

f:id:lib-arts:20190622155422p:plain
また評価指標については下記のスライドにまとまっています。

f:id:lib-arts:20190622160054p:plain

http://host.robots.ox.ac.uk/pascal/VOC/voc2007/workshop/everingham_cls.pdf

評価指標としては、物体検出の際などによく出てくるAverage Precisionが用いられています。


4. まとめ
#1ではPASCAL VOC 2007について取り扱いました。
#2も同様にPASCAL VOCから2010と2012について取り扱えればと思います。