PASCAL VOC②(PASCAL VOC 2010、2012)|機械学習の有名データセットや評価指標を確認する #2

f:id:lib-arts:20190622163957p:plain

機械学習の研究を読み解いたり実際に取り組んだりする中でデータセットや評価指標について知っておくと良いので、それらについての整理を行うにあたって連載を行なっていきます。
#1では2005年〜2012年頃の画像認識のデータセットとして有名なPASCAL VOCの概要と初期のデータセットとしてよく見かけるPASCAL VOC2007について取り扱いました。

#2では#1に引き続きPASCAL VOCの2010と2012について取り扱えればと思います。
以下目次になります。
1. PASCAL VOC 2010について
2. PASCAL VOC 2012について
3. まとめ


1. PASCAL VOC 2010について
1節ではPASCAL VOC 2010について取り扱います。2010年はImageNetを大元のデータセットとする、ILSVRC(ImageNet Large Scale Visual Recognition Challenge)が始まったことでも着目です。

f:id:lib-arts:20190622164501p:plain

The PASCAL Visual Object Classes Challenge 2010 (VOC2010)

まずはIntroductionについて簡単に見ていきます。

f:id:lib-arts:20190622164739p:plain
#1でまとめたPASCAL VOC 2007との違いとしては、メインのコンペティションもお試し用の(taster)コンペティションも2つではなく、3つになっているという点です。メインのコンペティションに関しては『画像識別(classification)、物体検出(detection)、意味分割(segmentation)』の三つであり、"taster"のコンペティションは『person layout、行動分類、ImageNetを用いた大規模の認識』となっています。メインのコンペティションは2007の4つのコンペティションから、3つが選ばれています。また、"taster"に関しては2007と引き続き"Person Layout"に加え、"Action Classification"と"ImageNet Large Scale Visual Recognition Taster Competition"が追加されています。

f:id:lib-arts:20190622170138p:plain
"Action Classification"に関しては上記のようなデータのように、行なっている行動(action)を分類する問題です。

・Phoning(電話をかける)
・PlayingInstrument(楽器を演奏する)
・Reading(読書を行う)
・RidingBike(バイクや自転車に乗る)
・RidingHorse(馬に乗る)
・Running(走る)
・TakingPhoto(写真を撮る)
・UsingComputer(コンピュータを使用する)
・Walking(歩く)

上記の9つのタグにそれぞれの行動が分類される形となっています。

f:id:lib-arts:20190622170210p:plain
また、"ImageNet Large Scale Visual Recognition Taster Competition"に関しては上記のように記載があります。簡単に要約しておきます。

要約:
コンペティションの目的は、1,000万ほどの手動でラベルづけされたデータセットであるImageNetデータセットを用いた写真の内容を推定することです。検証用の画像はアノテーション(セグメンテーション、ラベルなど)が初期では与えられず、アルゴリズムによって画像にどの物体があるかのラベルを生み出します。このコンペティションのはじめとして、画像の識別だけを目的とします。

上記で大体の概要については確認できたので1節はここまでとします。


2. PASCAL VOC 2012について
2節では、PASCAL VOC 2012について取り扱います。PASCAL VOCは2012年をもって終了したので、開催された最後のPASCAL VOCとなっています。

f:id:lib-arts:20190622172807p:plain

The PASCAL Visual Object Classes Challenge 2012 (VOC2012)

ページのファーストビューは2010とさほど変わらないので、次はIntroductionを確認します。

f:id:lib-arts:20190622172839p:plain
確認したところ、概要としてはさほど違いがないようです。前年である2011との差分を記述しているので、こちらを確認します。
f:id:lib-arts:20190622172900p:plain
以下簡単に要約します。

要約:
VOC2012におけるアノテーションの取り組みの大半はセグメンテーション(segmentation)や行動分類(action classification)のデータセットに対して行われました。一方で分類/検出のタスクのアノテーションの追加は行いませんでした。VOC2011とVOC2012の差分は下記のリストでまとめました。


・Classification/Detection
2012のデータセットは2011で用いられたデータセットと同様です。

・Segmentation
2012のデータセットアノテーションがすでについた2008〜2011の画像を含んでいます。セグメンテーションのための画像の総数は7,062から9,993に増加しました。

・Action Classification
2012のデータセットは2011のデータセットと追加したアノテーション画像を含みます。

・Person Layout Taster
2012のデータセットは2011のデータセットと同様です。

2012は2011から大きな変化がなかったと考えて良さそうです。ILSVRCの出現によってプロジェクトの意味合いが変わってきたという影響もあるように思われます。ここまでで大体の概要は把握できたので2節はここまでとします。


3. まとめ
#1、#2ではPASCAL VOCの2007、2010、2012の三つに関して概要の確認を行いました。
大体のイメージはついたので、#3ではこれらを踏まえて実際にデータを確認していければと思います。