GLUE(General Language Understanding Evaluation) dataset②|機械学習の有名データセットや評価指標を確認する #5

f:id:lib-arts:20190623111710p:plain

機械学習の研究を読み解いたり実際に取り組んだりする中でデータセットや評価指標について知っておくと良いので、それらについての整理を行うにあたって連載を行なっていきます。
#1〜#3では2005年〜2012年頃の画像認識のデータセットとして有名なPASCAL VOCについて取り扱ってきました。

#4からは自然言語処理に用いられるGLUE(General Language Understanding Evaluation)ベンチマークについて取り扱っています。

GLUE Benchmark
#4ではデータセットの概要とCoLA(The Corpus of Linguistic Acceptability)とQQA(Quora Question Pairs)について取り扱いました。

GLUEのデータセットは10ほどあるので、#5ではもういくつかピックアップできればと思います。
以下目次になります。

1. diagnostic(Diagnostics Main)に関して
2. QNLI(Question NLI)に関して
3. RTE(Recognizing Textual Entailment)
4. まとめ


1. diagnostic(Diagnostics Main)に関して
1節ではdiagnostic(Diagnostics Main)について取り扱います。まずはデータセットの公式ページを確認します。

f:id:lib-arts:20190626122514p:plain

https://gluebenchmark.com/diagnostics

Diagnostics MainについてはGLUEのページに記載があります。概要を掴むにあたってまずはIntroductionを確認していきましょう。

f:id:lib-arts:20190626122546p:plain
上記を簡単に要約します。
要約:『GLUEは言語に関する広範できめの細かい分析が行えるようにするために手動でキュレートされた評価データセットより派生しています。データセット自然言語推論(NLI; Natural Language Inference)を通して文の理解を評価します。NLIのタスクは構文の曖昧性の解決からhigh-levelのreasoningまで言語理解に関する広範なスキルセットを含むため我々の目的に合致します。GLUEの論文のSection4にアノテーションの過程の記述と例をまとめています。』
一見データセット全体の説明の様にも見え、若干紛らわしいので先にデータを確認しましょう。

f:id:lib-arts:20190626152257p:plain
実際にダウンロードしたデータとして与えられるdiagnostic.tsvは上記の様な形式になっています。Sentence1とSentence2の二つがあり、何らかの対比になっているであろうことが推測できます。例えば最初の"The cat sat on the mat."と、"The cat did not sit on the mat."についてですが、否定形の対になっています。データセットからこれ以上読み取るのは逆に時間がかかりそうなので、次に参照している論文について確認していければと思います。

f:id:lib-arts:20190626153541p:plain

[1804.07461] GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding

論文を軽く読み流していくと、Section3でその他のタスクについて言及されており、Section4で"Diagnostic Dataset"の言及があることが確認できます。

f:id:lib-arts:20190626153613p:plain
GLUEとしてまとめる際に多くは既存のデータセットを用いている一方で、"Diagnostic Dataset"についてはある程度独自で定義している様です。

f:id:lib-arts:20190626172626p:plain
上記を確認すると"manually-curated test set"とあり、基本的には検証用のデータセットであることがわかります。

・Table2

f:id:lib-arts:20190626172642p:plain
・Table4

f:id:lib-arts:20190626172711p:plain

Table2やTable4に詳しい仕様などについて載っている様なのですが、概要の把握が目的のため、今回はここまでとします。


2. QNLI(Question NLI)に関して
2節ではQNLI(Question NLI)について取り扱います。まずはデータセットの出展ページを確認します。

f:id:lib-arts:20190626174232p:plain

The Stanford Question Answering Dataset
データの出展としては有名なデータセットのSQuAD(Stanford Question Answering Dataset)になっています。"What is SQuAD?"のところでQA(Question Answering)のデータセットで、クラウドワーカーによって作られたWikipedia記事を用いた質問と回答の対であると述べられています。
大体の概要はつかめたので早速中身を見ていきましょう。

f:id:lib-arts:20190626174938p:plain
上記の様に質問と回答文の対のデータセットとなっています。

f:id:lib-arts:20190626175707p:plain
また、SQuADのページではLeaderboardの機能も提供されており、現状(6/26執筆)のスコアは上記の様になっています。

上記の記事などでも言及しているBERTベースのものが上位に多いですが、つい一週間前の6/19に出されたXLNetも4位にランクインしています。

[1906.08237] XLNet: Generalized Autoregressive Pretraining for Language Understanding

BERTやXLNetがpre-trainedモデルであり、まだ出てからどちらも日が浅いことを鑑みると、この辺のスコアの更新は今後しばらく起こるのではないかと思われます。
データセットについて大体のイメージがつかめたので2節はここまでとします。


3. RTE(Recognizing Textual Entailment)
3節ではRTE(Recognizing Textual Entailment)について取り扱います。まずは参照ページを確認します。

f:id:lib-arts:20190626183054p:plain

Recognizing Textual Entailment - ACL Wiki

概要の把握のために下記で簡単に冒頭部の要約を行います。

要約:
Textual Entailment Recognitionは近年、Question Answering、Information Retrieval、Text Summarizationなどの多くの主要な意味推論の必要性を持つ総括的なタスクとして提案されてきた。このタスクは二つの文が与えられた際に片方のテキストがもう片方のテキストから派生しているかどうか認識することを必要とする。

大まかな目的が『片方のテキストがもう片方のテキストから派生しているかどうかを確認する』ことであるとわかり、上記で大体の概要がつかめたため、実際にデータを見ていきます。

f:id:lib-arts:20190626183900p:plain
データを確認すると上記の様になっています。大体のイメージがついたので3節はここまでとします。


4. まとめ
#4、#5で自然言語処理ベンチマークであるGLUEについて見てきました。GLUEは自然言語理解(NLU; Natural Language Understanding)とも言われる、言語理解に関するデータセットとなっています。
#6以降では近年物体検出(Object Detection)タスクなどの評価によく用いられる、COCO(Common Object in Context)について取り扱います。