CRISP-DMの簡単な概要|CRISP-DMを改めて考える #1

f:id:lib-arts:20191115190651p:plain

データサイエンスや機械学習についての話題をよく目にする今日この頃ですが、同時にマネジメントが迷走するケースなども時折見かけます。
上記を受けて当連載では1990年代後半頃に考案されたCRISP-DM(CRoss Industry Standard Process for Data Mining)というマネジメント技法について見ていくことで、マネジメントにおける注意すべきポイントなどを見ていければと思います。(CRISP-DMはデータマイニングにおけるマネジメント技法とされていますが、データサイエンスとデータマイニングはそこまで区別しなくても良いかと思われるので、当連載においては同様に取り扱うものとします)
#1ではWikipediaなどを元にCRISP-DMの概要を見ていきたいと思います。
以下、目次になります。
1. CRISP-DMの概要
2. 参考資料の確認
3. まとめ


1. CRISP-DMの概要
1節ではCRISP-DM(CRoss Industry Standard Process for Data Mining)の概要について取り扱います。ここではWikipediaの内容を確認していきます。

f:id:lib-arts:20191115190827p:plain

Cross-industry standard process for data mining - Wikipedia

上記が概要になっています。まず、CRISP-DMは"Cross Industry Standard Process for Data Mining"の略で、業界の枠組みを超えたデータマイニングの標準プロセスであるということを示唆しています。CRISP-DMはデータマイニングのexperts達によって用いられる一般的なアプローチであるとされており、広く用いられている分析の手法であるとされています。同様の文脈でIBMがASUM-DM(Analytics Solutions Unified Method for Data Mining)を2015年にリリースしており、これはCRISP-DMを拡張したものだとされています。

f:id:lib-arts:20191115191506p:plain

次にCRISP-DMの歴史について簡単に見ておきます。上記のように、CRISP-DMは1996年に考案されたとされており、様々なアップデートなどが加えられてきているようです。

f:id:lib-arts:20191115191906p:plain

上記はCRISP-DMの大枠の考え方について示しています。各ステップとしては、ビジネスの理解(Busuness Understanding)、データの理解(Data Understanding)、データの準備(Data Preparation)、モデリング(Modeling)、評価(Evaluation)、デプロイ(Deployment)から成り立っているとされています。それぞれのフェーズは厳密に定められておらず、必要に応じて進んだり戻ったりするとされています。また、フェーズ間の矢印は最も顕著な依存関係を指し示しており、外側のサークルの流れはデータマイニングそのものの流れを意味しています。ここで注意したいのが、データマイニングのプロセスはデプロイ後も続くということです。

ここまででCRISP-DMの大枠についてつかむことができました。データの準備やモデリングだけではなく、分析が必要とされるビジネス的な背景を踏まえて課題を考え、評価を行うことで、意味のある分析を行っていくことができると思われます。


2. 参考資料の確認
2節では参考資料の確認を行います。

f:id:lib-arts:20191115194450p:plain

Wikipediaの記事の下の方にReferencesが載っています。より詳しく見る際にはこちらなどを参考にしていくと良さそうです。


3. まとめ
#1ではWikipediaの内容を元に簡単な概要を掴みました。
#2では今回の2節で取り扱った参考資料などを元に、詳しく確認していければと思います。