Business Understanding〜Data Understanding|CRISP-DMを改めて考える #2

f:id:lib-arts:20191115190651p:plain

当連載では1990年代後半頃に考案されたCRISP-DM(CRoss Industry Standard Process for Data Mining)というマネジメント技法について見ていくことで、マネジメントにおける注意すべきポイントなどを見ていければと思います。(CRISP-DMはデータマイニングにおけるマネジメント技法とされていますが、データサイエンスとデータマイニングはそこまで区別しなくても良いかと思われるので、当連載においては同様に取り扱うものとします)
#1ではWikipediaなどを元にCRISP-DMの概要を確認しました。

#2〜#4では下記のpdfを元にそれぞれの各フェーズについて確認していきます。

https://pdfs.semanticscholar.org/5406/1a4aa0cb241a726f54d0569efae1c13aab3a.pdf

以下、目次になります。
1. Business Understanding(ビジネスの理解)
2. Data Understanding(データの理解)
3. まとめ

 

1. Business Understanding(ビジネスの理解)
1節ではビジネスの理解(Business Understanding)について取り扱います。

f:id:lib-arts:20191127235752p:plain

上図は参照pdfよりキャプチャを行いました。ビジネスの理解は主に4つのタスクから成り立っているとされており、下記に列記します。

①ビジネス目的指標の決定(Determine Business Objectives)
-> ビジネス的な側面から顧客が何を成し遂げたいと考えているかを読み取る必要があるとされています。この際のアウトプットとしては、1)ビジネス上の背景情報(background)のレポーティング、2)ビジネス的な側面からのクライアントの主要な(primary)ビジネス目標の記述、3)ビジネスの側面からの有用な結果の評価基準の記述、の三つがあげられています。

②状況のアセスメント(Assess Situation)
-> プロジェクトに関する全てのリソースの詳細の事実の洗い出しを行う必要があるとされています。ここで、リソースとしては、制約条件(constraints)、前提(assumptions)やその他の要素が該当しています。アウトプットとしては、1)人、データ、計算機資源、ソフトウェアなどの利用可能な資源のリスト、2)スケジュールなどを含む、プロジェクトにおける全ての制約のリスト、3)プロジェクトを進めるにあたってのリスク要因のリスト、4)プロジェクトの用語集、5)ビジネス視点からのプロジェクトの費用対効果、の五つがあげられています。

データマイニングの目標の決定(Determine data mining goals)
-> 「既存顧客のカタログセールスを増加させる」のようなビジネスの目標に対して、「顧客の購買情報やデモグラ情報を元に顧客がどのくらいの購買を行うか予測する」のようなデータマイニングにおける目標を立てる必要があるとされています。アウトプットとしては、1)ビジネスの目的を達成するためのプロジェクトの望ましいアウトプットの記述、2)予測の正答率などの技術的な見地からのプロジェクトの成功の基準の記述、の二つがあげられています。

④プロジェクト計画の策定(Produce project plan)
-> データマイニングの目標を達成し、それによりビジネスの目的を達成するにあたって、プロジェクトの計画の策定を行う必要があるとされています。アウトプットとしては、1)期間、必要リソース、インプット、アウトプット、依存関係など、プロジェクト実行における段階のリスト、2)データマイニングにおいて用いるツールや技術のアセスメント(評価)、の二つがあげられています。

 

2. Data Understanding(データの理解)
2節ではデータの理解(Data Understanding)について取り扱います。

f:id:lib-arts:20191128000003p:plain

図2-2は参照pdfよりキャプチャを行っています。データの理解は主に4つのタスクから成り立っているとされており、下記に列記します。

①初期データの収集(Collect initial data)
-> データにアクセスし読み込む(load)することで利用可能な状態にすることが必要であるとされています。アウトプットとしては、初期のデータの収集と収集にあたってのトラブルなどのレポート、があげられています。

②データの記述(Describe data)
-> 獲得したデータの全体(gross)の、または表面上(surface)の属性を記述し、レポーティングすることが必要であるとされています。アウトプットとしては、データのフォーマット、データの量、などを含むデータの情報を記述したレポート、があげられています。

③データの探索(Explore data)
-> 簡単な初期分析について必要だとされています。アウトプットとしては、初期段階としての発見や仮設、その後のプロジェクトへの影響などを記載したレポート、があげられています。

④データの質の検証(Verify data quality)
-> データの質の検証を行う必要があるとされています。アウトプットとしては、レポートに加え質的な問題が見つかったデータには解決策のリスト、が必要とされています。また、データの質の問題に対しては一般的にはデータとビジネス知識に関して大きく依存することが多いとされています。

 

3. まとめ
#2では各フェーズについての詳細を確認していくにあたって、Business Understanding(ビジネスの理解)と、Data Understanding(データの理解)の内容を取り扱いました。
#3ではData Preparation(データの準備)以降の内容を取り扱っていきます。