Data Preparation〜Modeling｜CRISP-DMを改めて考える #3

f:id:lib-arts:20191115190651p:plain

当連載では1990年代後半頃に考案されたCRISP-DM(CRoss Industry Standard Process for Data Mining)というマネジメント技法について見ていくことで、マネジメントにおける注意すべきポイントなどを見ていければと思います。（CRISP-DMはデータマイニングにおけるマネジメント技法とされていますが、データサイエンスとデータマイニングはそこまで区別しなくても良いかと思われるので、当連載においては同様に取り扱うものとします）
#1ではWikipediaなどを元にCRISP-DMの概要を確認しました。

CRISP-DMの簡単な概要｜CRISP-DMを改めて考える #1 - lib-arts’s diary

#2〜#4では下記のpdfを元にそれぞれの各フェーズについて確認していきます。

https://pdfs.semanticscholar.org/5406/1a4aa0cb241a726f54d0569efae1c13aab3a.pdf

#2ではBusiness Understanding〜Data Understandingについて取り扱いました。

Business Understanding〜Data Understanding｜CRISP-DMを改めて考える #2 - lib-arts’s diary

#3ではData Preparation〜Modelingの内容を取り扱います。
以下、目次になります。
1. Data Preparation(データの準備)
2. Modeling(モデリング)
3. まとめ

1. Data Preparation(データの準備)
1節ではデータの準備(Data Preparation)について取り扱います。

f:id:lib-arts:20191129004749p:plain

上図は参照pdfよりキャプチャを行っています。データの準備は主に5つのタスクから成り立っているとされており、下記に列記します。

①データの選択(Select data)
-> 分析に用いるデータを決める必要があるとされています。アウトプットとしては、分析に加えるデータと加えないデータのリストとその理由、があげられています。

②データのクリーニング(Clean data)
-> 分析手法に求められるレベルのデータの質にするためにデータのクリーニングを行う必要があるとされています。アウトプットとしては、データの質の問題に対してどのような対策を取るかについての記述、が必要であるとされています。

③データの構築(Construct data)
-> 派生的な変数(derived attributes)や新しいレコードの作成、既存変数の値の変換などが必要であるとされています。いわゆるデータの前処理にあたるところだと考えて良いと思われます。アウトプットとしては、1)area = length * widthのようなderived attributesの作成、2)購買なしの顧客のような状況において、該当レコードの作成、の二つがあげられています。

④データの統合(Integrate data)
-> (SQLのInner Joinのような)データの統合が必要であるとされています。アウトプットとしては、統合されたデータ、が必要であるとされています。

⑤データのフォーマット化(Format data)
-> データの意味を変えないようにモデリングツールに合わせたフォーマットにデータの形式を整える必要があるとされています。

2. Data Understanding(データの理解)
2節ではモデリング(Modeling)について取り扱います。

f:id:lib-arts:20191129004815p:plain

上図は参照pdfよりキャプチャを行っています。モデリングは主に4つのタスクから成り立っているとされており、下記に列記します。

①モデリング手法の選定(Select modeling technique)
-> 決定木やニューラルネットワークなどの分析に用いるモデリング手法を決める必要があるとされています。アウトプットとしては、1)分析に用いるモデリングの手法についてのドキュメント、2)それぞれのモデリング手法が持つ仕様上の前提の記述、の二つがあげられています。

②テストの設計(Generate test design)
-> データセットの分割などの分析結果のテストの設計を行う必要があるとされています。アウトプットとしては、テストの設計とされており、重要な点(primary component)としてデータセットの分割について言及されています。

③モデルの構築(Build model)
-> 準備したデータセットに対してモデリングツールを用いることで一つないしは複数のモデルを構築する必要があるとされています。アウトプットとしては、1)ハイパーパラメータの設定情報、2)実際に学習を行った後のモデル、3)結果として出力されたモデルとその解釈のレポート、の三つがあげられています。

④モデルのアセスメント(Assess model)
-> ドメイン知識やデータマイニングの成功の基準などに照らし合わせてモデルを解釈する必要があるとされています。アウトプットとしては、1)アセスメントの結果の要約、2)次のモデル構築に向けてのパラメータ設定の見直し、の二つがあげられています。