CRISP-DMをベースに考察するAI・機械学習・Data Scienceプロジェクトのマネジメント|電子テキスト紹介 #6

f:id:lib-arts:20200310185429p:plain

ブログの内容を元に電子テキストやその印刷版を、技術書典やnoteやboothなどのプラットフォームで販売を行なっているのですが、あまり内容について紹介してこなかったのでちょっとした宣伝も兼ねてご紹介していくシリーズです。
#1では「高校数学の演習から理解する、機械学習アルゴリズム」について、#2では「Python実装を通して学ぶ、統計モデリング入門」について、#3では「Deep Q-Network を通して学ぶ、強化学習超入門」について、#4では「DeepLearning 関連論文の読み方手引き」の上巻について、#5では簡易Pythonコードで学ぶ、実践的自然言語処理入門」についてご紹介しました。

高校数学の演習から理解する、機械学習アルゴリズム|電子テキスト紹介 #1 - Liberal Art’s diary

Python実装を通して学ぶ、統計モデリング入門|電子テキスト紹介 #2 - Liberal Art’s diary

Deep Q-Networkを通して学ぶ、強化学習超入門|電子テキスト紹介 #3 - Liberal Art’s diary

DeepLearning 関連論文の読み方手引き(上巻)|電子テキスト紹介 #4 - Liberal Art’s diary

簡易Pythonコードで学ぶ、実践的自然言語処理入門|電子テキスト紹介 #5 - Liberal Art’s diary
#6では、CRISP-DMをベースにプロジェクトマネジメントについての考察を行なった、「CRISP-DMをベースに考察するAI・機械学習・Data Scienceプロジェクトのマネジメント」についてご紹介します。

以下目次になります。
1. 作成にあたってのコンセプト
2. 簡単な内容の紹介
3. 今後のアップデート予定について
4. まとめ


1. 作成にあたってのコンセプト
テキスト作成にあたっての背景ですが、プロジェクトを進めていくにあたっての成功失敗はどのように考えるべきかというのを言語化したいというのがありました。経験則的に具体的には何ができれば成功で、何ができなければ失敗なのかは、単に技術的な話というわけでもないと思っています。
こういった話を言語化するに至っては、一般的かつ従来から使われているフレームワークをベースにすると良いということで、データマイニングに関してのプロジェクトマネジメントについて1990年年代後半に出てきたCRISP-DMをベースに考察を行うことにしました。
CRISP-DMはCRoss Industry Standard Process for Data Miningの略で、様々な業界に共通したデータマイニングの標準的な手順についてまとめたとされています。CRISP-DM自体は大分前からある考え方で、現在のビジネスシーンと違う点などもありますが、中途半端に新しい概念を抑えるよりはより本質を掴んだ方が良いため、むしろ時代背景含めてこちらをベースに考察する方が有意義なのではないかと考えました。
したがって、時代とともに変わらない本質的な内容について抑えつつ、不十分な点や近年の情勢も踏まえながらまとめられればということでこちらのテキストの作成を行いました。


2. 簡単な内容の紹介
2節では簡単に内容についてご紹介していきます。

f:id:lib-arts:20200310193521p:plain

まず第1章ではCRISP-DMの概要についてご紹介しています。CRISP-DMは6つのフェーズから成り立っており、それぞれのフェーズについて1-2節でご紹介しています。

f:id:lib-arts:20200310194238p:plain

1-2節については導入ということで、一般的に解説されている内容と同様のものをまとめるようにしました。また、1-3節では2015年にIBMが発表したASUM-DM(Analytics Solutions Unified Method for Data Mining)について簡単に概要だけ紹介しています。

f:id:lib-arts:20200310194528p:plain
次に第2章では、CRISP-DMの詳細ということで、2000年時にSPSSから出された下記のドキュメントを実際に読み進めています。

f:id:lib-arts:20200310195539p:plain

https://www.the-modeling-agency.com/crisp-dm.pdf

上記は全部で76ページあり、各フェーズについて通常の解説ページなどよりも詳しく記載されています。記述については多少冗長であったり、内容が古かったりもありますが、なるべく記載の文脈を元に読み解ければということで、文脈を極力そのまま残すようにしました。


上記は全部で76ページあり、各フェーズについて通常の解説ページなどよりも詳しく記載されています。記述については多少冗長であったり、内容が古かったりもありますが、なるべく記載の文脈を元に読み解ければということで、文脈を極力そのまま残すようにしました。

f:id:lib-arts:20200310195809p:plain

CRISP-DMにおいてはビジネスの理解(Business Understanding)というフェーズが非常に重要なのですが少々記載が甘い印象だったので、続く第3章では経営科学(Management Science)の内容のご紹介を行なっています。題材としては、比較的定量的な議論に馴染みやすいと思われる、ドラッカーのマネジメントと、ポーターの競争戦略を中心として取り扱いました。

f:id:lib-arts:20200310200322p:plain

第4章では第3章までの内容を踏まえて、プロジェクトの進行についてまとめています。4-1節と4-2節でそれぞれ第2章と第3章の内容についてまとめて、4-3節ではビジネスの理解の考察と、機械学習プロジェクトへの適用にあたっての考察についてまとめました。


3. 今後のアップデート予定について
今後のアップデートに関しては、具体的な例を出しながらケーススタディなども追加していければと思います。基本的な考え方については大体はまとめたと思うのですが、具体的な事例を元に考えられるようにする方が望ましいと考えています。
また、ビジネスの理解としてはドラッカーとポーターを中心にしましたが、下記のシリーズなどで取り扱ったビジネスフレームワークの内容も踏まえられると良いのかなと思っています。


4. まとめ
#6では、CRISP-DMをベースにプロジェクトマネジメントについての考察を行なった、「CRISP-DMをベースに考察するAI・機械学習・Data Scienceプロジェクトのマネジメント」についてご紹介しました。
#7では、言語処理における事前学習モデルとして近年注目を集めているBERTを取り扱った、「BERT・XLNet に学ぶ、言語処理における事前学習」についてご紹介します。