DataAnalysis

Evaluation〜Deployment|CRISP-DMを改めて考える #4

当連載では1990年代後半頃に考案されたCRISP-DM(CRoss Industry Standard Process for Data Mining)というマネジメント技法について見ていくことで、マネジメントにおける注意すべきポイントなどを見ていければと思います。(CRISP-DMはデータマイニングにお…

指数型分布族の定義とその具体例|統計モデリング #3

統計モデリングについてまとめています。#1ではGLMの話について、#2では計算方法としてMCMCについて取り扱いました。 指数型分布族と一般化線形モデル|統計モデリング #1 - lib-arts’s diary モンテカルロサンプリングとMCMC|統計モデリング #2 - lib-arts…

Data Preparation〜Modeling|CRISP-DMを改めて考える #3

当連載では1990年代後半頃に考案されたCRISP-DM(CRoss Industry Standard Process for Data Mining)というマネジメント技法について見ていくことで、マネジメントにおける注意すべきポイントなどを見ていければと思います。(CRISP-DMはデータマイニングにお…

Business Understanding〜Data Understanding|CRISP-DMを改めて考える #2

当連載では1990年代後半頃に考案されたCRISP-DM(CRoss Industry Standard Process for Data Mining)というマネジメント技法について見ていくことで、マネジメントにおける注意すべきポイントなどを見ていければと思います。(CRISP-DMはデータマイニングにお…

CRISP-DMの簡単な概要|CRISP-DMを改めて考える #1

データサイエンスや機械学習についての話題をよく目にする今日この頃ですが、同時にマネジメントが迷走するケースなども時折見かけます。上記を受けて当連載では1990年代後半頃に考案されたCRISP-DM(CRoss Industry Standard Process for Data Mining)という…

「計量時系列分析」読解メモ④(Ch_2 ARMA過程③)|時系列分析の基礎を学ぶ #6

連載経緯は#1に記しました。 #1では時系列データとはどのようなデータであるかやモデリングにおいて重要になる定常過程について、#2ではモデリングにおいてよく用いられるAR、MA、ARMAについてご紹介しました。 #3以降では時系列分析の入門本として評判の良…

「計量時系列分析」読解メモ③(Ch_2 ARMA過程②)|時系列分析の基礎を学ぶ #5

連載経緯は#1に記しました。 #1では時系列データとはどのようなデータであるかやモデリングにおいて重要になる定常過程について、#2ではモデリングにおいてよく用いられるAR、MA、ARMAについてご紹介しました。 #3以降では時系列分析の入門本として評判の良…

「計量時系列分析」読解メモ②(Ch_2 ARMA過程)|時系列分析の基礎を学ぶ #4

連載経緯は#1に記しました。 #1では時系列データとはどのようなデータであるかやモデリングにおいて重要になる定常過程について、#2ではモデリングにおいてよく用いられるAR、MA、ARMAについてご紹介しました。 #3以降では時系列分析の入門本として評判の良…

「計量時系列分析」読解メモ①(Ch_1 時系列分析の基礎概念)|時系列分析の基礎を学ぶ #3

強化学習などについて取り扱っていくにあたり、通常の時系列データについての取り扱いも一度まとめておく方が良さそうなので時系列分析の基本についてまとめていきます。#1では時系列データとはどのようなデータであるかやモデリングにおいて重要になる定常…

時系列データの取り扱いとモデルの作成②(AR、MA、ARMA)|時系列分析の基礎を学ぶ #2

強化学習などについて取り扱っていくにあたり、通常の時系列データについての取り扱いも一度まとめておく方が良さそうなので時系列分析の基本についてまとめていきます。#1では時系列データとはどのようなデータであるかやモデリングにおいて重要になる定常…

時系列データの取り扱いとモデルの作成①(時系列データと定常過程)|時系列分析の基礎を学ぶ #1

強化学習などについて取り扱っていくにあたり、通常の時系列データについての取り扱いも一度まとめておく方が良さそうなので時系列分析の基本についてまとめていきます。#1では時系列データとはどのようなデータであるかやモデリングにおいて重要になる定常…

Pythonで実装する記述統計②(散布図、共分散、回帰分析)|スクラッチ実装で理解する基礎統計 #2

上記のシリーズで機械学習アルゴリズムの実装を行っているのですが、他の内容もできればということで同様のイメージで基礎統計を実装していければと思います。#1ではデータの整理と要約の方法を取り扱う記述統計学の中から、1変数(1次元)データを取り扱っ…

データ分析・機械学習系での言語選択に関して

下記の記事でシステム設計について記述した内容に対し、言語選択についてご質問いただきましたので、こちらの記事で回答させていただければと思います。 ◆ Question 質問内容としては、冒頭部で『RではなくPythonを用いています』としたことに対して、 Rの問…

モンテカルロサンプリングとMCMC|統計モデリング #2

#1ではGLMの話について取り扱いました。 モデル構築の大枠の話はできたと思うので、#2では計算方法についてまとめておきたいと思います。『データ解析のための統計モデリング入門』ではGLMの発展としてGLMM(一般化線形混合モデル)を考え、解析的にテクニカル…

指数型分布族と一般化線形モデル|統計モデリング #1

統計モデリングの入門本としてよく用いられる有名な『データ解析のための統計モデリング入門』は統計的なモデリングについて学ぶ際に、GLMやMCMCの概要を掴む上では良い本です。ですが、一度読んで概要を掴むにはわかりやすい一方で、記述が厳密でない点が多…

Kaggle作成から提出までの流れ|初心者向け_データ分析 #1

1.1 Kaggleにアクセス 今回取り組むのは Titanic: Machine Learning from Disaster | Kaggleです。 これは乗客や乗組員のデータから実際に彼らが事故から「生還したか/生還しなかったか」を予測するという少し残酷なコンペです。船に乗っていた人々のデータ…