指数型分布族と一般化線形モデル|統計モデリング #1

統計モデリングの入門本としてよく用いられる有名な『データ解析のための統計モデリング入門』は統計的なモデリングについて学ぶ際に、GLMやMCMCの概要を掴む上では良い本です。
ですが、一度読んで概要を掴むにはわかりやすい一方で、記述が厳密でない点が多く後から読み返すと違和感が多かったり体系的ににまとまっておらず該当箇所を探しにくいというデメリットがあります。
ですので、入門用として大枠の概要と用語を覚える目的で使用する方が良いのではと思います。

一読して流れをつかんだ後は、

・一般化線形モデル入門
PRML上巻

などが良いと思います。
とはいえ、上記の本はハードル高いかもしれないので今から勉強される方向けに軽く概要をかいつまんでブリーフィングしておければと思います。
#1では回帰分析の拡張であるGLM(Generalized Linear Model)について取り扱います。

以下目次になります。

1. 線形回帰の簡単な復習と一般化線形モデルへの拡張の概要
2. 確率分布と最尤法
3. 指数型分布族と一般化線形モデルの定義
4. まとめ&考察


1. 線形回帰の簡単な復習と一般化線形モデルへの拡張の概要
線形回帰は説明変数のXで目的変数のyの値を予測する際に用いるベーシックなモデルです。
こちらは統計検定2級レベルで大学の教養課程レベルの教科書でも取り扱っています。
http://www.utp.or.jp/book/b300857.html

基礎統計のレベルでは基本的には、

・y = ax+b

において与えられたデータセットである(x,y)の組を用いてパラメータであるaとbの推定を行います。
上記の基礎統計のレベル感だとパラメータの推定にあたっては最小二乗法が用いられることが多いです。yの実測値と予測値の差を取って二乗したものを全てのサンプルに対し足し合わせます。(ここで平均を取っても良いです。最小値問題をパラメータに対して解くにあたって、定数の掛け算割り算は影響を及ぼしません)
最小二乗誤差の最適化にあたっては、基礎統計のレベルでは偏微分方程式を解きますが、ニューラルネットワークの学習にあたってのベーシックな手法である勾配降下法(Gradient Descent)を用いて近似的に解いても良いです。

また、説明変数が複数になるケースもあり、こちらは重回帰分析と呼んでいます。
この際にも基礎統計のレベルでは最小二乗法でパラメータの導出を行うことができます。

・y = Xβ

変数が複数になると大変そうに感じるかもしれないですが、線形代数的な行列演算を知っていれば、データを行列X、パラメータをベクトルβで置き換えることで上記の様な表記も可能です。(本題ではないので詳細は割愛します)

上記の線形モデル(線形回帰と同様ですがこの後一般化線形モデルに繋げる文脈上線形モデルと呼びます)の導出にあたっての最小二乗法は、実は一般化線形モデル(以下GLMと表記します)において目的変数yのばらつきを正規分布と仮定した上で最尤法でパラメータを導出する方法に一致します。(長くなるのでまた別記事で解説しますが、詳細はPRMLの1.2.4~1.2.5あたりが詳しいです。)
この様にベーシックな線形モデルはGLMにおいて特殊な仮定をおいたものに相当します。

この後の流れとして2節と3節でGLMを理解する上で必須概念である、確率分布、最尤法、指数型分布族について取り扱っていきます。


2. 確率分布と最尤法
確率分布に関しては様々な定義がありますが小難しいので直感的に表現すると要は『ヒストグラムをサンプル数で割ったもの』になります。若干厳密性に欠ける表現ですが、難しい表現でしっくりこないよりは良いです。

確率分布とはヒストグラムをサンプル数で割ったものと言いましたが、確率分布を考える上でのメリットはヒストグラムと同じくデータを可視化するというところにあります。ここでなぜヒストグラムだけでは駄目なのかですが、これについては具体的にいくつか有名な確率分布を考えてみればわかります。

具体例としては正規分布、一様分布、ポワソン分布などがあります。ここでヒストグラムにはない確率分布のメリットですが、直感的には汎用的な必勝パターンに落としてデータを要約できるということにあります。確率分布には分布を決める様々なパラメータがありますが、このパラメータこそがデータの要約をしてくれています。
確率分布はデータを要約するための必勝パターンを提供してくれていると考えると良いです。

また、最尤法についてですが、確率分布を裏に仮定したときに手元のデータが得られたと考え、元のデータから手元のデータが得られる確率をパラメータを含んだ同時確率の式で表し、この同時確率を尤度(likelihood)と読み替え尤度を最大にするパラメータを求めるという考え方です。


3. 指数型分布族と一般化線形モデルの定義
一般化線形モデル入門[Annette J. Dobson]の3章によると、GLMの定義は以下となっています。(P.60)

・指数型分布族に属する同一の分布に目的変数yが従う
・パラメータベクトルβの集合と説明変数の行列Xを用いる
・単調な連結関数(Link Function)であるgを用いてg(μ)=xβと表す
※ 論旨を変えない程度に表現は修正しています。

一つ目として指数型分布族が出てきます。

・f(y|θ)=exp[a(y)b(θ)+c(θ)+d(y)]

に基づいて表される確率分布のことです。(一般化線形モデル入門では|ではなく;が使われていましたが、条件付き確率の表現の方がわかりやすいと思うので置き換えました。)
指数型分布族を導入する様になった過程としては一般化線形モデル入門のP51~52によると元々幅広く使用されていた正規分布の良い性質を引き継いだ上で広義な分布が取り扱える様になったというのがあるそうです。

二点目は通常の行列演算のため割愛します。

三点目のLink Functionについては多くの有名なGLMにおいては単純な数学関数が用いられることが多いそうです。通常の回帰分析だと恒等写像のx、ロジスティック回帰分析だとロジット関数log(π/(1-π))、ポワソン回帰だとlog系の関数が用いられます。この際の規則性に関してですが、本を読む感じだとモデリングの対象に対して恣意的に決めている印象がありました。何もなければ恒等写像、ロジスティック回帰だと[0,1]区間での目的変数が欲しいので[0,1]の区間で出力することのできるロジット関数、ポワソン回帰だと数えられるデータの予測をするにあたって正の値を必ず求めねばならないので予測値にexpを取ったものが期待値(yの予測値)になれば都合が良いなどが具体的な理由です。


4. まとめ&考察
上記がGLMの概要になります。学習にあたって苦戦しそうな点を何点かまとめておきます。

・確率分布ってなんなのか
-> ざっくり言えばヒストグラムの確率表記です
・尤度とは何か、同時確率でなぜ立式できるのか
-> ややこしいのですがあるパラメータを持つ確率分布を裏で仮定した上でというのが肝です
・Link Functionはどうやって決めるのか
-> 意外と恣意的に決めている印象です
・パラメータはどうやって導出するのか
-> 解析的に微分方程式が解ける際は解いても良いし、解けない際はMCMCやスコア法を用います。