PRML上巻_2章 確率分布(Probability Distribution) 読解メモ #2

f:id:lib-arts:20181230162207p:plain

#1では上巻の内容の俯瞰と序論として1章の情報をまとめました。

#2では2章の読解メモをまとめていければと思います。(7~8割の理解を目標においた読解にあたってのメモなので、要旨を掴みたい方向けです)
以下目次になります。


1. 2章の内容に関して概要
2. 詳細
2.1 二値変数(2.1)
2.2 多値変数(2.2)
2.3 ガウス分布(2.3)
2.4 指数型分布族(2.4)
2.5 ノンパラメトリック法(2.5)
3. まとめ&所感

 

1. 2章の内容に関して概要
2章は題名通り確率分布が中心になります。基本的には正規分布が中心になりますが、正規分布の拡張として知られる指数型分布族にも触れられており、なかなかボリュームがあります。
確率分布はある変数(確率変数と呼ぶ)の値になる確率を数値化したものです。直感的な理解としてはヒストグラムをサンプル数で割った値のことです。
2章の確率分布がどのように全体として用いられるかの流れを以下にまとめます。

1. パラメトリック(parametric)な分布を導入し、平均や分散などの少数のパラメータでデータを要約できるようにする
-> 具体例としては2.3節で述べられる正規分布や2.4節でまとめられている指数型分布族などがあります。

2.a パラメトリックな確率分布を密度推定に使うにあたって最尤推定という尤度関数の最大化を行うことでパラメータを推定する
-> 最尤推定を使うことで手元に得られたデータから確率分布のパラメータを推定できる。このやり方は頻度主義的(frequentism)であり、データが少数のケースだと頑健性に欠けます。

2.b 確率分布のパラメータにも事前の確率分布を与え、それを得られたデータを元に更新する(ベイズ主義)
-> 2.aとは対照的に推定するパラメータそのものに事前の分布を与えてそれをベイズ的に値を更新することで事後分布を求めるというアプローチです。これにより少量のデータの偏りに対して頑健になります。また、ここで共役事前分布(conjugate prior)を用いることでベイズ推論を簡単に行うことができます。


上記が2章の背景にあるモデリングの流れになるのですが、2章では上記のパラメトリックな分布について詳しく取り扱います。ベルヌーイ分布、二項分布、正規分布などに加え、共役事前分布として用いられるベータ分布やガンマ分布についても説明されています。

 

2. 詳細
2.1 二値変数(2.1)
2.1節では、表になる確率がμの歪んだコインを用いたコイン投げを題材にベルヌーイ分布(Bernoulli distribution)や二項分布(binominal distribution)についてのパラメータ推定を説明しています。ここでベルヌーイ分布と二項分布の違いはベルヌーイ分布はある特定の{表, 裏, 表}という事象についての確率となっている一方で二項分布は表の出た回数をカウントするので、二項定理に出てくるコンビネーションの計算が含まれている点で違います。
パラメータの推定に関して最尤推定法を用いるとコインが表になる確率のμは(表が出た回数)/(全試行数)で推定できます。これをサンプル平均と呼んでおり、分布においてパラメータの推測にあたってこれがあれば良いのでこのサンプル平均を分布に対する十分統計量(sufficient statistic)と呼んでいます。
上記が最尤推定法を用いた流れですが、この問題をベイズ的に解くこともできます。事前分布としてベータ分布を選ぶと、事後分布がベルヌーイ分布と同様の関数系を持つようになる(共役性を持つ)ためパラメータの推定が容易になります。

 

2.2 多値変数(2.2)

2.1の議論を多変数に拡張しています

 

2.3 ガウス分布(2.3)
ガウス分布(Gaussian distribution)や正規分布(normal distribution)など様々な名称で呼ばれ(以後正規分布と表記します)、多くの統計モデリングでこの正規分布を使用します。回帰分析のパラメータ推定でよく用いる最小二乗法は目的変数のばらつきにあたって正規分布を仮定しています。なので、大半のモデリングは裏で無意識的に正規分布を使用していると言えます。

正規分布の数式を解釈する際にまず着目すべきはexpの中です。変数xが一つの場合は-(x-μ)^2/σ^2となりますが、-を除いて考えるとこれは標準偏差の計算式の2乗となっています。従って、正規分布のexpの中身は中心μからの統計的な距離(標準偏差)がベースになっているという風に解釈できます。xに関する項はexpの中にしかないので、ということは中心から近い際に距離の値は小さくなり、その結果-とexpによって確率は大きくなりx=μで最大となります。
したがって正規分布をイメージで理解するなら中心が最大値で離れれば離れるほど小さい値になるということがわかります。
ちなみに多変数の場合は標準偏差の二乗の代わりにマハラノビス距離となります。マハラノビス距離では分散の代わりに分散共分散行列を用いるため、距離の計算にあたっては変数間での分散の値の違いや変数間の関係性(相関性)を考慮したものとなります。

 

2.4 指数型分布族(2.4)
別記事で説明しているのでこちらを確認ください。

指数型分布族と一般化線形モデル|統計モデリング #1 - lib-arts’s diary

 

2.5 ノンパラメトリック法(2.5)
論旨の中心ではないので割愛します。

 

3. まとめ&所感
どちらかというと部品としての確率分布の導入なので、論旨をつかんだ上で必要に応じて深めていくのが良いかと思います。