確率分布のパラメータと最尤法|高校数学の演習を通して理解する確率分布と最尤法 #4

f:id:lib-arts:20191112170245p:plain

当シリーズでは、高校レベルの数学と絡めながら確率分布と最尤法について取り扱っています。
#1では集合・確率と様々な関数(指数関数、対数関数)について、#2では確率分布のグラフ化と掛け算と対数について、#3では合成関数の微分と最大値問題について取り扱いました。

集合・確率&様々な関数(指数関数、対数関数)|高校数学の演習を通して理解する確率分布と最尤法 #1 - lib-arts’s diary

確率分布のグラフ化&掛け算と対数|高校数学の演習を通して理解する確率分布と最尤法 #2 - lib-arts’s diary

合成関数の微分と最大値問題|高校数学の演習を通して理解する確率分布と最尤法 #3 - lib-arts’s diary

#4では確率分布の概要を抑えたのちに、確率分布が持つパラメータを観測情報から計算する最尤法(最尤推定)について取り扱います。
以下、目次になります。
1. 確率分布とパラメータ
2. 同時確率と尤度
3. 尤度最大化によるパラメータ推定(最尤法)
4. まとめ


1. 確率分布とパラメータ
1節では確率分布について取り扱います。確率分布の教科書的な定義はややこしいので、まずざっくり一言でまとめるなら、「確率分布はヒストグラムのサンプルをとにかく大きくしてサンプル数で割ったもの」と捉えておくと良いです。言い換えるなら、データの値の出現の仕方のパターンを記述したものです。
よく使う確率分布としては、正規分布(Normal Distribution)、ポアソン分布(Poisson Distribution)、二項分布、ベルヌーイ分布などがあります。説明だけではわかりにくいため、まずは正規分布確率密度関数P(x|\mu,\sigma)を確認してみます。
P(x|\mu,\sigma)=\frac{1}{\sqrt{2 \pi \sigma^2}}exp(-\frac{(x-\mu)^2}{2 \sigma^2})
この数式を元にすると下記のようなグラフを描くことができます。

f:id:lib-arts:20200204175913p:plain
この時、上記の確率分布のグラフは、パラメータである\mu\sigmaを変更することで形状を変形させることができます。そのため、\mu\sigmaは確率分布のパラメータであると言われています。この時、\muはxの平均、\sigmaはxの分散を表しています。
さて、ここでこのように分布を導入するメリットですが、多くの観測データも分布になぞらえることで、たった2つの値で表現できるということです。例えば、1,000名分のテスト結果も正規分布を仮定することで平均と分散を知っているだけで、データの要約が可能です。
ちなみに#5で取り扱うモデリングでは、少数のパラメータを用いて行うモデリングパラメトリックモデルと呼んでいます。このメリットとしてはまさにここで話題になっている分布のパラメータに着目することで情報の要約を行うことができるということにあります。

このように、確率分布を導入し、パラメータに着目することで情報を要約することが可能になります。

 

2. 同時確率と尤度
2節では3節で取り扱う最尤推定(MLE; Maximum Likelihood Estimation)の前提として尤度(Likelihood)を導入します。まず先に最尤推定(最尤法)の概要だけ把握しないと流れがわからないと思うので、先にざっくり見ておきます。最尤法は「確率分布のパラメータを推定する手法」です。
例えば、1,000名分のテストの点数の情報があるとして、データが正規分布に従っていると仮定できるものとします。この際に正規分布のパラメータの\mu\sigmaを仮置きした上で手元のデータが得られたとし、それを元にパラメータを推定しにいくという考え方が最尤推定です。また、最尤推定では尤度(Likelihood)という基準を最大化するパラメータを求めるという流れなのですが、この際の尤度は確率分布に基づいてデータが得られる確率を計算した同時確率を尤度と読み換えることで、立式を行います。尤度の解釈としては、確率分布から手元のデータが得られる尤もらしさと考えるため、同時確率を尤度と見なします。ニュアンスとしてはどちらも同じ数式だけれど、同時確率はデータの出現確率にフォーカスしているのに対して、尤度はパラメータの関数にフォーカスしている点が異なると認識しておくと良いです。
すなわち尤度は手元のデータが得られる同時確率のため、掛け算の形式で求めることができます。また、尤度はパラメータ\theta(\thetaは確率分布のパラメータを全て含んだ表現であり、正規分布の場合は\mu\sigmaになります)の関数のため、L(\theta)と記述します。
#3で取り扱った下記のL(\theta)は全て確率分布を元にして計算した尤度の式です。

1) L(\theta)=\theta^{600} (1-\theta)^{400}
2) L(\theta)=\Pi_{i=1}^N \frac{\theta^{k_{i}} exp(-\theta)}{k_{i}!}
3) L(\theta)=\Pi_{i=1}^N \frac{1}{\sqrt{2 \pi}}exp(-\frac{(x_{i}-\theta)^2}{2})

ここで1)はベルヌーイ分布、2)はポアソン分布、3)は正規分布を元にした同時確率(尤度)です。基本的にサンプルは独立して観測されるという前提をおいているので、同時確率の計算にあたっては、それぞれのサンプルが観測される確率を掛け算することで求めることができます。

とにかく、同時確率と尤度はフォーカスしているポイントは違う一方で数式的には同じであると把握しておくとよいです。


3. 尤度最大化によるパラメータ推定(最尤法)
2節では最尤法の大枠と尤度について取り扱ったので、3節では尤度最大化(最尤推定)によるパラメータ推定について見ていきます。といっても、数式の流れ自体は#3のex.06の解法と同じです。

注意点としては、尤度(同時確率)の式は確率の掛け算によって表されているので、微分がしづらいという点です。そのため、解決策としては単調増加関数で掛け算を足し算に変換することができる対数関数(log)を取ることで計算を行なっている点です。
対数を取ることによって掛け算を足し算に変換するというのは最尤推定におけるオーソドックスな流れのため、#3のex.06については何度も計算を追って理解を深めておくのが良いと思います。回帰モデルに応用した、一般化線形モデルやベイズ線形回帰ではここの計算がベースとなっているので、ここで何度も反復しておくのが後々の理解にも非常に役立ちます。


4. まとめ
#4では#1〜#3で取り扱った例題の内容を、確率分布や最尤法の文脈で再度確認を行いました。
#5では今回学んだ最尤法を回帰モデルの文脈で確認していければと思います。