簡単な計算で理解するポワソン分布|直感と数学 #1
『数学って難しそう』ってよく聞きますが、確かに数式だけ追ってると難しく感じる時もあるかもしれません。ですが、ちょっと視点を変えてみるだけで新しい洞察が得られる時があります。
この直感的な感覚をわかっていただければということで、一見難しそうな話を直感的に理解することができるような形で諸々取り扱っていければと考えています。
#1では確率分布の中でもとっつきづらそうな印象のあるポワソン分布について取り扱います。勉強しているというより遊んでいる感覚で見てもらえれば嬉しいです。
ポワソン分布は計量データ(Count Data)に用いる分布でパラメータλを平均かつ分散とする分布だけれど、なかなか頭に残りにくいです。上記のグラフはwikipediaから拝借しましたが、このグラフの直感的な理解はなかなか難しいのではと思います。
上記がポワソン分布の式ですが、この数式からどうやってグラフを導いているかに当たって、確かに代入すれば値はわかるかもしれないけれどいまいちピンとこないのではないでしょうか。
今回はこちらのグラフを数式から読み解いていけたらと考えています。まず、左辺のP(x=k|λ)からですが、パラメトリックな確率分布(平均や分散などいくつかのパラメータを元に分布が決まる確率分布のこと)は条件付き確率の書式で理解するとわかりやすいです。パラメータλ(Poisson分布においては平均と分散を表します)の値が与えられた上でxの値になる確率をP(x=k|λ)は表しています。
冒頭のグラフではkの値を変化させて確率を計算しています。左辺の式は単に意味を定義したものなので、単にそのまま解釈するだけで大丈夫です。
次に右辺の解釈についてまとめていきます。ですがパッと見右辺の数式は難しそうに見えます。これをどのように解釈したら良いのでしょうか。
とりあえず関数ということは間違いないので計算しやすそうなk=1を入れてみましょう。
上記よりk=1のときの確率分布の値がわかりました。これは冒頭で貼った図と見比べても納得のいく結果になります。このようにしてkの値に対して確率を求めることができます。同様に計算を行うことでP(x=5|λ=1)=0.00306..、P(x=5|λ=4)=0.15629..、P(x=5|λ=10)=0.03783..や、P(x=10|λ=1)=1.013..e-07、P(x=10|λ=4)=0.00529..、P(x=10|λ=10)=0.12511..も求めることができます。得た数字とグラフを見ても納得です。大体λの値の前後では他の分布に比べ確率の値が大きくなることがわかります。
それでは値が入れ替わるkの値はだいたいどの辺なのでしょうか。こちらについては分布の比率を求めることでわかります。
λ=1とλ=4の分布に関しては上記のように比を求めることでk!を消去することができ、数式がスッキリします。ここでeの3乗は20.08...なので、上記の数式はk=2の時は1より大きく、k=3の時は1より小さくなります。
このことから、λ=1とλ=4を比較した際にk=2まではλ=1の方が確率が大きく、k=3からはλ=4の方が値が大きいことがわかります。
上記のように具体的な値を入れたり、それぞれの分布の比を計算してみることでポワソン分布のイメージを掴むことができます。比の計算に関しては数式を眺めていてたまたま思いついたのですが、なかなか秀逸で面白いのではと思います。このように色々と実験してみるとイメージがだんだんつかめてくるので、余裕のある際にこのような遊びを行ってみるのも良いのではと思います。