集合・確率&様々な関数(指数関数、対数関数)|高校数学の演習を通して理解する確率分布と最尤法 #1

f:id:lib-arts:20191112170245p:plain

機械学習を理解するにあたって数学は必要かという質問はよく聞かれますが、程度によりますが最低限は必要だと答えるようにしています。最低限というのも色々と考え方がありますが、所見としては高校数学〜大学の教養過程の導入(完璧までいかなくてもOK)ほどは把握していないと直感的なイメージすら湧かないのでよくないと思います。
研究者でないのであれば理論書を完璧に理解しようというのも極端ですが、一方で数学を完全に避けて言葉だけで理解するというのもまた極端だと思います。そのため、難しすぎずそれによって得られる知見が多いのが、高校数学を中心とする範囲なのではと考えています。
分野としては、関数、微積、数列、極限、ベクトル、行列、確率、集合などは基礎的なレベルである程度掴んでおくのが望ましいと思います。

上記連載は、高校数学の演習を通して機械学習アルゴリズムの一つであるニューラルネットワークを理解しようというものです。簡単な6題の例題をもとにニューラルネットワークの仕組みに現れる基礎的な数学についてフォーカスしています。
上記ではニューラルネットワークを中心に取り扱いましたが、今回は確率分布と最尤法について新規で連載をスタートします。
#1では集合・確率と様々な関数(指数関数、対数関数)について取り扱います。
以下、目次になります。
1. 例題① 集合・確率
2. 例題② 確率と様々な関数(指数関数、対数関数)
3. まとめ

 

1. 例題① 集合・確率
1節では確率分布や最尤法について考えるにあたってのベースとなる、集合・確率について取り扱います。
集合・確率については以前のシリーズも取り扱ったので、当記事の解説だけで不足の場合は下記もご確認いただけたらと思います。

集合論と確率(概要と例題解説)|高校数学の例題解説&基本演習 #5 - lib-arts’s diary

集合論と確率(問題演習)|高校数学の例題解説&基本演習 #6 - lib-arts’s diary

ex.01
下記の集合においてP(A)P(B)P(A\cup{B})P(A\cap{B})をそれぞれ求めよ。ただし、全事象はUとして与えるものとする。
1) 事象A=\{1,2,3\}、事象B=\{2,3,4\}、全事象U=\{1,2,3,4\}
2) 事象A=\{1,1.5,2\}、事象B=\{1,2,3\}、全事象U=\{1,1.5,2,2.5,3\}
3) 1~20の自然数において、2の倍数(事象A)と3の倍数(事象B)、U=\{1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20\}

Answer.
1)
P(A)=\frac{3}{4}
P(B)=\frac{3}{4}
P(A\cup{B})=1
P(A\cap{B})=\frac{2}{4}=\frac{1}{2}
2)
P(A)=\frac{3}{5}
P(B)=\frac{3}{5}
P(A\cup{B})=\frac{4}{5}
P(A\cap{B})=\frac{2}{5}
3)
P(A)=\frac{10}{20}=\frac{1}{2}
P(B)=\frac{6}{20}=\frac{3}{10}
P(A\cup{B})=\frac{13}{20}
P(A\cap{B})=\frac{3}{20}

解説.
基本的には要素を数え上げることで問題を解いています。問題そのものもそうですが、確率分布を考えていくにあたってはこのPを用いた表記に慣れておくと良いので、そちらについて違和感のないようにしていただけたらと思います。ここで用いたAやBの事象を確率変数を用いた表現に変えることで確率分布の表現を行なっていきます。一旦Pを用いて確率を表記するこの記述に慣れていただければここでは十分です。

 

2. 例題② 様々な関数(指数関数、対数関数)
2節では確率分布の関数において用いられる指数関数や、最尤法(MLE; Maximum Likelihood Estimation)にあたって計算の関数を簡易化するのに用いられる対数関数など、基本的な関数について取り扱います。

ex.02
1) f(x)=2^xとした際の、f(1)f(2)f(4)f(-2)f(0)を求めよ。
2) f(x)=3^xとした際の、f(1)f(2)f(4)f(-2)f(0)を求めよ。
3) f(x)=e^xとした際の、f(1)f(2)f(4)f(-2)f(0)を求めよ。
4) f(x)=\log_{2} xとした際の、f(2)f(4)f(8)f(\frac{1}{4})f(1)を求めよ。
5) f(x)=\log_{10} xとした際の、f(10)f(100)f(10000)f(\frac{1}{100})f(1)を求めよ。

 Answer.
1)
f(1)=2^1=2
f(2)=2^2=4
f(4)=2^4=16
f(-2)=2^{-2}=\frac{1}{4}
f(0)=2^0=1
2)
f(1)=3^1=3
f(2)=3^2=9
f(4)=3^4=81
f(-2)=3^{-2}=\frac{1}{9}
f(0)=3^0=1
3)
f(1)=e^1=e
f(2)=e^2
f(4)=e^4
f(-2)=e^{-2}=\frac{1}{e^2}
f(0)=e^0=1
4)
f(2)=\log_{2} 2=1
f(4)=\log_{2} 2^2=2
f(8)=\log_{2} 2^3=3
f(\frac{1}{4})=\log_{2} 2^{-2}=-2
f(1)=\log_{2} 2^0=0
5)
f(10)=\log_{10} 10=1
f(100)=\log_{10} 10^2=2
f(10000)=\log_{10} 10^4=4
f(\frac{1}{100})=\log_{10} 10^{-2}=-2
f(1)=\log_{10} 10^0=0

解説.
指数関数、対数関数ともに慣れるまで反復するのが良いと思います。応用を考えるにあたって、指数関数も対数関数もそれぞれの示す挙動が便利なため多く用いられます。またそれぞれの性質として、指数関数は単調増加関数かつ0より大きい値が保証されていること、対数関数は定義域が0より大きく、単調増加関数であることを把握しておくと良いです。


3. まとめ
#1では確率分布や最尤法について理解するにあたってベースとなる集合・確率や基本的な関数として指数関数・対数関数について取り扱いました。
#2では確率関数のグラフ化と、掛け算と対数について取り扱います。