Aggressive Style 5

読者です 読者をやめる 読者になる 読者になる

Aggressive Style 5

昨今はコミケ関係を中心に書いています。同人やニコニコ動画方面で活躍される方の相互リンクをお待ちしています。

IT業界の就職で知っておいたほうが良かったと思った事(1):数学の確率(確率変数の平均、分散、ベイズの定理)を復習する

関連キーワード:確率、統計、ベイズの定理、機械学習人工知能、画像処理

はじめに

今日は確率に関して筆者が重要だと思った事を話す。昨今では機械学習と言って、人工知能における研究課題の一つで、人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術・手法などを理解するのに、確率の知識が必要となってきた。そこで本記事では、平均や分散など統計を読み取るのに必要な事柄や、機械学習などに関連深いベイズの定理を中心に解説していく。尚確率の定義などを確認しながら読み進めたい場合は「確率の定義、ベイズの定理」さんを参照にして欲しい。

確率の定義、ベイズの定理


目次

  • 1.確率変数の平均と分散
  • 1-1:確率変数の定義
  • 1-2:確認例題
  • 2.条件付き確率とベイズの定理
  • 2-1:条件付き確率の概要
  • 2-2:ベイズの定理の概要
  • 2-3:ベイズの定理の例題
  • 3:ナイーブベイズ
  • 4:参考文献、Webサイト
  • 5:参考になったサイト、面白そうな論文など

1.確率変数の平均と分散

1-1:確率変数の定義

ある試行Tの結果として起こる色々な事象の確率が定まっているものとする。このとき、どの事象が起こるかによってその値が定まる変数を、(その試行Tにともなう)確率変数と言う。例えば出る目の同様に確からしいサイコロAを1回投げその出た目をXとするとき、このXを確率変数と言う。このとき1の出る確率をP(X=1)=1/6と書くこともある。

1-2:確認例題

ある試行Tの結果として起こる色々な事象の確率が定まっているものとする。このときどの事象が起こるかによってその値が定まる変数を確率変数という。このとき、


  • (1):離散型確率変数Xの平均E(X)、分散V(X)の定義を述べよ。
  • (2):右のように1〜5の整数が印刷されたサイコロAがある。サイコロAを1回振るときの出る目Xの平均E(X)、分散V(X)を求めよ。


解答

(1):確率変数の取りうる値がx1,x2,x3,.....,xnであり、P(X=xn) = pnとおくときその平均E(X)=Σ(1<=k<=n)xkpk,分散V(X)=Σ(1<=k<=n)(xk-E(X))^2*pk


(2):E(X) = 1*1/6 + 2*1/6 + 3*1/6 + 4*1/6 + 5*2/6 = 20/6 = 10/3 (答)

E(X^2) = 1^2*1/6 + 2^2*1/6 + 3^2*1/6 + 4^2*1/6 + 5^2*2/6 = 40/3

V(X) = E(X^2) - {E(X)}^2 = 40/3 - 100/9 = 20/9(答)

2.条件付き確率とベイズの定理

2-1:条件付確率の概要

ある試行に伴う2つの事象A,Bに関し、Aが起こった時にBが起こる確率を,Aが起こった時のBの条件付き確率といい、P(A|B)で表す。このとき[公式] P(A∧B) = P(A) * P(A|B)が成立する。ここで証明を例題1として掲載する。

例題1: P(A∧B) = P(A) * P(A|B)を証明せよ
証明

一般に有限な全事象Uにおいて、任意の根元事象が同様に確からしく起こるとき、P(A) = n(A)/n(U) が成立する。


ここで、根元事象の集合をU、2つの事象の集合A、Bがあるとする。図よりまず

P(A∧B) = n(A∧B)/n(U) = n1/(n1+n2+n3+n4)

P(A) = n(A)/n(U) = (n1+n2)/(n1+n2+n3+n4)

P(A|B) = n(A∧B)/n(A) = n1/(n1+n2)

よってP(A) * P(A|B) = (n1+n2)/(n1+n2+n3+n4) * n1/(n1+n2)

= n1/(n1+n2+n3+n4) = P(A∧B) より[公式]は示された q,e,d

とこのように確率と言うのは集合と関連が深く、集合で考えると捉えやすいことが数多くある。

2-2:ベイズの定理の概要

ベイズの定理はある人の検査結果が陽性であったときに、この人が実際に病気である確率を求めるときなどに用いられる。IT系などの職種以外の多くの応用の効くので、ぜひ物にしてほしい。

例題2

事象A1,A2が同時に起こらない(排反)であるとする。このときA1,A2のいずれかが起こったために事象Bが起こったとする。このとき事象Bが起こった原因が、事象A1である確率P(B|A1)を考える。このときP(B|A1) = P(A1) * P(A1|B) /P(A1) * P(A1|B) + P(A2) * P(A2|B)となることを示せ。

証明





P(A∧B) = P(B|A1) * P(B) <=> P(B|A1) = P(A1∧B)/P(B)。

ここでP(B) = P(A1∧B) + P(A2∧B)

よって、P(B|A1) = P(A1∧B)/P(A1∧B) + P(A2∧B)

= P(A1) * P(A1|B) / P(A1) * P(A1|B) + P(A2) * P(A2|B) q.e.d

2-3:ベイズの定理の例題

例題3

ある企業Aでは1回の面接で受験者を採用している。受験者が採用要件を満たす人間である確率を0.4、受験者が採用要件を満たさない人間である確率を0.6とする。さらに受験者が採用要件を満たす人間であると仮定して、面接官が採用要件を満たすと判定する確率を0.8、判定しない確率を0.2とする。一方で受験者が採用要件を満たさない人間であると仮定して、面接官が採用要件を満たすと判定する確率を0.1、判定しない確率を0.9とする。このとき面接官が採用要件を満たすと判定したが、実際は受験者が採用要件を満たしていない確率を求めよ。

解答

受験者が採用要件を満たす事象をA,受験者が採用要件を満たさない事象をA-, 面接官が採用要件を満たすと判定する事象をB、面接官が採用要件を満たさないと判定する事象をB-とする。このときP(A)=0.4,P(¬A)=0.6,P(A|B)=0.8,P(A|¬B)=0.2,P(¬A|B)=0.1,P(¬A|¬B)=0.9となる。このとき、


P_B(A-) = P(¬A∧B) / P(B)

= P(¬A)* P(A|B) /P(A) *P(A|B) + P(¬A) * P(¬A|B)

= 0.6 * 0.1 / 0.4 * 0.8 + 0.6 * 0.1

= 0.6 * 0.1 / 0.4 * 0.8 + 0.6 * 0.1

= 0.06/0.38

= 3/19 (余事象)

3:ナイーブベイズ

最後にナイーブベイズの解説をしていこうと思う。ナイーブベイズは複数個のテキストがあって、そのテキストの著者が誰であるかを調べるときなどに使う方法である。

まずテキストTがある条件J1を満たすかどうかを確かめたい。テキストの全体集合Tがあるアルゴリズムによって、次のような n個の部分集合に分けられたとする。つまりU={M1,M2,M3,...,Mn}。ここで、それぞれの要素が互いに独立であると仮定したとき、その尤度は次式のように、個々の部分集合に関する条件づき確率の積として表現できる。このとき、

P(T|J) = P(T1|J) * P(T2|J) * P(T3|J) *......* P(Tn|J)

多くの文献を読んでいると、2つの条件P(T|J1),P(T|J2)を計算して比較して、数値が大きい方を採択する。例えばP(T|J1) > P(T|J2)ならば、Tは条件J1を満たしている可能性が高いと判定するようだ。ベイズの定理からの丁寧な説明がなされているslideshareを発見したので、ぜひ確認してほしい。

分類器 (ナイーブベイズ)(Satoshi MATSUURA氏作成)

4:参考書籍

大学への数学B

大学への数学B

5:参考になったサイト、面白そうな論文など