forked from herumi/prml
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathprml1.tex
210 lines (170 loc) · 10.4 KB
/
prml1.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
% 第1章
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\setcounter{chapter}{0}
\chapter{確率}
この章では確率の定義の紹介をする.
厳密な確率のはなしをするのは難しいが, 何が問題なのかが分かる程度に確率の用語の定義を眺めてみよう.
\section{確率空間}
まず確率空間の定義から始める.
\begin{definition}
確率空間$(\Omega, \calF, P)$とは
\begin{enumerate}
\item $\Omega$をある集合
\item $\calF$を$\Omega$を含む$\Omega$の部分集合の集合で$\sigma $加法族であるもの
\item $P$を$\calF$から実数全体$\RR$への写像$P\colon \calF \to \RR$で次を満たすもの
\begin{enumerate}
\item $P(E) \ge 0$
\item $E_1$, $E_2$, \ldots が互いに素(共通部分が無い)なら $P(\bigcup_i E_i) = \sum_i P(E_i)$
\item $P(\Omega) = 1$
\end{enumerate}
\end{enumerate}
からなる三つ組のことである.
\end{definition}
$\sigma $加法族については後で触れるとして, それ以外は難しい言葉ではない.
$\Omega$が有限集合の場合は$\calF$は$\Omega$の部分集合全体としてよい.
$\Omega$の元を標本点, $\calF$の元を事象, 事象$E(\in \calF)$に対して,$P(E)$を事象$E$の確率という.
写像$P$の条件は素朴に持ってる確率のイメージを素直に書き下したものである.
$E$の補集合を$E^c$と書くと, 条件(b)と条件(c)から$P(E) + P(E^c)=P(E\cup E^c)=P(\Omega)=1$.
よって$P(E^c)=1-P(E)$. 条件(a)から$0 \le P(E) \le 1$となる.
とくに$E=\Omega$を考えると$P(\emptyset)=1-P(\Omega)=0$.
$\Omega$としては, たとえば
\begin{itemize}
\item コイントスなら$\Omega = \{表, 裏\}$
\item サイコロなら$\Omega = \{1, 2, 3, 4, 5, 6\}$
\item $[0, 1]$区間の一様分布なら$\Omega = [0, 1]$
\end{itemize}
などが考えられる.
\pagebreak
たとえばサイコロについて$P(1) + \dots +P(6)=1$. もしどの目も同じ確率が出るなら$P(1)=\dots=P(6)=1/6$となる.
事象1と事象2には互いに素なので1か2が出る確率は$P(1\cup2)=P(1)+P(2)=2/6=1/3$となる.
\section{$\sigma $加法族}
さて次に$\sigma $加法族の定義を紹介する.
\begin{definition}
集合$\calF$の任意の元(つまり$\Omega$のある部分集合)$A$, $B$について$A \cup B$, $A \cap B$, $A^c$($A$の補集合)も$\calF$の元であるとき,
$\calF$は集合の演算(合併, 共通部分, 補集合)に関して閉じているという.
$\calF$が可算回の集合の演算に関して閉じているとき$\calF$を$\sigma $加法族という.
\end{definition}
これは,事象$A$や$B$の確率を考えるなら$A \cup B$や$A \cap B$の確率も考えたい,
事象$E$の確率$P(E)$を考えるなら,その余事象の確率$P(E^c)$も当然考えたいという要請からくる.
そしてその操作は可算無限回ぐらいはしたいよねと.
たとえばサイコロの目のどれかが出る事象$\{1\}$, $\{2\}$, \ldots, $\{6\}$について,
それらの任意の合併を考えると$\calF$は$\Omega$の部分集合の全体$2^6=64$個の要素からなる(空集合も含む).
ここで, 「それなら何故最初から$\calF=\text{“$\Omega$の部分集合全体”}$としないのか」
という疑問がわく.
素朴にはそれでよく, 実際$\calF$が有限集合ならそれで何も問題ない.
ところが, たとえば$\Omega = [0, 1]$などの無限個の集合のときに困ることがある.
そういうところでの確率の計算は積分に置き換わるのだが, $\Omega$の部分集合の中には面積(測度)を定義できないものが存在する.
そういうへんちくりんなものは取り除いておきたいので$\Omega$の部分集合全体ではなく$\sigma $加法族という概念が使われている.
ざっくりいうと確率空間$(\Omega, \calF, P)$とは, 事象の全体$\Omega$と,
$\Omega$の“都合のよい”部分集合全体$\calF$と, $\calF$の各元に
素朴な確率を割り当てたものである.
\section{確率変数の定義}
最後にこれから頻繁に登場する確率変数の定義を見よう.
$P(X\le0.5)$のような表記をよく見かけるし, 名前から見ても変数だろうと思うのだが実際のところは何なのだろう.
\begin{definition}
$(\Omega, \calF, P)$を確率空間とする.
$X\colon \Omega \to \RR$が$\calF$可測なとき,$X$を確率変数という.
\end{definition}
なんと$X$とは標本の全体から実数への写像であった.
ここで$X$が$\calF$可測であるとは
任意の$a \in \RR$に対して, 開区間$(-\infty, a)$の写像$X$による逆像
$X^{-1}(\,(-\infty , a)\,) := \{ \omega \in \Omega \,|\, X(\omega) < a\}$が$\calF$に含まれることをいう.
いくつか例で考える.
$(-\infty , a)$の逆像が$\calF$の元なら$\calF$が$\sigma$加法族なので
その補集合$[a, \infty )$の逆像もまた$\calF$の元である.
区間$[a, b)$は $[a, b) = (-\infty , b) \cap [a, \infty )$なので
$[a, b)$の逆像も$\calF$の元になる.
$\bigcap_{n>0} [a, b+1/n) = [a, b]$なので$[a, b]$の
逆像も$\calF$の元, $(a, b)$の逆像も$\calF$の元…….
というわけで,これは区間$(a, b)$から集合の演算の可算回の操作で
できる全ての集合(これを$\RR$のボレル集合$B(\RR)$という)の
逆像も$\calF$の元ということを含んでる.
$\RR$の部分集合全体$2^{\RR}$の中にはルベーグ可測という積分が出来てうれしい部分集合の全体$L(\RR)$がある.
そしてボレル集合$B(\RR)$の元は全てルベーグ可測である. つまり
$$
\text{ボレル集合} \⊂ \text{ルベーグ可測集合} \⊂ \text{$\RR$の部分集合全体}
$$
という関係がある.
細かいことを言えば, $B(\RR)$は$L(\RR)$より真に小さく, $L(\RR)$は$2^{\RR}$より真に小さい.
\section{確率変数のこころ}
前節の話だけではなんだかよくわからないのでもう少し考える.
確率空間$(\Omega, \calF, P)$と
確率変数 $X\colon \Omega \to \RR$があったときに,
$\varPhi\colon B(\RR) \to [0, 1]$を
$\varPhi (A) := P(X^{-1}(A))$ で定義する.
\pagebreak
$X$の定義から$B(\RR)$の元$A$の逆像$X^{-1}(A)$は$\calF$の元であるから
確率$P$を求められる.
$\varPhi $が確率の定義(a), (b), (c)を満たしているのはほぼ明らか.
よって$(\RR, B(\RR), \varPhi )$という確率空間を構成できた.
これは一体何をしたのかコイントスで具体的に見てみよう.
確率空間は
$$
\left(
\Omega =\{表, 裏\},\
\calF = \{\emptyset, \{表\}, \{裏\}, \{表, 裏\}\},\
P(\{表\}) = P(\{裏\}) = 1/2
\right)
$$
である.
確率変数$X$は$\Omega$から$\RR$への写像なので$X(表) := 0$, $X(裏) := 1$としてみよう.
すると
$X^{-1}(\{0\}) = \{表\}$, $X^{-1}(\{1\}) = \{裏\}$, $X^{-1}(\{0, 1\}) = \{表, 裏\}$となる.
$X$を通して作られた確率空間$(\RR,B(\RR),\varPhi)$は
$$
\left(
\Omega'=\{0, 1\},\
\calF'=\{\emptyset, \{0\}, \{1\}, \{0,1\} \},\
\varPhi(\{0\})=\varPhi(\{1\})=1/2
\right)
$$
である.
ここで$\varPhi = P\cdot X^{-1}$を$P$と同じものとみなして$P(X = {裏}) = 1/2$と記すことがある.
要はいつまでも$\Omega = \{表, 裏\}$とかでやっていたくないので
$\RR$にマップして$(\RR, B(\RR), \varPhi )$で考えたいという意図である.
同様に正規分布の場合は
$\Omega = \RR$,
$\calF = B(\RR)$,
$P(A) = \left(\sfrac{1}{\sqrt{2\pi}}\right) \int_A \exp\left({\sfrac{-x^2}{2}}\right)dx$,
$X\colon \Omega = \RR \ni x \mapsto x \in \RR$
としてみる.
本当は$x \in \RR$に対して $P(X^{-1}(\,(-\infty , x]\,))$を考えているのだけど, これをざっくり$P(X \le x)$と書いたりする.
略記した瞬間に写像だったものがあたかも変数であるかのように見えるようになった. そして実際その感覚で扱えるように定義されている.
まとめると, 部分集合全体を考えたいのだけど, それだと病的なケースがあるのでそれを避けるために都合のよい部分集合を考えた.
確率空間がいろんな形をしてると面倒なので$\RR$上で考えるように確率変数という写像を用意した.
素朴な確率の表記と整合性をとれるように$P(X^{-1}(A))$を$P(X \in A)$と略記した.
つまり, $P(X < 0)$は, $P(X^{-1}(\,(-\infty,0)\,))
= P(\{\omega \in \Omega\,|\,X(\omega ) < 0\})$の略記法なのである.
ということで, 確率変数は本当は写像なのだが変数に見える記法が使われていたのだった.
\section{ベイズの定理}
事象$A$, $B$について
$$
\ProbW(A|B):=\frac{P(A\cap B)}{P(B)}
$$
を$B$における$A$の条件付き確率という.
たとえば手元にあるメール100通のうち70通がスパムで, スパムメールの中に“投資”という単語が入っているのが49通だったとする.
このとき$A$をその単語が入っているという事象, $B$をスパムメールであるという事象とすると条件付き確率$\ProbW(A|B)$は
スパムメールの中に投資が入っている確率で$49/70$となる.
分母を払い, $A$と$B$を交換すると
$$
P(A\cap B)=\ProbW(A|B)P(B)=\ProbW(B|A)P(A).
$$
よって
$$
\ProbW(B|A)=\frac{\ProbW(A|B)P(B)}{P(A)}.
$$
これをベイズの定理という.
$A=(A \cap B) \cup (A \cap B^c)$で$(A \cap B) \cap (A \cap B^c)=\emptyset$なので確率の和の性質から
$$
P(A)=P(A \cap B) + P(A \cap B^c)=\ProbW(A|B)P(B)+\ProbW(A|B^c)P(B^c).
$$
よって
$$
\ProbW(B|A)=\frac{\ProbW(A|B)P(B)}{\ProbW(A|B)P(B)+\ProbW(A|B^c)P(B^c)}.
$$
スパムである確率$P(B)$と, メールを調べることによって得られるスパムの中に投資が入っていた確率$\ProbW(A|B)$から,
投資が入っていたときにそれがスパムである確率$\ProbW(B|A)$を計算できる.
$P(B)$を事前確率, $\ProbW(B|A)$を事後確率という.
言い換えると事前確率と, 観測により得られた条件付き確率$\ProbW(A|B)$から事後確率を求められる.
この考え方を出発点として今後さまざまな値を予測, 推測していく.