統計学入門 第8章 -大数の法則と中心極限定理- メモ
統計学入門の第8章をまとめた。
大数の法則
1回の試行で2種類の事象(コイン投げなら表・裏)のいずれかが生じ、
そのような事象が生起する可能性が常に一定(コイン投げなら$\frac{1}{2}$)である試行を
ベルヌーイ試行と呼ぶ。
コイン投げにおいて、表が出た場合を$1$、裏が出た場合を$0$をとる確率変数$x$を考える。
$n$回のコイン投げで表が出た回数$r$は$x_{1}+x_{2}+\cdots+x_{n}$となり、
この$r$は$n=10, p=0.5$の二項分布$Bi(10, 0.5)$に従う。
このとき、観測された成功率は$\frac{r}{n}$であるが、
試行回数$n$を大きくすると観測された成功率は真の成功率$p=0.5$に近づいていく。
これを大数の法則と呼ぶ。
中心極限定理
中心極限定理によると、$n$が大きいとき母集団分布が何であっても
標本和$x_{1}+x_{2}+\cdots+x_{n}$の確率分布は正規分布に従う。
母平均を$\mu$、母分散を$\sigma$とすると
標本和$S_{n}=x_{1}+x_{2}+\cdots+x_{n}$は正規分布$N(n\mu, n\sigma^{2})$に、
標本平均$\bar{x}=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}$は正規分布$N(\mu, \frac{\sigma^{2}}{n})$に従う。
大数の法則では$n$が大きいとき$\bar{x}\simeq\mu$であることを保証するが
中心極限定理では$\bar{x}$は正規分布の形をとりながら$\mu$へ近づくことを保証しているという点で、
中心極限定理の方がより詳しい定理であるといえる。
二項分布の正規分布による近似
二項分布における成功の回数$S$は
ベルヌーイ分布$Bi(1,p)$に従う確率変数$x_{1}, x_{2},\cdots,x_{n}$の和$S=x_{1}+x_{2}+\cdots+x_{n}$となり、
$Bi(n,p)$は$n$が大きいとき正規分布$N(\mu, \sigma^2)$に近づく。
また、二項分布において$\mu=np, \sigma^{2}=np(1-p)$であることから、
標準化変数$z=\cfrac{S-np}{\sqrt{np(1-p)}}$は標準正規分布$N(1,0)$に近づく
ということもできる。
練習問題
8.1
確率変数$X_{1},X_{2},\cdots,X_{n}$が独立でベルヌーイ分布$Bi(1,p)$に従っているとき、中心極限定理から
\[P(L \leq X_{1}+X_{2}+ \cdots +X_{n} \leq U)=0.95\]となる$L, U$を求めよ。
また、$n=700, p=0.4$のときの$L, U$の値を求めよ。
中心極限定理より、二項分布$Bi(n,p)$の平均の分布は正規分布$N(\mu, \frac{\sigma^{2}}{n})$となる。
母平均$\mu=\frac{(X_{1}+X_{2}+ \cdots +X_{n})}{n}$に対する信頼度95%のときの信頼区間は
\[p - 1.96 \frac{\sigma}{\sqrt{n}} \leq \mu \leq p + 1.96 \frac{\sigma}{\sqrt{n}}\]一方、二項分布$Bi(n,p)$の総和の分布は中心極限定理より正規分布$N(n\mu, n\sigma^{2})$に従う。
\[np - 1.96 \sigma \leq n\mu \leq np + 1.96 \sigma\]二項分布$B(n,p)$では$\sigma^{2}=np(1-p)$なので
\[np - 1.96\sqrt{np(1-p)} \leq n\mu \leq np + 1.96\sqrt{np(1-p)}\]$L=np - 1.96\sqrt{np(1-p)}$、$U=np + 1.96\sqrt{np(1-p)}$
$n=700$、$p=0.4$のとき、$L=254.6$、$P=305.4$
8.2
確率変数$X_{1},X_{2},\cdots,X_{n}$は独立で
\[P(X_{i}=1)=p, P(X_{i}=-1)=q \quad (i=1,2,\cdots,n)\]に従っている。ただし、$q=1-p$
- $n$が大きいとき、$S_n=X_{1}+X_{2}+ \cdots +X_{n}$の近似的確率分布を求めよ。
- $p=0.4$のとき、$S_{10}, S_{20}$の近似的確率をグラフにせよ。
1.
\[\begin{align} E(X) &= 1 \cdot p + -1 \cdot q \\ &= p-q \\ V(X) &= E(X^2)-E(X)^2 \\ &=1^2 \cdot p + (-1)^2 \cdot q - (p-q)^2 \\ &=p(1-p)+2pq+q(1-q) \\ &=4pq \end{align}\]中心極限定理より、$S_n$の分布は正規分布$N(n(p-q), 4npq)$となる。
2.
略
8.3
昨シーズン2割8分の打率だった打者が今シーズンもこの確率でヒットを打つものとすると、
- 今シーズン450打数だった場合3割バッターになれる確率はどれくらいか。
- このバッターが確率0.2以上で3割バッターになろうとすると打数はどのくらいか。
確率変数$X$がベルヌーイ分布$Bi(1,p)$に従うとき、
標準化変数$Z=\cfrac{S-np}{\sqrt{np(1-p)}}$は標準正規分布で近似できる。
$p=0.28, p^{‘}=0.3, n=450$とすると、
\[\begin{align} P\left(X\geq np^{'}\right) &=P\left(Z \geq \cfrac{np^{'}-np}{\sqrt{np(1-p)}}\right) \\ &=P\left(Z \geq \cfrac{450\cdot(0.3-0.28)}{\sqrt{450\cdot0.28\cdot0.72}}\right) \\ &\simeq P\left(Z \geq 0.9449 \right) \end{align}\]付表1の標準正規分布表(上側確率)より、$Z=0.94$のときの上側確率$Q(Z)$は0.1736
よって、このバッターが3割バッターになる確率は0.1736
確率0.2以上で3割バッターになるためには、付表1の標準正規分布表(上側確率)より、$Z=0.84$
\[\begin{align} P\left(X\geq np^{'}\right) &=P\left(Z \geq \cfrac{np^{'}-np}{\sqrt{np(1-p)}}\right) \\ &=P\left(Z \geq \cfrac{n\cdot(0.3-0.28)}{\sqrt{n\cdot0.28\cdot0.72}}\right) \\ &\simeq P\left(Z \geq 0.84 \right) \end{align}\]よって、$n\geq355.6$