統計学入門の第8章をまとめた。

大数の法則

1回の試行で2種類の事象(コイン投げなら表・裏)のいずれかが生じ、
そのような事象が生起する可能性が常に一定(コイン投げなら$\frac{1}{2}$)である試行を
ベルヌーイ試行と呼ぶ。

コイン投げにおいて、表が出た場合を$1$、裏が出た場合を$0$をとる確率変数$x$を考える。
$n$回のコイン投げで表が出た回数$r$は$x_{1}+x_{2}+\cdots+x_{n}$となり、
この$r$は$n=10, p=0.5$の二項分布$Bi(10, 0.5)$に従う。

このとき、観測された成功率は$\frac{r}{n}$であるが、
試行回数$n$を大きくすると観測された成功率は真の成功率$p=0.5$に近づいていく。
これを大数の法則と呼ぶ。

中心極限定理

中心極限定理によると、$n$が大きいとき母集団分布が何であっても
標本和$x_{1}+x_{2}+\cdots+x_{n}$の確率分布は正規分布に従う。

母平均を$\mu$、母分散を$\sigma$とすると
標本和$S_{n}=x_{1}+x_{2}+\cdots+x_{n}$は正規分布$N(n\mu, n\sigma^{2})$に、
標本平均$\bar{x}=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}$は正規分布$N(\mu, \frac{\sigma^{2}}{n})$に従う。

大数の法則では$n$が大きいとき$\bar{x}\simeq\mu$であることを保証するが
中心極限定理では$\bar{x}$は正規分布の形をとりながら$\mu$へ近づくことを保証しているという点で、
中心極限定理の方がより詳しい定理であるといえる。

二項分布の正規分布による近似

二項分布における成功の回数$S$は
ベルヌーイ分布$Bi(1,p)$に従う確率変数$x_{1}, x_{2},\cdots,x_{n}$の和$S=x_{1}+x_{2}+\cdots+x_{n}$となり、
$Bi(n,p)$は$n$が大きいとき正規分布$N(\mu, \sigma^2)$に近づく。

また、二項分布において$\mu=np, \sigma^{2}=np(1-p)$であることから、
標準化変数$z=\cfrac{S-np}{\sqrt{np(1-p)}}$は標準正規分布$N(1,0)$に近づく
ということもできる。

練習問題

8.1

確率変数$X_{1},X_{2},\cdots,X_{n}$が独立でベルヌーイ分布$Bi(1,p)$に従っているとき、中心極限定理から

\[P(L \leq X_{1}+X_{2}+ \cdots +X_{n} \leq U)=0.95\]

となる$L, U$を求めよ。
また、$n=700, p=0.4$のときの$L, U$の値を求めよ。


中心極限定理より、二項分布$Bi(n,p)$の平均の分布は正規分布$N(\mu, \frac{\sigma^{2}}{n})$となる。

母平均$\mu=\frac{(X_{1}+X_{2}+ \cdots +X_{n})}{n}$に対する信頼度95%のときの信頼区間は

\[p - 1.96 \frac{\sigma}{\sqrt{n}} \leq \mu \leq p + 1.96 \frac{\sigma}{\sqrt{n}}\]

一方、二項分布$Bi(n,p)$の総和の分布は中心極限定理より正規分布$N(n\mu, n\sigma^{2})$に従う。

\[np - 1.96 \sigma \leq n\mu \leq np + 1.96 \sigma\]

二項分布$B(n,p)$では$\sigma^{2}=np(1-p)$なので

\[np - 1.96\sqrt{np(1-p)} \leq n\mu \leq np + 1.96\sqrt{np(1-p)}\]

$L=np - 1.96\sqrt{np(1-p)}$、$U=np + 1.96\sqrt{np(1-p)}$

$n=700$、$p=0.4$のとき、$L=254.6$、$P=305.4$

8.2

確率変数$X_{1},X_{2},\cdots,X_{n}$は独立で

\[P(X_{i}=1)=p, P(X_{i}=-1)=q \quad (i=1,2,\cdots,n)\]

に従っている。ただし、$q=1-p$

  1. $n$が大きいとき、$S_n=X_{1}+X_{2}+ \cdots +X_{n}$の近似的確率分布を求めよ。
  2. $p=0.4$のとき、$S_{10}, S_{20}$の近似的確率をグラフにせよ。

1.

\[\begin{align} E(X) &= 1 \cdot p + -1 \cdot q \\ &= p-q \\ V(X) &= E(X^2)-E(X)^2 \\ &=1^2 \cdot p + (-1)^2 \cdot q - (p-q)^2 \\ &=p(1-p)+2pq+q(1-q) \\ &=4pq \end{align}\]

中心極限定理より、$S_n$の分布は正規分布$N(n(p-q), 4npq)$となる。

2.

8.3

昨シーズン2割8分の打率だった打者が今シーズンもこの確率でヒットを打つものとすると、

  1. 今シーズン450打数だった場合3割バッターになれる確率はどれくらいか。
  2. このバッターが確率0.2以上で3割バッターになろうとすると打数はどのくらいか。

確率変数$X$がベルヌーイ分布$Bi(1,p)$に従うとき、
標準化変数$Z=\cfrac{S-np}{\sqrt{np(1-p)}}$は標準正規分布で近似できる。

$p=0.28, p^{‘}=0.3, n=450$とすると、

\[\begin{align} P\left(X\geq np^{'}\right) &=P\left(Z \geq \cfrac{np^{'}-np}{\sqrt{np(1-p)}}\right) \\ &=P\left(Z \geq \cfrac{450\cdot(0.3-0.28)}{\sqrt{450\cdot0.28\cdot0.72}}\right) \\ &\simeq P\left(Z \geq 0.9449 \right) \end{align}\]

付表1の標準正規分布表(上側確率)より、$Z=0.94$のときの上側確率$Q(Z)$は0.1736
よって、このバッターが3割バッターになる確率は0.1736

確率0.2以上で3割バッターになるためには、付表1の標準正規分布表(上側確率)より、$Z=0.84$

\[\begin{align} P\left(X\geq np^{'}\right) &=P\left(Z \geq \cfrac{np^{'}-np}{\sqrt{np(1-p)}}\right) \\ &=P\left(Z \geq \cfrac{n\cdot(0.3-0.28)}{\sqrt{n\cdot0.28\cdot0.72}}\right) \\ &\simeq P\left(Z \geq 0.84 \right) \end{align}\]

よって、$n\geq355.6$