統計学入門の第9章をまとめた。

母集団と標本

母集団(population)について完全に知ることはほぼ不可能であるため、
標本抽出(sampling)により標本から母集団を推定する。
標本は母集団の性質を反映していると考えられるため、
標本についてよく知ることは母集団について知ることにつながる。

母集団が従う分布に仮定を置く場合をパラメトリックと呼ぶ。 母集団の分布を決定する定数を母数と呼び、 母数がわかれば母集団分布を求めることができる。 例えば母集団が正規分布に従うと仮定する場合、 母数は平均$\mu$と分散$\sigma^{2}$にあたる。 分布に仮定を置く場合、標本から母数を求めることで母集団分布を知ることができる。

一方、分布に仮定を置かない場合をノンパラメトリックと呼ぶ。
この場合は母集団分布に依らない普遍的なパラメータで分析をおこなう。
例えば、分布の位置に関するパラメータとしてmean、median、mode、
ばらつきに関するものとして母分散、レンジなど、
分布の形に関するものとして歪度、尖度などがある。

母数と統計量

母集団全体を調べることが難しい場合、
大きさ$n$の標本$X_{1},X_{2},\cdots,X_{n}$をとる。
標本$X_{1},X_{2},\cdots,X_{n}$は独立で、
それぞれが母平均$\mu$、母分散$\sigma^{2}$の母集団分布に従う確率変数であるとする。

\[E(X_{1})=\dots=E(X_{n})=E(X)=\mu\] \[V(X_{1})=\dots=V(X_{n})=V(X)=\sigma^{2}\]

標本平均 (sample mean)

\[\bar{X}=\cfrac{1}{n}\sum_{i}^{n}X_{i}\]

標本平均$\bar{X}$の期待値$E\left(\bar{X}\right)$は

\[\begin{align} E\left(\bar{X}\right) &=E\left(\cfrac{\sum_{i}^{n}X_{i}}{n}\right) \\ &=\cfrac{1}{n}\sum_{i}^{n}E\left(X_{i}\right) \\ &=\cfrac{n\mu}{n}=\mu \end{align}\]

となり、母平均と一致する。

また、標本平均$\bar{X}$の分散$V\left(\bar{X}\right)$は

\[\begin{align} V\left(\bar{X}\right) &=V\left(\cfrac{1}{n}\sum_{i}^{n}X_{i}\right) \\ &=\cfrac{1}{n^{2}} \sum_{i}^{n}V(X_{i}) \\ &=\cfrac{n\sigma^{2}}{n^{2}}=\cfrac{\sigma^{2}}{n} \end{align}\]

となることから、$n\to \infty$のとき$\bar{X}$の分散は0に近づき、
$\bar{X}$の期待値は$\mu$に収束していくことがわかる。

標本分散 (sample variance)

\[s^{2}=\cfrac{1}{n}\sum_{i}^{n}\left(X_{i}-\bar{X}\right)^{2}\]

標本分散$s^{2}$の期待値$E(s^{2})$は

\[\begin{align} E\left(s^{2}\right) &=\cfrac{1}{n} \sum_{i}^{n} E\left(\left(X_{i} - \bar{X}\right)^{2}\right) \\ &=\cfrac{1}{n} \sum_{i}^{n} X_{i}^{2} - \bar{X}^{2} \\ &=\cfrac{1}{n}\sum_{i}^{n} E\left(X_{i}^{2}\right) - E\left(\bar{X}^{2}\right) \\ &=E\left(X^2\right) - E\left(\bar{X}^{2}\right) \\ &=\sigma^{2}+E(X)^{2}-E(\bar{X}^{2}) \quad \left( \sigma^{2}=E(X^{2})-E(X)^{2}\right) \\ &=\sigma^{2}-\left( E(\bar{X}^{2})-E(\bar{X})^{2} \right) \quad \left(E(X)=E(\bar{X})\right) \\ &=\sigma^{2}-\cfrac{\sigma^{2}}{n} \quad \left( E(\bar{X}^{2})-E(\bar{X})^{2} = \cfrac{\sigma^{2}}{n}\right) \\ &= \cfrac{n-1}{n} \sigma^{2} \end{align}\]

となり、$\cfrac{n}{n-1}s^{2}$の期待値が母分散$\sigma^{2}$に等しいことになる。
$s^{2}$の定義より、$\cfrac{1}{n-1}\sum_{i}^{n}\left(X_{i}-\bar{X}\right)^{2}$の期待値が母分散$\sigma^{2}$に等しくなることがわかる。
これを不偏分散(unbiased variance)という。

不偏分散と自由度

\[{s^{'}}^{2}=\cfrac{1}{n}\sum_{i}^{n}\left(X_{i}-\bar{X}\right)^{2}\]

不偏分散の$n-1$は自由度(degree of freedom)といい、
自由に動ける変数の数を意味する。

母集団から$n$個の標本を抽出する場合、
標本平均の自由度は$n$であるため標本和を自由度$n$で割ることで求められる。
一方、標本分散の計算は標本平均を用いた偏差平方和であるため、

\[(X_{1}-\bar{X})+(X_{2}-\bar{X})\cdots+(X_{n}-\bar{X})=0\]

なので、$n-1$個の偏差の値が決まれば最後の偏差$X_{n}-\bar{X}$の値も決まってしまう。
そのため自由度は$n-1$となり、$n$で割ると母分散より小さく評価してしまう。
これが不偏分散の$n-1$で割ることの直感的な説明である。

標本分布

標本和$X_{1}+X_{2}+\cdots+X_{n}$や標本平均$\bar{X}$の標本分布は母集団分布に依存する。
特にパラメトリックの場合においては、分布が再生性(reproductive property)を持っている場合簡単に求められる。
再生性とは、独立な2つ以上の確率変数が同一の分布族に属する場合
その和もその分布に属することである。

二項母集団

母集団分布が母数$p$のベルヌーイ分布$Bi(1,p)$ならば
$X_{1}+X_{2}+\cdots+X_{n}$の分布は二項分布$Bi(n,p)$に従う。

ポアソン母集団

母集団分布が母数$\lambda$のポアソン分布$Po(\lambda)$ならば
$X_{1}+X_{2}+\cdots+X_{n}$の分布は二項分布$Po(\lambda n)$に従う。

正規母集団

母集団分布が母数$\mu, \sigma^{2}$の正規分布$N(\mu, \sigma^{2})$ならば
$X_{1}+X_{2}+\cdots+X_{n}$の分布は二項分布$N(n\mu, n\sigma^{2})$に従う。

有限母集団

母集団の大きさ$N$があまり大きくない場合や$\cfrac{n}{N}$が大きい場合、
無限母集団を仮定するのは適当ではない。
母平均$\mu$、母分散$\sigma^{2}$である有限母集団では

  • $\bar{X}$の期待値$E(\bar{X})$は、無限母集団の場合と同様に$\mu$と等しい。
  • $\bar{X}$の分散$V(\bar{X})$は、$\cfrac{N-n}{N-1}\cdot\cfrac{\sigma^{2}}{n}$となる。

$C_{N}=\cfrac{N-n}{N-1}\cdot\cfrac{\sigma^{2}}{n}$は無限母集団の場合の分散を修正する係数であり、
有限母集団修正と呼ばれる。
有限母集団修正$C_{N}$は無限母集団の極限$N\rightarrow\infty$で$C_{N}\rightarrow1$となる。

練習問題

9.2

多数のねじが入っている箱から取り出した6本のねじの直径が

\[1.22, 1.24, 1.25, 1.19, 1.17, 1.18\]

だったとき、標本平均$\bar{X}$と標本分散$s^{2}$を計算せよ。


\[\begin{align} \bar{X} &= \cfrac{1.22 + 1.24 + 1.25 + 1.19 + 1.17 + 1.18}{6} \\ &= \cfrac{7.25}{6} \\ &\simeq 1.21 \\\\ s^{2} &= E(X^2) - E(X)^{2} \\ &= \cfrac{1.22^2 + 1.24^2 + 1.25^2 + 1.19^2 + 1.17^2 + 1.18^2}{6} - \left( \cfrac{7.25}{6} \right)^{2} \\ &= \cfrac{8.7659}{6} - \cfrac{52.5625}{36} \\ &= 0.0009138888... \end{align}\]

9.5

A地点からB地点へ0または1の信号を送るとき、
ノイズによりB時点での確率0.9で正しい信号を、確率0.1で誤った信号を受け取る。
いま、信号の精度を改善するため、
信号は$n$回繰り返し送り$n$回受信された信号のうち多いほうのものによって
送られた信号が0か1であるかを決定する。
$n=3,5$の場合、信号が正しく伝達される確率を求めよ。


$n=3$のとき、信号が正しく伝達される確率は

\[{}_3 \mathrm{C}_0\left(\frac{9}{10}\right)^{3}+{}_3 \mathrm{C}_1\left(\frac{9}{10}\right)^{2}\frac{1}{10}=0.972\]

$n=5$のとき、信号が正しく伝達される確率は

\[{}_5 \mathrm{C}_0\left(\frac{9}{10}\right)^{5}+{}_5 \mathrm{C}_1\left(\frac{9}{10}\right)^{4}\frac{1}{10}+{}_5 \mathrm{C}_2\left(\frac{9}{10}\right)^{3}(\frac{1}{10})^{2}=0.99144\]

9.6

あるデパートの注文服売場の販売員のところへ来る1時間あたりの来客数は、
$\lambda=1.5$のポアソン分布に従うという。
午前3時間の来客数が5人以上である確率を求めよ。


単位時間あたり平均$\lambda$回起こるようなランダムな事象が
単位時間に$k$回起きる確率は、ポアソン分布より、

\[P(k)=e^{-\lambda}\cfrac{\lambda^{k}}{k!}\]

来客が1人も来ない確率は$e^{-1.5\cdot3}\cfrac{(1.5\cdot3)^0}{0!}=0.01110$
来客が1人である確率は$e^{-1.5\cdot3}\cfrac{(1.5\cdot3)^1}{1!}=0.04999$
来客が2人である確率は$e^{-1.5\cdot3}\cfrac{(1.5\cdot3)^2}{2!}=0.1125$
来客が3人である確率は$e^{-1.5\cdot3}\cfrac{(1.5\cdot3)^3}{3!}=0.1687$
来客が4人である確率は$e^{-1.5\cdot3}\cfrac{(1.5\cdot3)^4}{4!}=0.1898$

以上より、午前3時間の来客数が5人以上である確率は

\[1-(0.1898+0.1687+0.1125+0.04999+0.0111)=0.468\]

9.7

  北海道 東京 大阪 福岡 全国
交通事故死亡者数 9.7 4.0 5.7 7.8 8.4
交通事故死傷者数 526.6 508.7 703.8 867.2 621.6

ある年における10万人当たりの交通事故死亡者数、交通事故死傷者数は上の通りであった。
各都道府県において、人口10万人の年を考えるとき、

  1. 1年間の交通事故死亡者数が10人未満である確率を求めよ。
  2. 1日の交通事故死傷者数が5人未満である確率を求めよ。

9.6と同じくポアソン分布を使って考える。

$ python3 statistics-introduction-section9-9.7.py
北海道の死亡者数が10人未満である確率は0.496
東京の死亡者数が10人未満である確率は0.992
大阪の死亡者数が10人未満である確率は0.935
福岡の死亡者数が10人未満である確率は0.741
北海道の死傷者数が5人未満である確率は0.984
東京の死傷者数が5人未満である確率は0.986
大阪の死傷者数が5人未満である確率は0.954
福岡の死傷者数が5人未満である確率は0.907

9.8

5人からなる母集団の身長が$171.0, 167.3, 170.6, 178.7, 162.3(cm)$であった。

  1. この母集団の平均を求めよ。
  2. これから3人を標本として抽出する。すべての可能な標本を書き出し、それぞれの標本について標本平均$\bar{X}$、標本分散$\sigma^{2}$を計算せよ。
  3. 標本平均の確率分布、期待値、分散を2の結果から求めよ。期待値は母平均に等しいこと、分散は式(9.11)で計算される値となることを示せ。

$ python3 statistics-introduction-section9-9.8.py
母平均は169.98、母分散は28.726
有限母集団修正した母分散は4.788
(171.0, 167.3, 170.6)の3人の標本平均は169.633、標本分散は2.749
(171.0, 167.3, 178.7)の3人の標本平均は172.333、標本分散は22.549
(171.0, 167.3, 162.3)の3人の標本平均は166.867、標本分散は12.709
(171.0, 170.6, 178.7)の3人の標本平均は173.433、標本分散は13.896
(171.0, 170.6, 162.3)の3人の標本平均は167.967、標本分散は16.082
(171.0, 178.7, 162.3)の3人の標本平均は170.667、標本分散は44.882
(167.3, 170.6, 178.7)の3人の標本平均は172.2、標本分散は22.94
(167.3, 170.6, 162.3)の3人の標本平均は166.733、標本分散は11.642
(167.3, 178.7, 162.3)の3人の標本平均は169.433、標本分散は47.102
(170.6, 178.7, 162.3)の3人の標本平均は170.533、標本分散は44.829
標本平均の期待値は169.98、分散は4.788