統計検定2級の勉強をする話⑩
前回
最近ただの統計勉強ブログと化していてプログラミング全然やってない。
今日は1標本問題と2標本問題について
1標本問題
母集団が1つで1つの標本を抽出したときにその母数について推測すること。
正規分布の母平均の推定
母分散が既知の時
前回やったように、95%信頼区間を用いて母平均が推定される。
\[ \mu \pm z \left( \frac{σ}{\sqrt{n}} \right) \]
母分散が未知の時
サンプル数が少ない場合はt分布を用いて、
\[ \bar{x} \pm t_{\alpha/2, n-1} \left( \frac{s}{\sqrt{n}} \right) \]
とする。
自由度が高ければt分布は標準分布に収束するので、
サンプル数が多ければ、母分散の代わりに不偏分散の平方根を用いることができる。
母分散の区間推定
正規分布からの標本に対して、 標本平均との偏差の2乗の和を分散で割ったものは
分布に従う。
\[ \left( \frac{(n - 1) σ^2}{\chi^2_{(1 - \alpha/2, n-1)}} , \frac{(n - 1) σ^2}{\chi^2_{(\alpha/2, n-1)}} \right) \]
*標準偏差に関しては平行根を取ればおk
母比率の推定
母数N数が多い場合には、Nのうちxが生じる数は二項分布に従うと考えられる。
\[ \hat p = \frac{x}{n} \]は不偏推定量で、期待値と分散は
\[ E(\hat p) = p \]
\[ \text{Var}(\hat p) = \frac{p(1-p)}{n} \]
中心極限定理より、二項分布はNが多ければ標準正規分布に近づき、大数の法則でpを\(\hat p\)に近似して、95%信頼区間は
\[ p \pm z \sqrt{\frac{p(1-p)}{n}} \]
で表せる。
*ただし、二項分布と考えられるのは復元単純無作為抽出(重複を排除しない方法)のみで、実際の抽出に多い非復元単純無作為抽出では超幾何分布に従う。
2標本問題
母集団が2つの時の区間推定
母平均の差の区間推定
母平均の差の推定量として標本平均の差を用いることができる。
それぞれの標本平均が正規分布に従うことから、標本平均の差も正規分布\(( \mu_1 - \mu_2 \),\(\frac{σ_1^2}{n_1} + \frac{σ_2^2}{n_2}) \)に従う。
よって母分散が既知の場合は標準正規分布を用いて区間推定ができる。
母分散が未知だが等しい時は、それぞれの不偏分散から合成されたプールした分散
\[ s_p^2 = \frac{(n_1 - 1) s_1^2 + (n_2 - 1) s_2^2}{n_1 + n_2 - 2} \]
に置き換えた確率変数がt分布に従うとして区間推定できる。
対応のある2標本の区間推定
2組の標本に対応関係がある時は上述の方法は使えない。
平均の差に関する区間推定は、その差を1標本として平均と分散を用いれば良い。
母分散の比の区間推定
それぞれの母集団を標本集団に対して、
\[ \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{σ^2} \]
はχ2乗分布に従う。
独立した確率変数がχ2乗分布に従うとき、
\[ F=\frac{W1/N1}{W2/N2} \]
はF分布に従うので100(1-α/2)%点から95%信頼区間を求められる。
本日はここまで。むずい。問題が解けなくなってきた。。。