統計検定2級の勉強をする話⑥
前回
統計を勉強し始めてから基本的な数学知識を忘れている(そもそも身につけていない)ことに気づいて、高校の教科書を眺めている。何も思い出せん。
本日は「確率変数と確率分布」
確率変数(random variable)
変数Xの値はわからないが、その値になる確率が与えられているとき、Xを確率変数という。また、取りうる値と確率の対応を確率分布という。
離散型確率変数
サイコロの目のようにXの値が離散的値を取る時、離散型確率変数と言う。
サイコロの目のようにどの値に対しても確率が同一である時、離散一様分布という。
連続型確率分布
連続値を取る時の確率変数は上記の方法だと無限に発散してしまう。
ので、任意のΔxに対して積分して、
Xが区間[a,b]を取る確率を
\[ P(a \leq X \leq b) = \int_{a}^{b} f(x) \, dx \]
を表す。
確率関数(probability function)
確率変数 \( X \) が値 \( x \) を取る確率を示すと
\( p(x) = P(X = x) \)
となり、これを確率関数という。
ここで、
\[ 0 \leq p(x) \leq 1 \]
\[ \sum_{x} p(x) = 1 \]
となる。
累積分布関数
離散型、連続型どちらの確率変数に対しても累積分布関数が\[ P(X \leq x) \]で定義される。
連続型の場合は、
\[ F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) \, dt \]
で定義できる。
期待値
確率変数がどのような値を取ることが期待されるか(日本語合ってる?)を示す値
離散型の場合
\( E(X) = \sum_{i} x_i P(X = x_i) \)
連続型の場合
\( E(X) = \int_{-\infty}^{\infty} x f(x) \, dx \)
分散
期待値は母集団分布の平均と考えることができるので、その偏差をとって分散を定義できる。
離散型の場合
\( \text{Var}(X) = \sum_{i} (x_i - E(X))^2 P(X = x_i) \)
連続型の場合
\( \text{Var}(X) = \int_{-\infty}^{\infty} (x - E(X))^2 f(x) \, dx \)
また式変形すると以下のようにも表せる。
\[ \text{Var}(X) = E[X^2] - (E[X])^2 \]
モーメント
確率変数\( X^k \)の期待値をk次のモーメントという。
\( (X-μ)^k \)の期待とをk次の中心モーメントという。
k=1,2のモーメントは分布の中心の位置と散らばりの大きさを示す。
k=3の中心モーメントを標準偏差の3乗で割った値\[ \text{Skewness}(X) = \frac{E[(X - \mu)^3]}{σ^3} \]を歪度と言う。
歪度は分布の非対称さを表していて、対称なら0、右に長い裾を持つと正、左に長い裾を持つと負の値をもつ。
k=4の中心モーメントは分布の尖り具合を示し、尖度という。正規分布の値である3を引いて
\[ \text{Kurtosis}(X) = \frac{E[(X - \mu)^4]}{σ^4} - 3 \]
と定義する。
正規分布より裾が長い場合は正、短い場合は負の値を取る。
本日はここまで〜
次回からは具体的な確率分布が出てくるようだが、数式がたくさん並んでいて辛い。