def 小児科医():

かけだし小児科医が仕事の合間にプログラミングを勉強するブログです。

統計検定2級の勉強をする話(12)

前回↓

 

defpediatric.hatenablog.com

今回は線形モデル分析

今までなんとなーくわかったようなわかってないようなつもりでやっていたので、復習。

 

defpediatric.hatenablog.com

こういう時に過去の記事を見るとなんとも言えない気持ちになる。

 

線形回帰モデル

線形単回帰モデル

\( y = \alpha + \beta_1 x + \epsilon \)

ここで、\( y \)は応答変数(目的変数)、\( x \)は説明変数、\( \alpha \)は切片、\( \beta \)は回帰係数、\( \epsilon \)を誤差項(説明変数のみで説明できない誤差)という。

回帰係数の区間推定

最小二乗法によって求められる回帰係数の推定量\(\hat\beta\)の期待値と分散は

\[ E(\hat{\beta_1}) = \beta_1 \]

\[ \text{Var}(\hat{\beta_1}) = \frac{σ^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2} \]

ここで誤差項の分散\(σ\)は

\[ e_i = y_i - \hat{y}_i \]

\[ \text{SSE} = \sum_{i=1}^{n} e_i^2 \]

\[ \hat{σ}^2 = \frac{\text{SSE}}{n - 2} \]

母集団における誤差項の分散はわからないので、t分布を用いて回帰係数の信頼区間

\[ \hat{\beta_1} \pm t_{\alpha/2, n-2} \times \sqrt{\hat{σ}^2 / \sum_{i=1}^{n} (x_i - \bar{x})^2} \]

回帰係数のt検定

帰無仮説\(H_0:\beta=\beta_0\)として、自由度n-2のt値を求めて検定を行う。

回帰の現象

ある測定を2回行ったとして、2回目の測定を1回目の測定で回帰分析を行うと、2回目の測定は1回目よりもより平均(回帰係数のぶんだけ)に近づく性質がある。これは1回目と2回目の間に介入した結果とは無関係。これを誤解することを回帰の錯誤という。

 

線形重回帰モデル

説明変数が2つ以上の時の回帰モデル

重回帰の場合でもSSEを各変数ごとに偏微分して、それぞれ得られた連立方程式を解けば回帰係数を計算可能。

決定係数の欠点

決定係数は応答変数を説明変数がどれだけ説明できるかを表しているが、説明変数の数が増えるほど残差平方和は小さくなり、決定係数は大きくなる。そのため、説明変数の異なるモデル同士の精度を比べることはできない。

そこでその欠点を解消したのが自由度調整済み決定係数

\[ \text{adjusted } R^2 = 1 - \left( \frac{1 - R^2}{n - p - 1} \right) \left( \frac{n - 1}{n} \right) \]

回帰の有意性と回帰係数の検定

回帰モデルに含まれる説明変数の中に応答変数を説明できる変数があるかどうか、すなわち、

\[ H_0: \beta_1 = \beta_2 = \ldots = \beta_p = 0 \]

という帰無仮説のもとで、平方和を自由度で割った値はχ二乗分布に従うので、

\[ \frac{ \frac{1}{p} \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 }{ \frac{1}{n-p-1} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 } \]

はF分布に従う。

2つのモデルのどちらかが優れているかを検定するにはモデルが階層的になっている必要があり、その際の帰無仮説

\[ H_0: \beta_j = 0 \]

で、t統計量は

\[ t = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} \]

信頼区間

\[ \hat{\beta}_j \pm t_{\alpha/2} \times SE(\hat{\beta}_j) \]

(自由度はn-k-1)

*多重共線性

説明関数間の相関が強い場合、回帰係数の推定制度が悪くなり、解釈が困難になること。

 

相関係数区間推定と検定

母集団の相関係数の推定

標本の相関係数rの確率分布はnが極めて大きい場合以外は母集団の相関係数に影響を受けて非対称になる。

そこで、Fisherのz変換と言われる

\[ z = \frac{1}{2} \ln \left( \frac{1 + r}{1 - r} \right) \]

が対称になることを利用する。

このzは
\[ E(z) = \frac{1}{2} \ln \left( \frac{1 + \rho}{1 - \rho} \right) \]

\[ \text{Var}(z) = \frac{1}{n-3} \]

に従う。このことから

zの95%信頼区間
\[ z \pm z_{\alpha/2} \times \sqrt{\frac{1}{n-3}} \]

母集団の相関係数 \( \rho \) の95%信頼区間は双曲線正接関数である

\[ {\rho} = \frac{e^{\rho} - e^{-\rho}}{e^{\rho} + e^{-\rho}} \]

 から計算できる。

無相関性の検定

帰無仮説 \(H_0:{\rho}=0\)を考える。

これは、共分散が0 であることと同義であり、単回帰モデルを考えると、

回帰係数の区間推定を相関係数に対する検定としても利用可能である。

 

分散分析モデル

一元配置分散分析

3つ以上の母集団に対して検定を行う場合、第1種過誤の可能性が増えるためt検定は適切でない。

1つの質的変数(因子)のカテゴリを水準と呼び、各水準内の誤差変動と水準間の平均の変動を比較することを分散分析という。

\[ Y_{ij} = \mu + \alpha_i + \epsilon_{ij} \]

ここで、μは一般平均、αはi群の効果という。

水準の母平均が等しいという帰無仮説において、

\[ F = \frac{\frac{\text{SSB}}{k - 1}}{\frac{\text{SSW}}{N - k}} \]

はF分布に従う。SSBは水準間平方和、SSWは群内平方和。

これによって3つ以上の母集団の平均の検定を行うことができる。

2元配置分散分析

因子が2つになる場合、それぞれの水準の組み合わせによって異なる観測値を取るので、モデルとしては、

\[ Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha \beta)_{ij} + \epsilon_{ijk} \]

となる。

二次元配置データに対しての平方和の分解は

となり、AとBそれぞれの主効果と2つの因子の交互作用、そして残渣平方和になる。

それぞれの項に対して検定を行えば、特定の因子の主効果及び交互作用の検定ができる。

 

 

今日はここまで、分散分析が正直まるでわかってない。