推測統計をする話
前回
統計、機械学習ときて今回は推測統計
要は「どれくらいデータが必要か」を明らかにする方法。
今回から開発環境をPycharmからgoogle colaboratoryに変更した。
理由は医局と自宅とでやるのでドライブに保存してある方が楽なのと、医療AI人材育成コースの授業がgoogle colaboratory推奨だから。まぁ別にPycharmでもやれるんだけど。
中心極限定理
母集団から標本をランダムにn回取った時、標本の平均値がばらついてしまうと信頼性は欠ける。
ここで、大数の法則
というものがあるらしい。実際に母集団適当に作ってみるとほんとにそうなった。
そしてここから導かれるのが
母集団の平均がμ、標準偏差がσ、標本サイズがnの時
標本集団の平均はμ、標準偏差σ/√nに従う
これが"中心極限定理"というらしい。(名前かっこいい。)
これを用いると、
少ないサンプルデータの平均値の平均、標準偏差で母集団の平均と標準偏差がわかる。ということみたい。
信頼度
さて、中心極限定理で求めた母集団の平均、標準偏差が本当に正しいかどうかを確かめる必要がある。
そこで使うのが「信頼度」というもの。
これは信頼区間内に実際の値が入る確率のことらしい。
具体的には統計分布の関数を信頼区間内で積分して信頼区間の面積/全面積でもとまる。
まとめ
標本集団の平均の標準偏差から中心極限定理で母集団の標準偏差が求められて、一人ひとりの標準偏差は同じと考えると母集団の標準偏差/人数で一人当たりの標準偏差がわかる。そこから信頼区間の特定ができて、信頼区間が狭い方が信頼区間中心付近の信頼度が高くなるので母平均=標本平均に近づく、と。
いや難しくて頭ついていけてない。
一通り読んでみてわかったんだけどこれは「統計」のときに必要なデータ数を知る方法なんですね。機械学習の時は関係なさそう。というか機械学習はどんなにデータが多くでも説明変数が多いと計算できないような気がする。多分。
次回からは「数理最適化」編です。まーた聞いたことない言葉、、、