ホームに戻る
 統計学メモ

0、はじめに

統計の自分が要るところをまとめてみました。
統計は分布図を描いて分布表を見ながら面積を評価することができればそう難しく無いと思う。
以下は、できるだけ難しい言葉や数式を用いずに書いてみました。
分布表もすべてコピーして貼っておきたかったですが、
最後に正規分布表とカイ2乗分布だけを載せておきました。

1、正規分布

例えば小学6年生男子 n 人が全力でボールを投げるとする。
誰でもだいたい30m投げることができるとしてもある程度はバラつく。
29mや32mはありそうな数値である。
逆に、5mや80mはほとんどありえない。
よって、横に距離、縦に人数をとるとおよそ釣鐘状のグラフになる。
これを正規分布という。
正規分布は平均値と標準偏差がわかれば描ける。
n はサンプル数、xm は平均値とすると以下の式で求めることができる。
(なお、^2 は2乗を意味する。)

平均値(xm) = (x1 + x2 + ... + xn) / n

標準偏差(σ) = (((x1 - xm)^2 + (x2 - xm)^2 + ... + (xn - xm)^2)/n)^(1/2)

平均値は釣鐘の中心。
標準偏差は中心から釣鐘の変曲点までの距離になる。

2、正規分布の利用

正規分布を利用するにはまず基準化を行う。
手順は平均値を0が中心値になるように移動する。
次に標準偏差が1になるように幅を掛け算で調整する。
この状態で正規分布表との比較ができる。
正規分布表を見ると中心から離れた距離までの面積を求めることができる。
例えば、正規分布表で面積0.4505になるのは+1.65のとき。
(ちなみに面積0.5になるのは+∞である)
よって、標準偏差×1.65で90%信頼の誤差を求めることができます。

例えば、小学6年生男子が全力でボールを投げる距離を考える場合。
平均値が30m、標準偏差が5であった場合。
90%信頼の誤差は5×1.65=8.25mとなる。
よって、90%の信頼度で30±8.25mを投げることができると言える。
こういったバラつきに関する評価は正規分布を描かないとわからないものである。

3、本当に正規分布かを確認する

正規分布の数式はどんなデータであっても計算できる。
よって、もともと正規分布で無いものも正規分布が描けてしまう。
そのため本当に正規分布に従うか?という検証が必要になる。
検定の方法は何種類もあるが、原理と計算が簡単な Jarque-Bera検定を紹介する。
Jarque-Bera検定は正規分布が尖っているか歪んでいるかの2点に注目している。
この2つを使用しカイ二乗分布に従うように補正をかけたのが結果値となる。
尖度か歪度に異常値がでればカイ二乗分布の有効範囲から除外されやすくなる。

Jarque-Bera検定

尖度(k) = n*((x1 - xm)^4 + (x2 - xm)^4 + ... + (xn - xm)^4)/(((x1 - xm)^2 + (x2 - xm)^2 + ... + (xn - xm)^2))^2)
歪度(s) = n^(1/2)*((x1 - xm)^3 + (x2 - xm)^3 + ... + (xn - xm)^3)/(((x1 - xm)^2 + (x2 - xm)^2 + ... + (xn - xm)^2))^(3/2))
JB値 = n / 6 * (s^2 + (k - 3)^2/4)

尖度はk<3でスソが短い、k=3で正規分布、k>3でスソが広い。
歪度はs<0でスソが左に長い、s=0で正規分布、s>0でスソが右に長い。

JB値は自由度2のカイ二乗分布に従う。
よってカイ二乗分布表を見ると5%で5.99147となっているので、
JB値が6以下ならばだいたい正規分布の範囲95%内に入っているということになる。
もちろん0に近ければ近いほど正規分布に近いと言える。

4、必要な n 数の算出

例えば1000個のサンプルから n 個を取り出して1000個すべての検定を行いたい。
このときに最低必要な n 数はいくつになるだろうか?
90%の信頼度で5%の誤差しかださないようにする場合を考える。

まず正規分布表より片側面積が0.45になるのは1.65である。
また、誤差は5%なので0.05を使う。
よって、数式は以下のようになる。

n = (1.65/0.05)^2*σ^2

ここでσが必要になるのが不思議だと思うのです。
そもそも n がわからないのにσがわからないのではないか?
という疑問があると思います。
このσは十分な n 数で行われた信頼できる標準偏差という意味です。
つまり、だいたいの標準偏差の予想もつかないものの n 数を出すのは不可能ということです。
もし全く未知なサンプルに対して n 数を想定するのは無理な話である。
ただし、もし常識的にこの標準偏差は超えないだろうという数値があれば利用できるかもしれない。

5、2群の比較(その1)

正規分布に従う2群に差があるかどうか調べることを考える。
2群が正規分布に従うということは非常に大切である。
これを welchの検定と呼ぶ。

n1 = 群1のサンプル数
n2 = 群2のサンプル数
xm1 = 群1の平均値
xm2 = 群2の平均値
σ1 = 群1の標準偏差
σ2 = 群2の標準偏差

検定値(T) = (xm1 -xm2)/(((σ1^2/n1)+(σ2^2/n2))^(1/2))

検定値は正規分布に従うので正規分布表より片側5%で1.64であるから、
検定値の絶対値が1.64より大きければ90%の信頼度で差があると言える。
このように正規分布に従うものの検定をパラメトリック検定と呼ぶ。

6、2群の比較(その2)

正規分布に従わない2群に差があるかどうか調べることを考える。
2群は正規分布に従わないので平均値も標準偏差も必要無い。
この検定を wilcoxonの検定と呼ぶ。
次の2群の比較を行う。

A群 223 234 181 218 155
B群 192 174 204 240

これを数値の小さいほうから順位に置き換える。

A群 7 8 3 6 1
B群 4 2 5 9

B群の順位の和は 4+2+5+9 = 20 である。

ここでウィルコクソン検定表を見ると、
B群の n は4、A群の n は5であるから、
(4、5)での95%信頼度は左11、右29である。
よって、A群とB群に差は無いと言える。

この検定の原理は順位が2群で均等に割り振られているから差が無いとする方法である。
このように正規分布に従わないものの検定をノンパラメトリック検定と呼ぶ。

7、相関を調べる

例えば食事が増えるほど体重も増えるということを証明したい場合には相関を調べる。
相関があればグラフを書けば右上がりのグラフになるのだが数値で評価したい場合には次の式を使う。

相関係数(r) = ((x1 - xm)*(y1 - ym) + ... + (xn - xm)*(yn - ym))/((((x1 - xm)^2 + ... + (xn - xm)^2)^(1/2))*(((y1 - ym)^2 + ... + (yn - ym)^2)^(1/2)))

r の数値によって下のように評価できる。

0.0 〜 0.2 相関なし
0.2 〜 0.4 やや相関あり
0.4 〜 0.7 かなり相関がある
0.7 〜 1.0 強い相関がある

もし、r が0付近ならば食事をしても体重は増えないことになる。
相関係数は逆にマイナスになることもある。
マイナスの場合は食事をするほど体重は減るという結果になる。

8、その他の簡単な覚え書き

以下、正規分布に従う場合の検定。

 グラブス・スミルノフ棄却検定

1つだけ飛びぬけて大きいもしくは小さい異常値があった場合に除外できるか判定できる。

 二項分布

n 個のサンプルのうち E が起こる確率を p とする。このとき x 個に E が起こる確率がわかる。
二項分布値を求めるには n と x と p が必要。
例えば、100人のうち1年に風邪をひく確率が30%のとき、100人のうち10人が風邪をひく確率は?

 ポアソン分布

大量のサンプルのうち E がごくまれに起こる確率を p とすると、サンプル x 個に E が起こる確率がわかる。
n が大きく p が小さいことによってポアソン分布は x と p が必要で n は不要となる。
1年間のうち交通事故で死ぬ確率は0.01%である。このとき2人が交通事故で死ぬ確率は?

 t分布

大量のサンプルから n 個のサンプルを取り出したとき、この n 個から元の大量のサンプルの平均を推測する。
n が30を超えると t分布は正規分布に近づくので、n が30より小さい場合を考える。
全国民から10人のサンプルを取り出し男女比を調べたとき、95%信頼できる全国民の男女比の有効範囲は?

 カイ二乗分布

大量のサンプルから抽出した n 個から元のサンプとのバラつきのズレを検定することができる。
全国民から10人のサンプルを使って統計をとった。
このときカイ二乗分布の有効範囲外であればサンプルが不適切といえる。

 F分布

サンプルから抽出した2群のバラつきに差があるかをF検定で判定できる。
全国民からA県の10人とB県の10人について統計をとった。
このときF検定において有意差が出なかった場合はA県とB県では統計内容のバラつきに違いが無いことになる。

9、正規分布表

  Z      0   0.01   0.02   0.03   0.04   0.05   0.06   0.07   0.08   0.09 
0.0  .0000  .0040  .0080  .0120  .0160  .0199  .0239  .0279  .0319  .0359  
0.1  .0398  .0438  .0478  .0517  .0557  .0596  .0636  .0675  .0714  .0753  
0.2  .0793  .0832  .0871  .0910  .0948  .0987  .1026  .1064  .1103  .1141  
0.3  .1179  .1217  .1255  .1293  .1331  .1368  .1406  .1443  .1480  .1517  
0.4  .1554  .1591  .1628  .1664  .1700  .1736  .1772  .1808  .1844  .1879  
0.5  .1915  .1950  .1985  .2019  .2054  .2088  .2123  .2157  .2190  .2224  
0.6  .2257  .2291  .2324  .2357  .2389  .2422  .2454  .2486  .2517  .2549  
0.7  .2580  .2611  .2642  .2673  .2704  .2734  .2764  .2794  .2823  .2852  
0.8  .2881  .2910  .2939  .2967  .2995  .3023  .3051  .3078  .3106  .3133  
0.9  .3159  .3186  .3212  .3238  .3264  .3289  .3315  .3340  .3365  .3389  
1.0  .3413  .3438  .3461  .3485  .3508  .3531  .3554  .3577  .3599  .3621  
1.1  .3643  .3665  .3686  .3708  .3729  .3749  .3770  .3790  .3810  .3830  
1.2  .3849  .3869  .3888  .3907  .3925  .3944  .3962  .3980  .3997  .4015  
1.3  .4032  .4049  .4066  .4082  .4099  .4115  .4131  .4147  .4162  .4177  
1.4  .4192  .4207  .4222  .4236  .4251  .4265  .4279  .4292  .4306  .4319  
1.5  .4332  .4345  .4357  .4370  .4382  .4394  .4406  .4418  .4429  .4441  
1.6  .4452  .4463  .4474  .4484  .4495  .4505  .4515  .4525  .4535  .4545  
1.7  .4554  .4564  .4573  .4582  .4591  .4599  .4608  .4616  .4625  .4633  
1.8  .4641  .4649  .4656  .4664  .4671  .4678  .4686  .4693  .4699  .4706  
1.9  .4713  .4719  .4726  .4732  .4738  .4744  .4750  .4756  .4761  .4767  
2.0  .4772  .4778  .4783  .4788  .4793  .4798  .4803  .4808  .4812  .4817  
2.1  .4821  .4826  .4830  .4834  .4838  .4842  .4846  .4850  .4854  .4857  
2.2  .4861  .4864  .4868  .4871  .4875  .4878  .4881  .4884  .4887  .4890  
2.3  .4893  .4896  .4898  .4901  .4904  .4906  .4909  .4911  .4913  .4916  
2.4  .4918  .4920  .4922  .4925  .4927  .4929  .4931  .4932  .4934  .4936  
2.5  .4938  .4940  .4941  .4943  .4945  .4946  .4948  .4949  .4951  .4952  
2.6  .4953  .4955  .4956  .4957  .4959  .4960  .4961  .4962  .4963  .4964  
2.7  .4965  .4966  .4967  .4968  .4969  .4970  .4971  .4972  .4973  .4974  
2.8  .4974  .4975  .4976  .4977  .4977  .4978  .4979  .4979  .4980  .4981  
2.9  .4981  .4982  .4982  .4983  .4984  .4984  .4985  .4985  .4986  .4986  
3.0  .4987  .4987  .4987  .4988  .4988  .4989  .4989  .4989  .4990  .4990  
3.1  .4990  .4991  .4991  .4991  .4992  .4992  .4992  .4992  .4993  .4993  
3.2  .4993  .4993  .4994  .4994  .4994  .4994  .4994  .4995  .4995  .4995  
3.3  .4995  .4995  .4995  .4996  .4996  .4996  .4996  .4996  .4996  .4997  
3.4  .4997  .4997  .4997  .4997  .4997  .4997  .4997  .4997  .4997  .4998  
3.5  .4998  .4998  .4998  .4998  .4998  .4998  .4998  .4998  .4998  .4998 
3.6  .4998  .4998  .4999  .4999  .4999  .4999  .4999  .4999  .4999  .4999 
3.7  .4999  .4999  .4999  .4999  .49991 .49992 .49992 .49992 .49992 .49992 
3.8  .49993 .49993 .49993 .49994 .49994 .49994 .49994 .49995 .49995 .49995 
3.9  .49995 .49995 .49996 .49996 .49996 .49996 .49996 .49996 .49997 .49997 
4.0  .49997 .49997 .49997 .49997 .49997 .49997 .49997 .49997 .49997 .49997 
4.1  .49998 .49998 .49998 .49998 .49998 .49998 .49998 .49998 .49998 .49998 
4.2  .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 
4.3  .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 
4.4  .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 
4.5  .49997 .49997 .49997 .49997 .49997 .49997 .49997 .49997 .49997 .49997 
4.6  .49998 .49998 .49998 .49998 .49998 .49998 .49998 .49998 .49998 .49998 
4.7  .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 
4.8  .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 .49999 
4.9  .499995.499995.499995.499995.499995.499995.499995.499995.499995.499995 
5.0  .499997 

9、カイ2乗分布表

df  0.995  0.99 0.975  0.95   0.9   0.1  0.05 0.025  0.01 0.005 
1  .01579 2.706 3.841 5.024 6.635 7.879 
2  .01003.02010.05064 .1026 .2107 4.605 5.991 7.378 9.210 10.60 
3  .07172 .1148 .2158 .3518 .5844 6.251 7.815 9.348 11.34 12.84 
4  .2070  .2971 .4844 .7107 1.064 7.779 9.488 11.14 13.28 14.86 
5  .4117  .5543 .8312 1.145 1.610 9.236 11.07 12.83 15.09 16.75 
6  .6757  .8721 1.237 1.635 2.204 10.64 12.59 14.45 16.81 18.55 
7  .9893  1.239 1.690 2.167 2.833 12.02 14.07 16.01 18.48 20.28 
8  1.344  1.646 2.180 2.733 3.490 13.36 15.51 17.53 20.09 21.95 
9  1.735  2.088 2.700 3.325 4.168 14.68 16.92 19.02 21.67 23.59 
10 2.156  2.558 3.247 3.940 4.865 15.99 18.31 20.48 23.21 25.19 
11 2.603  3.053 3.816 4.575 5.578 17.28 19.68 21.92 24.72 26.76 
12 3.074  3.571 4.404 5.226 6.304 18.55 21.03 23.34 26.22 28.30 
13 3.565  4.107 5.009 5.892 7.042 19.81 22.36 24.74 27.69 29.82 
14 4.075  4.660 5.629 6.571 7.790 21.06 23.68 26.12 29.14 31.32 
15 4.601  5.229 6.262 7.261 8.547 22.31 25.00 27.49 30.58 32.80 
16 5.142  5.812 6.908 7.962 9.312 23.54 26.30 28.85 32.00 34.27 
17 5.697  6.408 7.564 8.672 10.09 24.77 27.59 30.19 33.41 35.72 
18 6.265  7.015 8.231 9.390 10.86 25.99 28.87 31.53 34.81 37.16 
19 6.844  7.633 8.907 10.12 11.65 27.20 30.14 32.85 36.19 38.58 
20 7.434  8.260 9.591 10.85 12.44 28.41 31.41 34.17 37.57 40.00 
22 8.643  9.542 10.98 12.34 14.04 30.81 33.92 36.78 40.29 42.80 
24 9.886  10.86 12.40 13.85 15.66 33.20 36.42 39.36 42.98 45.56 
26 11.16  12.20 13.84 15.38 17.29 35.56 38.89 41.92 45.64 48.29 
28 12.46  13.56 15.31 16.93 18.94 37.92 41.34 44.46 48.28 50.99 
30 13.79  14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 53.67 
40 20.71  22.16 24.43 26.51 29.05 51.81 55.76 59.34 63.69 66.77 
50 27.99  29.71 32.36 34.76 37.69 63.17 67.50 71.42 76.15 79.49 
60 35.53  37.48 40.48 43.19 46.46 74.40 79.08 83.30 88.38 91.95 
70 43.28  45.44 48.76 51.74 55.33 85.53 90.53 95.02 100.4 104.2 
80 51.17  53.54 57.15 60.39 64.28 96.58 101.9 106.6 112.3 116.3 
90 59.20  61.75 65.65 69.13 73.29 107.6 113.1 118.1 124.1 128.3 
100 67.33 70.06 74.22 77.93 82.36 118.5 124.3 129.6 135.8 140.2 
110 75.55 78.46 82.87 86.79 91.47 129.4 135.5 140.9 147.4 151.9 
120 83.85 86.92 91.57 95.70 100.6 140.2 146.6 152.2 159.0 163.6 

inserted by FC2 system