統計の基礎知識
1 統計学で用いるデータの種類 |
数量データ |
平均値 |
カテゴリーデータ(分類データ) |
比率(割合) |
2 記述統計学 |
基本統計量(要約等計量) |
代表値 |
平均値 |
中央値(メディアン) |
散布度 |
分散 |
標準偏差 |
尖度(とがり) |
歪度(ゆがみ) |
公式 |
偏差平方和 |
S =Σ(xi−m )2
ここで、x1,x2,x3,…,xi,…はデータ、
m は平均(算術平均)。 |
分散 |
V =S/n =Σ(xi−m
)2/n
ただし、母集団ではなく一部のときは、n の代わりにn -1を使用(不偏分散) |
標準偏差 |
σ=(V )1/2=〔Σ(xi−m
)2/n〕1/2 |
変動係数 |
CV =σ/m |
歪度(わいど、Skewness) |
G =〔N /(N −1)(N −2)〕Σ〔(xi −m )/σ〕3
ここで、N はデータ数。
G が0のときは正規分布。 |
尖度(せんど、Kurtosis) |
H =〔N (N +1)/(N −1)(N −2)(N
−3)〕Σ〔(xi −m )/σ〕4−3(N
−1)2/(N −2)(N −3)
H が0のときは正規分布。 |
3 クロス集計 |
数量クロス集計 |
カテゴリーデータと数量データの関連 |
件数クロス集計 |
カテゴリーデータとカテゴリーデータの関連 |
4 個々のデータの位置を知る |
公式 |
基準値(normalize score)(standard
score) |
Z =(xi−m )/σ
ここで、xi はi 番目のデータ。 |
5 相関分析 |
公式 |
単相関係数 |
r =Sxy /(Sxx
×Syy )1/2
ここで、Sxx とSyy )はそれぞれx とy の偏差平方和、Sxy は積和。 |
|
分析者が経験的な判断から決めるが、本書の著者の定義は以下のとおり:
r が0.9以上 |
非常に強い相関 |
相関あり |
r が0.7以上0.9未満 |
やや強い相関 |
r が0.5以上0.7未満 |
やや弱い相関 |
r が0.5未満 |
非常に弱い相関 |
相関なし |
|
6 正規分布(ガウス分布) |
|
区間〔m −σ,m+σ 〕 |
確率は約0.68 |
区間〔m −2σ,m+2σ 〕 |
確率は約0.95 |
区間〔m −3σ,m+3σ 〕 |
確率は約0.997 |
|
標準正規分布 |
基準値による相対度数が正規分布であるとき |
7 母集団と標本 |
母集団と標本 |
母集団 |
標本(サンプル) |
母集団サイズ |
N |
標本サイズ |
n |
母平均 |
m |
標本平均 |
x (頭に−) |
母分散 |
V =σ2 |
標本分散 |
U =u 2 |
母標準偏差 |
σ |
標本標準偏差 |
u |
母比率 |
P |
標本比率 |
P (頭に−) |
|
|
t
分布
(スチューデントのt 分布) |
Ti =(xi (頭に−)−m )/(ui /n
1/2)
n が100以下のとき。(それ以上では標準正規分布) |
χ
2分布 |
Ti =S /σ 2
n が30以下のとき。(それ以上では正規分布) |
F
分布 |
Ti =u1 2/u2 2
ここで、u1 とu2 は、それぞれ集団1と集団2の標本分散。 |
P 値(有意確率) |
分布(標準正規分布、t 分布、χ 2分布、F
分布、など)とT から、上側確率P を決定。
上側確率P
(両側確率2P ) |
|
判定マーク |
≦0.01 |
有意水準1%で「差がある」「関連がある」 |
[**] |
≦0.05 |
有意水準5%で「差がある」「関連がある」 |
[*] |
>0.05 |
有意水準5%で「差があるとはいえない」「関連があるとはいえない」 |
[ ] |
|
8 統計的推定 |
公式(母平均の推定) |
|
サイズ |
平均 |
標準偏差 |
|
母集団 |
N |
m |
σ |
σ の分母はN |
標本 |
n |
x (頭に−) |
u |
u の分母はn−1 |
有意水準 |
信頼度(%) |
推定の係数 |
推定の係数 |
α |
100(1−α ) |
Z (α /2) |
t (n −1,α /2) |
0.01 |
100(1−0.01)=99 |
Z (0.005)=2.58 |
n の値により異なる |
0.05 |
100(1−0.05)=95 |
Z (0.025)=1.96 |
|
サイズが大きい
(無限母集団) |
サイズが小さい
(有限母集団) |
Z 推定
n ≧100 |
x (頭に−)±Z (α /2)〔u
/(n )1/2〕 |
x (頭に−)±Z (α /2)〔u
/(n )1/2〕×〔(N −n )/(N
−1)〕1/2 |
t 推定
n <100 |
x (頭に−)±t (n −1,α
/2)〔u /(n )1/2〕 |
x (頭に−)±t (n −1,α
/2)〔u /(n )1/2〕×〔(N −n
)/(N −1)〕1/2 |
・母集団が正規分布に従う場合
・標準正規分布を利用するものがZ 推定で、t 分布を利用するものがt 推定
・サイズ100,000以上の有限母集団は「サイズが大きい」とみなす
・母標準偏差σ が既知であれば、サンプルサイズにかかわらずZ 推定を適用 |
9 統計的検定
(1標本:1集団) |
公式(母平均の検定) |
|
サイズ |
平均 |
標準偏差 |
比較値 mo |
母集団 |
N |
m |
σ |
σ の分母はN |
標本 |
n |
x (頭に−) |
u |
u の分母はn−1 |
帰無仮説 |
m =mo |
|
対立仮説 |
m ≠mo |
両側検定 |
m >moまたはm <mo |
片側検定 |
統計量T |
標本サイズ |
棄却域 |
T =(x (頭に−)−mo )/(u /n 1/2) |
Z 検定
n ≧100 |
両側検定 |
|T |≧Z (α /2) |
片側検定 |
右側 |
T ≧Z (α ) |
左側 |
T ≦−Z (α ) |
t 検定
n <100 |
両側検定 |
|T |≧t (f ,α /2) |
片側検定 |
右側 |
T ≧t (f ,α ) |
左側 |
T ≦−t (f ,α ) |
|
公式(棄却域) |
|
有意水準 |
0.01 |
0.05 |
Z 検定 |
両側検定 |
Z (α /2)=Z (0.005)=2.58 |
Z (α /2)=Z (0.025)=1.96 |
検定片側 |
Z (α )=Z (0.01)=2.33 |
Z (α )=Z (0.05)=1.64 |
t 検定 |
両側検定
n =20(例) |
t (f ,α /2)=t (f ,0.005)
t (19,0.005)=2.861 |
t (f ,α /2)=t (f ,0.025)
t (19,0.025)=2.093 |
検定片側
n =20(例) |
t (f ,α )=t (f ,0.01)
t (19,0.01)=2.539 |
t (f ,α )=t (f ,0.05)
t (19,0.05)=1.729 |
・両側0.5%点、片側2.5%点、上側1%点、上側5%点と呼ぶ
・f は自由度であり、f =n −1
・有意水準0.01で有意差があれば、**を付ける
有意水準0.05で有意差があれば、*を付ける
優位水準0.05で有意差がなければ、何も付けない |
(母分散の検定) |
帰無仮説 |
母分散=σo2 |
|
対立仮説 |
母分散≠σo2 |
両側検定 |
母分散>σo2または母分散<σo2 |
片側検定 |
統計量T |
棄却域 |
T =S /σo
2
ここで、σo 2は比較値。 |
両側検定 |
T >χ 2(n −1 ,α /2)あるいは
T ≦χ 2(n −1 ,1−α /2) |
片側検定 |
右側 |
T ≧χ 2(n −1 ,α) |
左側 |
T ≦χ 2(n −1 ,1−α) |
|
(棄却域) |
|
有意水準 |
0.01 |
0.05 |
両側検定
n =40(例) |
χ 2(f ,α /2)=χ 2(39,0.005)=65.48 |
χ 2(f ,α /2)=χ 2(39,0.005)=65.48 |
検定片側
n =40(例) |
χ 2(f ,α)=χ 2(39,0.01)=62.43 |
χ 2(f ,α)=χ 2(39,0.05)=54.57 |
|
10 統計的検定
(2標本:2集団) |
公式(母平均の差の検定) |
|
サイズ |
平均 |
標準偏差 |
母集団 |
N1 N2 |
m1 m2 |
σ1 σ2 |
標本 |
n1 n2 |
x 1(頭に−) x
2(頭に−) |
u1 u2 |
帰無仮説 |
m1 =m2 |
|
対立仮説 |
m1 ≠m2 |
両側検定 |
m1 >m2 またはm1 <m2 |
片側検定 |
|
統計量 |
n1+n2 |
棄却域 |
Z 検定 |
T =(x1 (頭に−)−x2 (頭に−))/(u1 2/n1+u2 2/n2)1/2 |
≧100 |
両側 |
|T |≧Z (α /2) |
片側 |
右側 |
T ≧Z (α ) |
左側 |
T ≦−Z (α ) |
t 検定*1 |
T =(x1 (頭に−)−x2 (頭に−))/(u2/n1+u2/n2)1/2
u 2=〔(n1 −1)u1 2+(n2 −1)u2 2〕/(n1 +n2 −2) |
<100
σ1 =σ2 |
両側 |
|T |≧t (f ,α /2) |
片側 |
右側 |
T ≧t (f ,α ) |
左側 |
T ≦−t (f ,α ) |
ウェルチ検定*2 |
T =(x1 (頭に−)−x2 (頭に−))/(u1 2/n1+u2 2/n2)1/2
母分散未知 |
<100 |
両側 |
|T |≧t (f ,α /2) |
片側 |
右側 |
T ≧t (f ,α ) |
左側 |
T ≦−t (f ,α ) |
*1 ただし、f =n1 +n2 −2
*2 ただし、f =(u1 2/n1+u2 2/n2)2/〔u1 4/n1 2(n1 −1)+u2 4/n2 2(n2 −1)〕 |
|
〔母平均の差の検定(対応のある場合)〕 |
|
サイズ |
平均 |
標準偏差 |
母集団 |
N |
m |
σ |
標本 |
n |
x(頭に−) |
u |
帰無仮説 |
m=0 |
|
対立仮説 |
m≠0 |
両側検定 |
m>0またはm<0 |
片側検定 |
統計量 |
n |
棄却域 |
T =x(頭に−)/u/n1/2
ただし、f =n −1 |
任意 |
両側 |
|T |≧t (f ,α /2) |
片側 |
右側 |
T ≧t (f ,α) |
左側 |
T ≦−t (f ,α) |
|
母分散比の検定 |
帰無仮説 母分散 |
σ1 2=σ2
2 |
|
対立仮説 母分散 |
σ1 2≠σ2
2 |
両側検定 |
σ1 2>σ2
2またはσ1 2<σ2 2 |
片側検定 |
統計量 |
棄却域 |
T =u1 2/u2 2
ただし、u1 2,u2 2は標本分散。 |
両側 |
T>F (n1 −1,n2 −1,α /2)または
T<F (n1 −1,n2 −1,α /2) |
片側 |
右側 |
T>F (n1 −1,n2 −1,α) |
左側 |
T<F (n1 −1,n2 −1,α) |
|