数
字
・
アルファベット |
F検定 |
F-test |
帰無仮説が正しければ統計量がF分布に従うような統計学的検定の総称である。この名称は、ロナルド・A・フィッシャーに敬意を表してジョージ・W・スネデカー(英語版)によって命名された。フィッシャーは1920年代に分散比による統計を最初に開発した。
F検定には次のようなものがある:
1. 正規分布に従う2つの群の「標準偏差が等しい」という帰無仮説の検定。これはt検定の前段階の「等分散性検定」として用いられる。
2. 正規分布に従う複数の群(標準偏差は等しいと仮定する)で、「平均が等しい」(つまり同じ母集団に由来する)という帰無仮説の検定。この方法は分散分析に用いられる。
一般に統計量Fとは、2つの群の標準偏差の比であって、両群とも正規分布に従う場合にはFはF分布に従う。これを用い、Fの計算値が片側有意水準内に入るかどうかを検定するのがF検定である。
F分布関数はFの分母および分子に対応する2つの自由度をとる。
1 の場合には、両群の標準偏差(不偏分散の平方根)からFを求める。自由度は分母および分子に対し(各標本数 - 1)である。
2 の場合には、群内分散を分母、群間分散を分子としてFを求める。自由度は分母に対し(全標本数
- 群数)、分子に対し(群数 - 1)とする。 |
F分布 |
F-distribution |
統計学および確率論で用いられる連続確率分布。スネデカーのF分布(Snedecor's F distribution)、又はフィッシャー-スネデカー分布(Fisher-Snedecor distribution)とも。 |
r⇒相関係数 |
R2⇒決定係数。 |
t検定 |
Student's
t-test |
帰無仮説が正しいと仮定した場合に、統計量がt分布に従うことを利用する統計学的検定法の総称である。母集団が正規分布に従うと仮定するパラメトリック検定法であり、t分布が直接、もとの平均や標準偏差にはよらない(ただし自由度による)ことを利用している。2組の標本について平均に有意差があるかどうかの検定などに用いられる。統計的仮説検定の一つ。
スチューデントのt検定(Student's t-test)とも呼ばれるが、これは統計学者のウィリアム・ゴセットが雇用者であるギネスビール社に本名使用を許されずStudent
というペンネームで最初の論文を発表した(1908年)ためである。 |
t分布 |
Student's
t-distribution |
統計学および確率論において、t分布(スチューデントのt分布)は、 連続確率分布であり、標本数が少ない場合に正規分布をとる母集団の平均を推定する問題に使用される。2つの標本平均間の差の統計的有意や2つの母集団平均間の差の信頼区間を求めるのによく使われるt検定の基礎となる。t分布は、一般化双曲型分布の特別なケースである。 |
p値⇒有意
|
帰無仮説の下で実際にデータから計算された統計量よりも極端な統計量が観測される確率。 |
σ⇒標準偏差(σ2=分散) |
σ2は母集団の分散(σは母集団の標準偏差)、s2は標本の分散(sは標本の標準偏差)。 |
あ |
因子分析(本ページの『主成分分析と因子分析』参照) |
Factor
analysis |
多変量解析の手法の1つで、心理学におけるパーソナリティの特性論的研究など、心理尺度の研究手法として使用される。モデル式の形状などから主成分分析と混同されることもあるが、主成分分析は観測データから合成スコアを構築することが目的であるのに対し、因子分析は観測データが合成量であると仮定し、個々の構成要素を得ようとすることが目的であり、両者は因果関係を異にする。
適用の例として「器用さ」の個人差の検討が考えられる。A, B, Cの3人はそれぞれ「ジグゾーパズル」「彫刻」「時計の分解」をある速度で器用にこなすことができるとしたときにA,
B, Cの器用さをどのように評価すればよいかを考える場合、3人が3つのテストにかかった時間に対して因子分析を適用することで、3つの課題に共通する潜在的な「器用さ」の導出を試みることができる。
因子分析では、因子数を事前に与える必要があるなど、数学的見地から理論的に疑義をはさむ意見もある一方、主成分分析が測定誤差を考慮要素に含めずに合成変量としている点を批判するなど、両者に関してともすれば宗教論争的な議論が絶えない。
いずれにせよ、データ解析における基本的心構えとして、算出された数値はあくまで計算によるものであり、それらの妥当性は研究者の判断に委ねられることは当然である、と理解しておく必要がある。 |
か |
回帰分析 |
Regression
analysis |
従属変数(目的変数)と連続尺度の独立変数(説明変数)の間に式を当てはめ、従属変数が説明変数によってどれくらい説明できるのかを定量的に分析することである。
回帰分析では独立変数と従属変数の間の関係を表す式を統計的手法によって推計する。
従属変数(目的変数)とは、説明したい変数(注目している変数)を指す。独立変数(説明変数)とは、これを説明するために用いられる変数のことである。経済学の例を挙げてみると次のようになる。経済全体の消費(C)を国民所得(Y)で説明する消費関数がC=a+cYという形で表されるとする。この例では、消費が従属変数、国民所得が独立変数に対応する。以下で述べる計算方法によってa,cといった係数の大きさを推計する。
説明変数が1つならば単回帰分析、2つ以上ならば重回帰分析と呼ぶことがある。
普通用いられる方法は上式のような1次式モデルを用いる線形回帰であるが、その他のモデルを用いる非線形回帰の方法(例えばロジスティック回帰など)もある。
推計方法
回帰分析で用いられる代表的な推計方法として、最小二乗法がある。
最小二乗法の概要は次のとおりである。はじめに回帰式(目的変数を説明変数で計算する式)を設定する。 次に、回帰式の係数を求めることが目的となるが、「目的変数の測定値と(説明変数の測定値および回帰式を用いて求めた)目的変数の推定値の差の2乗平均」が最小になるように、回帰式の係数で推定値の差の2乗平均を微分し0と置いた連立方程式を解いて求める。 |
カイ二乗検定 |
Chi-squared
test |
カイ二乗検定(カイにじょうけんてい、カイじじょうけんてい)、またはχ2検定とは、帰無仮説が正しければ検定統計量がカイ二乗分布に従うような統計学的検定法の総称である。次のようなものが含まれる。
・ピアソンのカイ二乗検定:カイ二乗検定として最もよく利用されるものである)。
・一部の尤度比検定:標本サイズが大きい場合には近似的にカイ二乗検定となる場合がある。
・イェイツのカイ二乗検定(イェイツの修正)
・マンテル・ヘンツェルのカイ二乗検定
・累積カイ二乗検定
・Linear-by-linear連関カイ二乗検定
これらはいずれも
χ2=煤iobserved−expected)2/expected,
(ここで"expected" という語は期待値そのものではなく観測値から求められる期待値の推定量あるいは理論値を指すことが多い)という形の統計量「カイ二乗(χ2)」を含む。 |
カイ二乗分布 |
Chi-squared
distribution |
カイ二乗分布(カイにじょうぶんぷ、カイじじょうぶんぷ)、またはχ2分布は確率分布の一種で、推計統計学で最も広く利用されるものである。ヘルメルトにより発見され、ピアソンにより命名された。 |
確率過程 |
Stochastic
process |
確率論において、確率過程は、時間とともに変化する確率変数のことであり、株価や為替の変動、ブラウン運動などの粒子のランダムな運動を数学的に記述するモデルとして利用される。不規則過程(random process)とも言う。 |
確率分布(本ページの『確率分布』参照) |
Probability
distribution |
確率変数の確率分布とは、確率変数の各々の値に対して、その起こりやすさを記述するものである。 |
確率論 |
Probability
theory |
偶然現象に対して数学的なモデルを与え、解析する数学の一分野である。 |
仮説検定
(←帰無仮説) |
Statistical
hypothesis
testing |
仮説検定、もしくは統計学的仮説検定 (Statistical
hypothesis testing)、あるいは単に検定法とは、ある仮説が正しいといってよいかどうかを統計学的・確率論的に判断するためのアルゴリズムである。
仮説が正しいと仮定した上で、それに従う母集団から、実際に観察された標本が抽出される確率を求め、その値により判断を行う。その確率が十分に(予め決めておいた値より)小さければ、「仮説は成り立ちそうもない」と判断できる。(なお本項で述べるのは従来の頻度主義統計学の考え方であって、ベイズ主義では考え方が異なる) |
ガンベル分布 |
Gumbel
distribution |
確率論および統計学において、ガンベル分布は、連続確率分布の一種である。さまざまな分布に従う確率変数の最大値が漸近的に従う分布であり、極値分布のタイプI型に相当する。分布の名は極値統計学の先駆的な研究を行ったドイツの数学者エミール・ユリウス・ガンベルに因む。 |
幾何平均 |
Geometric
mean |
幾何平均または相乗平均は数学における平均の一種で、数値群の代表値である。多くの人が平均と聞いて思い浮かべる算術平均と似ているが、それぞれの数値を足すのではなくかけ、その積の冪根(数値がn個ならn乗根)をとることで得られる。 |
期待値 |
Expected
value |
確率論において、期待値とは、確率変数の実現値を,
確率の重みで平均した値である。
例えば、ギャンブルでは、掛け金に対して戻ってくる「見込み」の金額をあらわしたものである。ただし、期待値ぴったりに掛け金が戻ることを意味するのではなく、各試行で期待値に等しい掛け金が戻るわけではない。
類義語に平均がある。期待値と同義で使われることもあるが、標本平均を意味する場合もある。 |
共分散 |
Covariance |
2 組の対応するデータ間での、平均からの偏差の積の平均値である。2
組の確率変数
X, Y の共分散 Cov(X, Y) は、E で期待値を表すことにして、
Cov(X, Y ) = E[(X - E[X ])(Y
- E[Y ])]
で定義される。 |
共分散構造分析 |
Structural
equation
modeling |
共分散構造分析(Covariance
Structure Analysis)とは、複数の構成概念間の関係を検討することができる統計的手法の1つである。構造方程式モデリング (Structual Equation Modeling)
とも呼ばれる。内生変数を扱いながら因果関係を調べることができる、すなわち因子分析と回帰分析を同時に行うことができるのが特徴。 |
極値分布 |
Generalized
extreme value
distribution |
確率論および統計学において、極値分布とは、ある分布関数にしたがって生じた大きさ
n の標本 X1,X2, …, Xn のうち、x 以上 (あるいは以下) となるものの個数がどのように分布するかを表す、連続型の確率分布モデルである。特に最大値や最小値などが漸近的に従う分布であり、河川の氾濫、最大風速、最大降雨量、金融におけるリスク等の分布に適用される。 |
傾向推定 |
Trend
estimation |
ある過程(プロセス)を測定したものを時系列として扱い、そのデータの傾向を推定する統計的手法である。完全には解明されていない物理的系に対しては、何らかのモデルを構築して測定結果を説明しようと試みる。特に測定結果が増加傾向や減少傾向にあるかを知ることでランダムな振る舞いではないことを判断しようとする。例えば、ある地点での毎日の気温を測ることで季節による変化の傾向や長期的な気象変化の傾向を読み取る。
特に、等質性の問題は重要である(その時系列は全測定区間で等しく信頼できるか?)。 |
決定係数 |
Coefficient
of
determination |
独立変数(説明変数)が従属変数(被説明変数)のどれくらいを説明できるかを表す値である。寄与率と呼ばれることもある。標本値から求めた回帰方程式のあてはまりの良さの尺度として利用される。
定義
決定係数R 2のはっきりと合意された定義は無い。Tarald O. Kvalsethによれば、8種類の定義があり注意が必要だとしている。
しかし、以下の式を定義とするのが一般的なようである(標本値〈実測値、観測値〉をy
、回帰方程式による推定値をf としている)。
]
すなわち、残差の二乗和を標本値の平均からの差の二乗和で割ったものを1から引いた値であり、1に近い程相対的な残差が少ないことを表す。最小二乗法はこの定義を最大にするようなパラメタの選択法ということに注意されたい。
なお、一般的な線形回帰の場合、以下の各式が等価であり、それらを定義式とすることもあるようである。
・
(推定値の分散を標本値の分散で割ったもの)
・(標本値と推定値との相関係数の2乗)
線形回帰以外の場合、原点を通ることを要求した場合、最小二乗法以外で回帰した場合はこれらの式は上の定義と等価になるとは限らないため、注意が必要である。 |
誤差
|
|
測定や計算などで得られた値 M と、指定値あるいは理論的に正しい値あるいは真値
T の差 ε であり、
ε = M - T
で表される。 |
さ |
最小二乗法 |
Least
squares |
最小二乗法(さいしょうにじょうほう、さいしょうじじょうほう;最小自乗法とも書く)は、測定で得られた数値の組を、適当なモデルから想定される1次関数、対数曲線など特定の関数を用いて近似するときに、想定する関数が測定値に対してよい近似となるように、残差の二乗和を最小とするような係数を決定する方法、あるいはそのような方法によって近似を行うことである。
歴史
1805年にアドリアン=マリ・ルジャンドルが出版したのが初出である。しかし、1809年にカール・フリードリヒ・ガウスが出版した際に1795年から最小二乗法を保持していたと主張したことで、最小二乗法の発明者が誰であるかについては長い間論争になっている。
前提条件
最小二乗法では測定データy はモデル関数f (x )と誤差εの和で
y= f (x ) +ε
と表せるとする。物理現象の測定データには、誤差が含まれ、それは系統誤差と偶然誤差を含んでいる。この内、偶然誤差は、測定における信号経路の微視的現象に由来するならば、正規分布であると期待されることが多い。また、社会調査などの誤差理由の特定が困難な場合でも誤差が正規分布になると期待する考え方もある。
誤差が正規分布に従わない場合、最小二乗法によって得られたモデル関数は尤もらしくないことに注意する必要がある。偶然誤差が正規分布していない場合、系統誤差が無視できない位大きくそれをモデル関数に含めていない場合、測定データに正規分布から大きく外れた外れ値を含む場合などが該当する。
上記を含め、最小二乗法の理論的基盤には次のような前提が設けられている。
・測定値の誤差には偏りがない。すなわち誤差の平均値は
0 である。
・測定値の誤差の分散は既知である。ただし測定データごとに異なる値でも良い。
・各測定は互いに独立であり、誤差の共分散は
0 である。
・誤差は正規分布する。
・m 個のパラメータ(フィッティングパラメータ)を含むモデル関数f が知られていて、測定量の真の値を近似誤差なく再現することのできるパラメータが存在する。 |
最頻値(⇔中央値、平均) |
Mode |
統計学における最頻値またはモードとは、データ群や確率分布で最も頻繁に出現する値である。
平均や中央値と同様、最頻値は確率変数または何らかの単一の量についての母集団に関しての重要な情報を得る手段の一つである。最頻値は一般に平均や中央値とは異なり、特に歪度の大きい分布では大きく異なることがある。
最も頻繁に出現する値は1つとは限らないため、最頻値は一意に定まらないことがある。特に一様分布ではどの値も同じ確率で出現するため、最頻値が定まらない。 |
最尤法 |
Maximum
likelihood |
最尤法(さいゆうほう、Maximum
likelihood estimation略してMLEともいう)は、統計学において、与えられたデータからそれが従う確率分布の母数について推測するためによく用いられる方法で、尤度の概念を利用するものである。この方法はロナルド・フィッシャーが1912年から1922年にかけて開発したものである。
生物学に於いて、塩基やアミノ酸配列のような分子データの置換に関する確率モデルに基づいて系統樹を作成する際に、一番尤もらしくデータを説明する樹形を選択するための有力な方法としても利用される。 |
残差平方和 |
Residual
sum
of
squares |
統計学において、残差平方和(ざんさへいほうわ、英: residual sum of squares, RSS)は、残差の平方(二乗)の和である。残差二乗和、SSR(sum of squared residuals)やSSE(sum of squared errors of prediction)とも呼ばれる。残差平方和はデータと推定モデルとの間の不一致を評価する尺度である。小さいRSSの値はデータに対してモデルがぴったりとフィットしていること示している。
一般的に、総平方和 = 説明された平方和 + 残差平方和である。 |
算術平均 |
Arithmetic
mean |
算術平均または相加平均は、統計量のひとつ。数学および統計学における標本空間の代表値のひとつであり、一群の数をひとつの数値で表すために用いる。文脈上明らかな場合は単に平均とも呼ぶ。算術平均または相加平均という呼称は主に数学や統計学で使われ、幾何平均や調和平均などの他の平均と区別するためのものである。
数学や統計学だけでなく、経済学、社会学、歴史学などあらゆる学問分野で算術平均が使われている。例えば、国内総生産を人口で割った算術平均からその国民の平均収入を推定することができる。
算術平均は代表値としてよく使われるが、ロバスト統計量ではなく、外れ値に大きく影響される。特に歪度の大きい分布では算術平均は通常の「真ん中」の観念と一致しないことがあり、中央値のようなロバスト統計量の方が代表値としてふさわしい場合がある。 |
散布図 |
Scatter
plot |
縦軸、横軸に2項目の量や大きさ等を対応させ、データを点でプロットしたものである。各データは2項目の量や大きさ等を持ったものである。
散布図には、2項目の分布、相関関係を把握できる特長がある。データ群が右上がりに分布する傾向であれば正の相関があり、右下がりに分布する傾向であれば負の相関がある。相関係数が0であれば無相関となる。 |
シックス・シグマ(本ページの『シックスシグマ』参照) |
Six Sigma |
品質管理手法、または経営手法の一つである。その適用範囲は、主に製造業が中心であるが、製造業の製造部門に留まらず、営業部門、企画部門などの間接部門への適用、更にはサービス業などの非製造業への適用も多い。統計分析手法、品質管理手法を体系的に用いて製品製造工程などの各種プロセスの分析を行い、原因の特定やそれへの対策を行って、不良率の引き下げや顧客満足度の向上などをしていく。 |
実験計画法 |
Design
of
experiments |
実験計画法(Experimental
design、Design of experiments)は、効率のよい実験方法をデザインし、結果を適切に解析することを目的とする統計学の応用分野である。R.A.フィッシャーが1920年代に農学試験から着想して発展させた。特に1950年G.M.コックスとW.G.コクランが標準的教科書を出版し、以後医学、工学、実験心理学や社会調査へ広く応用された。またこれを基にして田口玄一による品質工学という新たな分野も生まれた。
他にも、マーケティングや新しい商品・サービスのコンセプトや仕様を考える場合などに用いられる、コンジョイント分析も有用である。 |
ジップの法則(⇔パレート分布) |
Zipf's law |
ジップの法則あるいはジフの法則とは、出現頻度がk
番目に大きい要素が全体に占める割合が1/k に比例するという経験則である。Zipfは「ジフ」と読まれることもある。また、この法則が機能する世界を「ジフ構造」と記する論者もいる。
包括的な理論的説明はまだ成功していないものの、様々な現象に適用できることが知られている。この法則に従う確率分布(離散分布)をジップ分布という。ジップ分布はゼータ分布(Zeta
distribution)の特殊な形である。 |
重回帰分析 |
|
多変量解析の一つ。回帰分析の独立変数が複数になったもの。適切な変数を複数選択することで、計算しやすく誤差の少ない予測式を作ることができる。
一般的によく使われている最小二乗法、線形モデルの重回帰は、数学的には線形分析の一種であり、分散分析などと数学的に類似している。 |
主成分分析(本ページの『主成分分析と因子分析』参照) |
Principal
component
analysis
(PCA) |
直交回転を用いて変数間に相関がある元の観測値を、相関の無い主成分とよばれる値に変換するための数学的な手続きのことである。主成分分析は、1901年にカール・ピアソンによって開発された手法である。KL展開(Karhunen-Loeve expansion)とも呼ばれる。主成分は、分散共分散行列(あるいは相関係数行列)に対する固有値分解あるいは、分散共分散行列(相関係数行列)に対応した偏差行列(相関係数行列の場合には標準化された行列)の特異値分解によって得ることができる。主成分分析の結果は、元の観測値(対象)に対応した変換後の値である主成分得点と、各々の主成分得点に対する変数の重みに相当する主成分負荷量として得られ、一般的にはこの二つの状況をそれぞれに可視化した主成分プロット、あるいは二つの図を重ねあわせたバイプロットを通して結果を解釈する。主成分分析を実行するためのソフトウェアや関数によって、観測値の基準化の方法や数値計算のアルゴリズムに微細な差異が多く存在し、必ずしも全く同じ値が出るとは限らない(例えば、R における prcomp関数とFactoMineRのPCA関数の結果は異なる)。 |
推計統計学 |
Statistical
inference |
推計統計学(inferential
statistics)とは、無作為抽出された部分集団(抽出集団、標本集団)から抽出元全体(母集団)の特徴、性質を推定する統計学の分野を言う。推測統計学または推計学とも呼ばれる |
推定量 |
Estimator |
統計学における推定量とは、現実に測定された標本データをもとに、確率分布の母数(パラメータ、現実には測定できない)として推定した数量(Estimate)、もしくはそれをデータの関数として表す推定関数(Estimator)のことをいう。各母数に対していろいろな種類の推定量がある。これらはそれぞれ異なる基準に従って得られるものであり、必ずしもどれが特に優れているということはできない。
母数の推定には、1つの数値として与える「点推定」と、確率的に母数を含む区間を与える「区間推定」の2種類があるが、点推定量のことを特に推定量と呼ぶことが多い。
区間推定量には通常用いられる信頼区間(その区間が母数を含んでいる確率に応じて表示)や、ベイズ統計学における信用区間(母数がその区間に入る確率に応じて表示)がある。 |
数量化理論
|
|
数量化理論(Hayashi's quantification
methods)は、統計数理研究所元所長の林知己夫によって1940年代後半から50年代にかけて開発された日本独自の多次元データ分析法である。
数量化理論にはI類、II類、III類、IV類、V類、VI類までの6つの方法があるが、現在、I類からIV類までがよく知られている。この何類という名称は、1964年に社会心理学者の飽戸弘(東洋英和女学院大学学長、東京大学名誉教授)によって命名されたもので、以後その名称が定着した。
日本国内で開発され、普及したが、海外においても本質的に同種の手法が提唱されていたものも少なくなく、中には本質的に同一でありながら異なる名称であるがゆえに当初着目されず、今日になってその成果が再評価される例などもある。
程度,状態,有無,ハイ/イイエなど数値データ(量的データ)ではないデータ(質的データ)を分析するために、それらに強制的に数値を割り付けて既存の多変量解析手法を用いたり、
質的データ間の類似度を定義し、それに基づいた相互関係の解析を行う手法群である。
ダミー変数の導入による質的データの数値化により、
回帰分析を行うのが数量化I類、
判別分析を行うのが数量化II類と理解できる。
数量化III類は主成分分析あるいは因子分析に対応し、各国で独立に同じ解を与える手法が発展してきており、
パリ第6大学のジャン=ポール・ベンゼクリ
J.-P.Benzecri(後のeの頭に´) により1970年代初頭に開発されたコレスポンデンス分析(対応分析)、西里静彦による双対尺度法(Dual Scaling)、Albert Gifiによる等質性分析(homogeneity analysis)などと本質的に同じものである。
また、数量化IV類は多次元尺度構成法(MDS)に包含される。 |
正規分布(本ページの『正規分布』参照) |
Normal
distribution |
確率論や統計学で用いられる正規分布またはガウス分布(Gaussian distribution)とは、平均値の付近に集積するようなデータの分布を表した連続的な変数に関する確率分布である。中心極限定理により、独立な多数の因子の和として表される確率変数は正規分布に従う。このことにより正規分布は統計学や自然科学、社会科学の様々な場面で複雑な現象を簡単に表すモデルとして用いられている。たとえば実験における測定の誤差は正規分布に従って分布すると仮定され、不確かさの評価が計算されている。
また、正規分布の密度関数のフーリエ変換は再び正規分布の密度関数になることから、フーリエ解析および派生した様々な数学・物理の理論の体系において、正規分布は基本的な役割を果たしている。
確率変数 x が多変数正規分布に従う場合、x 〜 N (μ,Σ)などと表記される。 |
前後即因果の誤謬 |
Post
hoc
ergo
propter hoc |
前後即因果の誤謬(羅:
post hoc ergo propter hoc)とは、ある事象が別の事象の後に起きたことを捉えて、前の事象が原因となって後の事象が起きたと判断する誤謬(因果の誤謬)である。英語では、"post hoc"、"false
cause"、"conditional correlation"、"correlation
not causation" などともいう。前後関係と因果関係の混同。相関関係の順序があまり重視されない「虚偽の原因の誤謬」とは微妙に異なる。
前後即因果の誤謬は、時系列に因果関係があると見なす点で誤りとなる傾向がある。誤謬は、因果関係を否定するような他の要因を無視し、事象の順序だけに基づいて結論を導くことで生じる。身近なところでは、迷信や呪術的思考の多くはこの誤謬に分類される。 |
尖度 |
Kurtosis |
尖度(せんど)は、確率変数の確率密度関数や頻度分布の鋭さを表す数字である。正規分布と比べて、尖度が大きければ鋭いピークと長く太い裾を持った分布を持ち,尖度が小さければより丸みがかったピークと短く細い尾を持った分布であるという事が判断できる。 |
相関関係と因果関係 |
Correlation
does not
imply
causation |
相関関係があるだけでは因果関係があるとは断定できず、因果関係の前提に過ぎない。「相関関係は因果関係を含意しない (Correlation does not imply causation)」は、科学や統計学で使われる語句で、2つの変数の相関が自動的に一方がもう一方の原因を意味するというわけではないことを強調したものである(もちろん、そのような関係がある場合を完全に否定するものではない)。全く逆の言葉である「相関関係は因果関係を証明する
(correlation proves causation)」は誤謬であり、同時に発生した2つの事象に因果関係を主張するものである。このような誤謬は虚偽の原因の誤謬(false cause)と呼ばれる(ラテン語では
"cum hoc ergo propter hoc"、直訳すると「それとともに、そしてそれ故に」)。前後即因果の誤謬は、2つの事象に順序関係があることが前提であり、「虚偽の原因の誤謬」の一種である。 |
相関係数 |
Pearson
product-moment
correlation coefficient |
相関係数(correlation coefficient)とは、2 つの確率変数の間の相関(類似性の度合い)を示す統計学的指標である。原則、単位は無く、−1
から 1 の間の実数値をとり、1 に近いときは2 つの確率変数には正の相関があるといい、−1
に近ければ負の相関があるという。0 に近いときはもとの確率変数の相関は弱い。因みに
1 もしくは −1 となる場合は 2 つの確率変数は線形従属の関係にある。
たとえば、先進諸国の失業率と実質経済成長率は強い負の相関関係にあり、相関係数を求めれば比較的に -1 に近い数字になる。
普通単に相関係数といえば、ピアソンの積率相関係数(Pearson product-moment
correlation coefficient)をさす。これの検定には偏差の正規分布を仮定する(パラメトリック)方法であるが、他にこのような仮定を置かないノンパラメトリックな方法として、スピアマンの順位相関係数、ケンドールの順位相関係数なども一般に用いられる。
相関係数は、あくまでも確率変数の線形関係を計測しているに過ぎない。また、確率変数間の因果関係を説明するものでもない。相関係数は順序尺度であり間隔尺度ではないので、例えば「相関係数が0.2と0.4であることから、後者は前者より2倍の相関がある」などと言うことはできない。
しばしば、相関があるという表現が、あたかも因果関係を示しているかのように誤解あるいは誤用される。
2つの変数(A,B)間に相関が見られる場合、偶然による相関を除けば、次の3つの可能性が想定される(相関と因果の違いに関する誤解・誤用において目立つのは、3番目の場合である)。
1. A が B を発生させる
2. B が A を発生させる
3. 第3の変数C が A と B を発生させる (この場合、AとBの間に因果関係はなく擬似相関と呼ばれる)
相関分析とは 2 変数の間に線形関係があるかどうか、およびその強さについての分析であり、2つの変数の間に質的な区別を仮定しない。それに対し回帰分析とは、変数の間にどのような関係があるか(具体的な関数の形)についての分析であり、また説明変数によって目的変数を予測するのを目的としている。
相関係数と相関の強さの関係は次のとおり。
相関係数 |
相関の強さ |
0.7> |
強い |
0.4-0.7 |
中間の強さ |
0.2-0.4 |
弱い |
0.2< |
ない |
定義
2 組の数値からなるデータ列があたえられたとき、相関係数は以下のように求められる。
ただしはそれぞれデータ x
= {x i }, y
= {y i
} の相加平均である。
これは、各データの平均からのずれを表すベクトル
のなす角の余弦である。
また、この式は共分散をそれぞれの標準偏差で割ったものに等しい |
た |
第一種過誤と第二種過誤 |
Type
I
and
type I
errors |
第一種過誤(Type I error)または偽陽性(False positive)と第二種過誤(Type II error)または偽陰性(False negative)は、統計上の過誤を表す用語である。第一種過誤をα過誤(α
error)、第二種過誤をベータ過誤(β
error)とも呼ぶ。なお「過誤」とは、誤差によって二項分類などの分類を間違うことを意味する。 |
大数の法則 |
Law
of
large
numbers |
大数の法則(たいすうのほうそく)は、確率論・統計学における極限定理のひとつで、「経験的確率と理論的確率が一致する」
という、素朴な意味での確率を意味付け、定義付ける法則である。
厳密には、ヤコブ・ベルヌーイによる大数の弱法則 (WLLN: Weak Law of Large Numbers)
と、エミール・ボレルやアンドレイ・コルモゴロフによる大数の強法則
(SLLN: Strong Law of Large Numbers) とがある。単に「大数の法則」と言った場合、どちらを指しているのかは文脈により判断する必要がある。 |
多変量解析(本ページの『多変量解析』参照) |
Multivariate
statistics |
複数の結果変数からなる多変量データを統計的に扱う手法。主成分分析、因子分析、クラスター分析などがある。一般に、多変量解析を行うためには計算負荷が高く手計算ではきわめて困難だが、コンピュータの発展により、容易に実行できるようになった。
近年では共分散構造分析(構造方程式モデリングとも言う)が普及してきている。一方、探索的多変量解析で総称される各種の手法がデータマイニングなどでよく使われるようになっている。 |
中心極限定理 |
Central
limit
theorem |
確率論・統計学における極限定理の一つで、次のように表現される。
大数の法則によると、ある母集団から無作為抽出された標本平均はサンプルのサイズを大きくすると真の平均に近づく。これに対し中心極限定理は標本平均と真の平均との誤差を論ずるものである。多くの場合、母集団の分布がどんな分布であっても、その誤差はサンプルのサイズを大きくしたとき近似的に正規分布に従う。
なお、標本の分布に分散が存在しないときには、極限が正規分布と異なる場合もある。
統計学における基本定理であり、例えば世論調査における必要サンプルのサイズの算出等に用いられる。 |
中央値(⇔平均、最頻値) |
Median |
代表値の一つで、有限個のデータを小さい順に並べたとき中央に位置する値。たとえば5人の人がいるとき、その5人の年齢の中央値は3番目に年寄りな人の年齢である。
ただし、データが偶数個の場合は、中央に近い2つの値の算術平均をとる。中央値の事を、メディアン、メジアン、中間値とも呼ぶ。ただし、「中間値の定理」の中間値はこの意味ではない。 |
統計
|
現象を調査することによって数量で把握すること、または、調査によって得られた数量データのことである。 |
統計学(本ページの『統計学』参照) |
Statistics |
統計学(本来の意味は: "社会の状態の科学”)とは、統計に関する研究を行う学問である。 |
統計量 |
Statistic |
統計量(とうけいりょう)とは、一組のデータに統計学的なアルゴリズムを適用して得られる数値である。例えば簡単な統計量の一例として算術平均を計算する際には、全てのデータ数値を合計しデータ数値の数で割るというアルゴリズムを用いる。
統計学的には、対象とするデータは母集団から抽出される標本であり、標本から直接算出される統計量は観測(観察)できるランダム変数の一種であり、標本の性質を表現する数値である。普通は母集団を母数(観測できない)によって特徴づけられる確率分布として仮定し、そこからあるサイズの標本をランダムに抽出するものとする。母数の値、例えば全国の25歳の男性の身長の平均は観測できないが、それに対応する統計量、例えば100人の身長の平均は観測できる。また母数と対応する統計量(例の場合には母集団平均身長と100人の平均身長)との差(推定量の偏り)もランダム変数であるが、これは観測できるものではないから、統計量ではない。
統計量には次のような種類がある:
・要約統計量(記述統計量): 標本の性質を要約するための統計量。
・検定統計量:
統計学的検定に利用するために標本から算出する統計量。
・順序統計量:
標本を値の大小で並べたときの順序。
母数を統計学的に推定するための統計量を特に推定量(正しくは推定関数)という。 |
度数分布 |
Frequency
distribution |
統計において標本として得られたある変量の値のリストである。一般に量の大小の順で並べ、各数値が現われた個数を表示する表(度数分布表)で示される。 |
な |
二項分布 |
Binomial
distribution |
数学において、二項分布は、結果が成功か失敗のいずれかである
n 回の独立な試行を行ったときの成功数で表される離散確率分布である。各試行における成功確率
p は一定であり、このような試行を、ベルヌーイ試行と呼ぶ。二項分布に基づく統計的有意性の検定は、二項検定と呼ばれている。 |
二乗平均平方根 |
Root
mean
square |
二乗平均平方根(にじょうへいきんへいほうこん)は統計値や確率変数の散らばり具合を表す数値である。RMS
や平均二乗偏差とも呼ばれる。もととなる値は正負の両方を取ってよく、変化する値の強度を統計的に表す目的で物理学や電気工学でよく用いられる。
名前が表すとおり、もとの値を2乗した上で相加平均し平方根をとったものである。一般化平均において指数パラメータを2としたものであるとも言える。
標準偏差と同じものであると誤解される事が多い。 |
ノンパラメトリック手法 |
Non-parametric
statistics |
統計学において、ノンパラメトリックな手法はパラメータ(母数:
母集団を規定する量)について一切の前提を設けないものをいう。このため、分布に関わらない手法 (distribution-free
method) と呼ばれることもある。 |
は |
箱ひげ図 |
Box plot |
箱ひげ図(はこひげず、箱髭図)とは、ばらつきのあるデータをわかりやすく表現するための統計学的グラフである。様々な分野で利用されるが、特に品質管理で盛んに用いられる。細長い箱と、その両側に出たひげで表現されることからこの名がある。
一般的には(ジョン・テューキーの方式)、重要な5種の要約統計量である、最小値、第1四分位点、中央値、第3四分位点と最大値を表現する。母集団は実際には様々なタイプの確率分布に従うわけだが、箱ひげ図はそのような仮定に関係なく、データの分布を表現することができる。箱の各部分の間隔から分散や歪度の程度、また外れ値を知ることもできる。 |
パレート図 |
Pareto
chart |
値が降順にプロットされた棒グラフとその累積構成比を表す折れ線グラフを組み合わせた複合グラフである。ヴィルフレド・パレートに因んで名付けられた。ジョセフ・M・ジュランと石川馨(武蔵工業大学(現東京都市大学)元学長)によって品質保証の分野で広められた。
パレート図はQCの7つの基本的な道具の一つである。7つの道具には、ヒストグラム、パレート図、チェック・シート、管理図、特性要因図、グラフ、散布図を含む。 |
パレートの法則 |
Pareto
principle |
経済において、全体の数値の大部分は、全体を構成するうちの一部の要素が生み出しているという説。
80:20の法則、ばらつきの法則などと呼ばれることもあるが、本来は別のものである。
イタリアの経済学者ヴィルフレド・パレート(Vilfredo Federico Damaso Pareto)が発見した冪乗則である。経済以外にも自然現象や社会現象等様々な事例に当て嵌められることが多い。
ただし現代で言われるパレートの法則の多くは、法則と言うよりもいわゆる経験則のたぐいである。自然現象や社会現象は決して平均的ではなく、ばらつきや偏りが存在し、それを集約すると一部が全体に大きな影響を持っていることが多い、というごく当たり前の現象をパレートの法則の名を借りて補強している場合が少なくない。
また主要な一部(80:20の法則で言う20%の部分)だけが重要で、残りは重要ではないという説明がまれに見られるが、それも本来のパレートの論旨とは無関係である。 |
パレート分布(⇔ジップ分布) |
Pareto
distribution |
イタリアの経済学者ヴィルフレド・パレート (Vilfredo Pareto) が所得の分布をモデリングする分布として提唱した連続型の確率分布である。離散型はゼータ分布(ジップ分布)である。 |
判別分析 |
Discriminant
function
analysis |
事前に与えられているデータが異なるグループに分かれることが明らかな場合、新しいデータが得られた際に、どちらのグループに入るのかを判別するための基準(判別関数)を得るための手法。
判別関数には超平面・直線による線形判別関数(linear discriminant function)と、非線形の場合には超曲面・曲線によるマハラノビス汎距離(Mahalanobis' generalized distance)による非線形判別関数とがある。
3つ以上のグループの判別も可能である。これは重判別分析(multiple discriminant
analysis)や正準判別分析と呼ばれる。
判別式の妥当性は、誤判別率などで評価できる。適した変数選択と判別方法にもとづいて分析することが必要であり、判別式(のみならず変数選択)の妥当性を検証する手法として、元のデータから1つだけ外して判別(モデル)式を得、外したデータを新たなデータとして適用した際に妥当な結果が得られるかを検証する、1つとって置き法(leave-1-out)などが一般に用いられる。
入試を具体例に取ると、個々の受験生は、各群に属する個々の入試得点により、合格・不合格という2群に分けられる。学校側で明確な基準を設ける場合、たとえば英語で100点満点中70点を合否ラインにした場合、生徒の合否は得点が70点を境に分かれることとなるが、合否基準が非公開な場合や、その年度によって、合格者の平均点も変動することは周知である。
このような教師データが存在する場合(予備校などでは自己採点結果などから、相当に精度の高い標本を有しており、これを教師データとして扱うことは相応に妥当と考えられる)、判別分析により、過去の受験生の点数実績と合格実績から、合否の基準を計算によって求めることができる。 |
ヒストグラム |
Histogram |
縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学や数学、画像処理等で用いられる。柱図表、度数分布図、柱状グラフともいう。
また、工業分野では、パレート図、チェックシート、管理図、特性要因図、層別法、散布図と並んで、品質管理のためのQC七つ道具として知られている。 |
ピボットテーブル |
Pivot
table |
表計算ソフトまたはビジネスインテリジェンスソフトウェアにて利用されるデータ可視化要約機能である。
対象集計データは( "ピボットテーブル"と呼ばれる)第2のテーブルに表示され、自動的に表内格納データの並替、合計値、平均値、総数、標準偏差が出力できるほか、クロス集計が利用できる。
任意に表内の表示項目をドラッグアンドドロップを用いて変更できる。
「ピボットテーブル」は複数の開発会社が使用する一般的な名称であるが、米国ではマイクロソフト社が商標登録している。
OLAPの簡易機能と位置づけられることも多い。Excelの場合OLAPサーバーからスプレッドシートにデータを直接照会する機能が含まれている。 |
標準誤差 |
Standard
error |
母集団からある数の標本を選ぶとき、選ぶ組み合わせに依って統計量がどの程度ばらつくかを、全ての組み合わせについての標準偏差で表したものをいう。Standard
errorを略してSEともいう。
統計量を指定せずに単に「標準誤差」と言った場合、標本平均の標準誤差(standard error of the mean、SEM)のことを普通は指す。
定義
標準偏差σ、要素数Nの母集団からn個の標本を抽出するとき、標準誤差は次の式により推定される:
標準偏差σを標本データから計算した標準偏差sで推定する場合は
となる。
Nが十分大きい場合には
または
としてよい。
この式で重要なのは、標準誤差は抽出する標本数の平方根に反比例するという点である。つまり、例えば標本数を4倍にすると標準誤差を半分にできる。統計調査を計画する際に、費用や手間をある範囲内に収めた上で誤差を最小にしたい場合が多い。これらの条件の関係を判断するのに上の関係式が重要となる。 |
標準偏差 |
Standard
deviation |
分散の正の平方根である。統計値や確率変数の散らばり具合(ばらつき)を表す数値のひとつであり、σ や s
で表す。例えば、ある試験でクラス全員が同じ点数であった場合(すなわち全員が平均値であった場合)、データにはばらつきがないので、標準偏差と分散は0になる。
二乗平均平方根
(RMS) と混同されることもある。両者の差異については、二乗平均平方根を参照。
母集団の標準偏差
N 個のデータ x1, x2,
..., xN
からなる母集団を考える。その母集団の相加平均(母平均)は、次のとおりに定義される:
このとき、母平均 m を使って次式で得られる量を分散(または母分散)と定義する。
この分散の正の平方根σを、母集団の標準偏差と定義する。分散はデータの散らばり具合を表す量であるとはいうものの、元のデータを2乗しているので、元のデータや平均値と直接比較することができない。そこで平方根をとって標準偏差にすると、平均値と同じ単位になるので比較ができるようになる。 |
標本 |
Sample |
標本(ひょうほん、sample)とは、母集団の部分集合のこと。この母集団から部分集合を対応させる規則(可測関数)を標本抽出と呼ぶ。
母集団を完全に調査するのは不可能な場合、標本から母集団の特性を推定する必要がある。この標本抽出には作為抽出法と無作為抽出法の2つの抽出方法があり、統計学では無作為抽出法だけを議論する。この抽出法では、母集団のどの要素も等しい確率で標本に選ばれることが必要である。
また統計学的推定(標本から母集団の性質を推定する)を行うには、各標本に対し、それが選抜される確率を知る必要がある。このために様々な標本抽出法が開発されており、例えば異なる標本が選抜される確率がすべて同じならば、その抽出法は単純ランダム(無作為)抽出という。
母集団を表現する数値を母数というのに対し、標本を表現する数値を統計量という。統計量は標本から算出される数値である。また統計量で特に母数を推定するために用いられるものを推定量という。 |
フィッシャー、ロナルド(1890〜1962) |
Ronald
Fisher |
サー・ロナルド・エイルマー・フィッシャー Sir Ronald Aylmer Fisher(1890年2月17日 -- 1962年7月29日)はイギリスの統計学者、進化生物学者、遺伝学者で優生学者である。現代の推計統計学の確立者であるとともに、集団遺伝学の創始者の1人であり、またネオダーウィニズムを代表する遺伝学者・進化生物学者でもあった。 |
フィッシャーの正確確率検定 |
Fisher's
exact
test |
フィッシャーの正確確率検定(フィッシャーの直接確率検定ともいう)は、標本数が少ない場合に、2つのカテゴリーに分類されたデータの分析に用いられる統計学的検定法である。考案者ロナルド・フィッシャーの名による。
2 x 2分割表(2つの集団が2カテゴリーに分類されたデータを扱う場合、自由度は1)の2変数の間に統計学的に有意な関連があるかどうかを検討するのに用いられる。1 x 2分割表の場合もある。同じ状況で標本数が大きい場合には統計量の標本分布が近似的にカイ二乗分布に等しくなるのでカイ二乗検定が用いられるが、標本数が小さい(分割表のセルの期待値に10未満のものがある)場合や、表中の数値の偏りが大きい場合にはこの近似は不正確である。この場合には正確確率検定が文字通り正確である。標本数が大きい場合や、数値の偏りが小さい場合(差がなさそうに見える場合)には計算が難しいが、このようなときはカイ二乗検定が利用可能である。 |
分位数 |
Quantile |
分位数、分位点、分位値、クォンタイル
(quantile) は、統計の代表値の1種である。
実数
q , 0 ≦ q ≦ 1 に対し、q 分位数
(q-quantile) は、分布を q : 1 - q
, に分割する値である。
ある種の正の整数
m に対し、分布を m 等分する m - 1 個の値、つまり、i
= 1, ..., m - 1 に対する i / m 分位数を、m
分位数(ただし m は漢数字)という。i = 1, ..., m - 1 番目の m 分位数を第
i m 分位数といい、また、m 等分された分布の k = 1, ...,
m 番目の部分を、第 k m 分位、または単に第 k 分位という。 |
分散 |
Variance |
確率論において、確率変数の2次の中心化モーメントの事で、確率変数の分布が期待値からどれだけ散らばっているかを示す値。統計学においては、確率変数の分散だけでなく、標本が標本平均からどれだけ散らばっているかを示す指標として標本分散が用いられる。 |
分散分析 |
Analysis
of variance
(ANOVA) |
観測データにおける変動を誤差変動と各要因およびそれらの交互作用による変動に分解することによって、要因および交互作用の効果を判定する、統計的仮説検定の一手法である。
統計学者かつ遺伝学者であるロナルド・フィッシャーによって1920年代から1930年代にかけて基本手法が確立された。そのため「フィッシャーの分散分析」「フィッシャーのANOVA法」とも呼ばれる。
基本的な手法として、まず、データの分散成分の平方和を分解し、誤差による変動から要因効果による変動を分離する。次に、平方和を自由度で割ることで平均平方を算出する。そして、要因効果(または、交互作用)によって説明される平均平方を分子、誤差によって説明される平均平方を分母とすることでF値を計算する(F検定)。 各効果の有意性については有意水準を設けて判定する。
交互作用の性質を詳しく調べるには、単純主効果の検定や交互作用対比を行うとよい。 また、3つ以上の水準を持つ要因の効果が有意であったとき、具体的にどの群とどの群の間に差があったかを知るためには、多重比較を行う必要がある。
したがって、分析の目的によっては、分散分析のみから結論が導かれるものではなく、これらの手法と組み合わせて用いることが肝要である。
分散分析には各種のモデルがあり、データの性質や要因計画の型、検証したい仮説に応じてそれらを使い分けることが適切な利用法である(一元配置分散分析・回帰分散分析・共分散分析など)。 現在では、分散分析は一般線形モデル、構造方程式モデリングの一部として扱えることが判明しており、さらなる拡張も可能である(潜在変数に対する分散分析など)。 |
平均(算術平均、幾何平均、調和平均)(⇔中央値、最頻値) |
Average |
平均値(mean)とは、観測されるデータから、算術的に計算して”得られる、統計的な指標値である。英語圏ではmeanとaverageは厳密に区別され、average
(平均)は、averageの三種(平均三種)、つまりmean
(平均値)、 median (中央値)、mode
(最頻値)をさす。
例えば A, B, C という3人の体重がそれぞれ 55 kg, 60 kg, 80 kg であったとすると、3人の体重の平均値は(55
kg + 60 kg + 80 kg)/3 = 65 kgである。これは厳密に言えば相加平均であるが、特に断らずに平均という場合の多くは相加平均を指している。
統計学では、平均には「母平均」と「標本平均」がある。母平均は、母集団の全ての要素に関する相加平均である。標本平均は、母集団から抽出した標本(母集団の部分集合)の要素に関する相加平均である。母平均はμと書き、標本平均はmなどと書いて区別する。 |
ベイズ確率 |
Bayesian
probability |
ベイズ主義による「確率」の考え方(およびその値)を指す。すなわち複数の命題(θ1,θ2,..)の各々の尤もらしさ(あるいはその根拠となる信念・信頼の度合)を確率値(p 1,p
2,..)と見なす。主観確率理論の一つである。
これら(およびベイズ統計学やベイズ推定)の「ベイズ(的)」の名は、元々はトーマス・ベイズおよび彼が示したベイズの定理に由来する。
ロナルド・フィッシャー以降の推計統計学等で前提とされる「頻度主義」、すなわちランダムな事象が生起・発生する頻度をもって「確率」と定義する考え方と対比されることが多い。 |
偏差値 |
Standard
score |
ある数値が母集団の中でどれくらいの位置にいるかを表した無次元数。平均値が50、標準偏差が10となるように標本変数を規格化したものである。 |
変動係数 |
Coefficient
of variation |
標準偏差を算術平均で割ったもの。単位のない数となり、相対的なばらつきを表す。
このほか相対標準偏差(RSD,relative standard
deviation)とも呼ぶが、この場合は標準偏差の絶対値を百分率であらわす事が多い。 |
ポアソン分布 |
Poisson
distribution |
統計学および確率論においてポアソン分布とは、数学者シメオン・ドニ・ポアソンが1838年に確率論とともに発表した、所与の時間間隔で発生する離散的な事象を数える特定の確率変数
X を持つ離散確率分布のこと。 |
母集団 |
Statistical
population |
調査対象のとなる数値,属性等の源泉となる集合全体を意味する。なお、日本では母集団に関して、相当する英語
universe と population の厳密な区分をしていない。前者は数値、属性をもつ要素の集合であり、後者はその数値、属性の集合である。
一般的な使用例は以下である.
統計学的推定で基本として仮定する、ある要素の集合であって、これからランダムな標本を抽出して観察し、その結果から逆に母集団を推定するという形で用いる。
例えば、カラスを対象としてその性質を調べたい時、具体的な必要性に応じて「全てのカラス」、「ある地域に生息するカラス」、「カラス成鳥」といった集合が母集団になる。このように野生動物全てを調べるのは不可能だから、その一部を標本として調べ、母集団に外挿する方法をとる。
人間を対象にする場合には、ある集団に属する人を母集団としてその全員について調査する(全員を標本とする)事も理論上可能だが、例えば、日本の選挙権を持つ国民全員を対象にして世論調査をする事など事実上不可能(選挙と同じ事になる)だから、この場合も標本から母集団を推定するという方法が必要になるという訳である。また、「ある薬品で治療を受けた患者」を母集団とした場合なども将来の全ての患者を含む必要になるため、やはり同じ方法が不可欠である。
以上のような具体的な母集団は有限であるが、数学的な厳密式が計算困難なために便宜上、無限大の要素からなる母集団を仮定する方法をとることが多い。ある分布を仮定した母集団から標本の大きさnの標本(有限のn個からなる標本,大きさまたはサイズnの標本という)を取り出すものとし、これから逆に確率論的に母集団を推定する訳である。
母集団という言葉は、「測定する要素」でなく「測定値」の集合という意味に用いられる。例えば、カラス成鳥の体重を対象とする場合には、各カラスの体重の集合を「体重の母集団」と呼ぶ。前述のpopulationとuniverseという用語で説明すれば、カラスの集合がuniverseであり、カラスの体重の集合がpopulationとなる。 |
ま |
マン・ホイットニーのU検定 |
Mann-
Whitney U |
マン・ホイットニーのU検定(Mann--Whitney
U test)はノンパラメトリックな統計学的検定の一つであり、特に特定の母集団がもう一方よりも大きな値を持つ傾向にある時に、2つの母集団が同じであるとする帰無仮説に基づいて検定する。ウィルコクソンの順位和検定と呼ばれるのも実質的に同じ方法であり、まとめてマン・ホイットニー・ウィルコクソン検定とも呼ばれる。
マン・ホイットニーのU検定は、正規分布の混合といった非正規分布についてはt検定よりも有効性が高く、正規分布についてもt検定に近い有効性を示す。 |
無作為抽出 |
random
sampling |
ランダムサンプリング(無作為標本抽出)とは調査対象をある母集団(調査対象の全体)からランダム(無作為)に標本抽出(サンプリング)する行為のことである。 |
や |
有意(p値) |
Statistical
significance |
有意(significance)は、確率論・統計学の用語で、「確率的に偶然とは考えにくく、意味があると考えられる」ことを指す。
帰無仮説の下で実際にデータから計算された統計量よりも極端な統計量が観測される確率を、p値(p-value)という。 |
尤度関数 |
Likelihood
function |
尤度関数(ゆうどかんすう)とは統計学用語で、ある前提条件に従って結果が出現する場合に、逆に観察結果からみて前提条件が「何々であった」と推測する尤もらしさ(もっともらしさ)を表す数値を、「何々」を変数とする関数として捉えたものである。また単に尤度ともいう。 |
要約統計量(代表値) |
Descriptive
statistics |
標本の分布の特徴を代表的に(要約して)表す統計学上の値であり、統計量の一種。記述統計量、基本統計量、代表値ともいう。
正規分布の場合は、平均と、分散または標準偏差で分布を記述できる。正規分布からのずれを知るためには、尖度や歪度などの高次モーメントから求められる統計量を用いる。
正規分布から著しく外れた場合には、より頑健な中央値、四分位点、最大値・最小値や最頻値が用いられる。「頑健」とは分布の非対称性や外れ値などの影響を受けにくいことを意味する統計用語である。例えば、労働者一人あたりの年収を例に採れば、最も収入が少なくても0未満にはならないのに対し、収入が多いほうでは数十億円という年収を稼ぐ少数者があり得る。この場合の分布は、少数者が上側にいることによって、上側に極端に尾を引いた非対称な分布となる。平均値はこれらの極端な高値の影響を受け、分布の代表値として適切でないものとなってしまう。中央値や最頻値では、いかに飛び抜けた値であっても1例としてしか扱われないので、より大多数の実感に近い値を示すことができる。 |
ら |
離散確率分布(→確率分布) |
Discrete
probability
distribution |
確率論や統計学において、観測される値が事前に定義された一連の値に限定される場合の確率分布である。とりうる値は有限個の数であるか、高々可算集合である。 |
連続確率分布(→確率分布) |
Continuous
probability
distribution |
確率論において、累積分布関数が連続な確率分布である。これはその確率分布の確率変数
X において、全ての実数
a について Pr[X = a] = 0 であることと等価である。すなわち、X
が値 a を取る確率は、任意の a についてゼロである。X の分布が連続の場合、X
を連続確率変数 と呼ぶ。 |
六次の隔たり |
Six
degrees
of separation |
人は自分の知り合いを6人以上介すと世界中の人々と間接的な知り合いになることができる、という仮説で、多くの人数からなる世界が比較的少ない人数を介して繋がるスモール・ワールド現象の一例とされる。SNSに代表されるいくつかのネットワークサービスはこの仮説が下地になっている。
この仮説は、スタンレー・ミルグラムの実験を裏づけとして大きく広まったが、それ以前から文学作品などを通じて知られていた。この仮説を描いた最古の作品はハンガリーの文学者フリジェシュ・カリンティによる1929年の小説『鎖』とされているが、「六次の隔たり」という名称は、劇作家ジョン・グエアの戯曲に由来する。この戯曲は後に『私に近い6人の他人』(原題:Six Degrees of Separation)として映画化された。 |
ロジスティック回帰 |
Logistic
regression |
ベルヌーイ分布に従う変数の統計的回帰モデルの一種である。連結関数としてロジットを使用する一般化線形モデル (GLM) の一種でもある。ロジスティック回帰は医学や社会科学でよく使われる。 |
ロジスティック式 |
Logistic
function |
個体群生態学において、個体群成長のモデルとして考案された微分方程式である。その後、カオス理論の出発点の一つともなり、現在では、生態学のみならず、多くの分野で応用が行われている。 |
わ |
歪度 |
Skewness |
確率論および統計学において、歪度(わいど)とは、分布の非対称性を示す指標である。分布の尖り具合を示す指標である尖度とともに用いられることが多い。歪みを持ち、尖度が大きい金融データなどではこれら指標が頻繁に用いられる。 |
ワイブル分布 |
Weibull
distribution |
物体の強度を統計的に記述するためにW.ワイブル(Waloddi
Weibull)によって提案された確率分布。時間に対する劣化現象や寿命を統計的に記述するためにも利用される。 |