|
最終更新日:2017年4月26日
リンク⇒こちら|統計学⇒こちら|多変量解析|主成分分析と因子分析|確率分布|正規分布|シックスシグマ|統計学用語⇒こちら|
統計(Statistic)および統計学(Statistics)に関連する情報を集めている。 |
多変量解析 |
|
基準変数(目的変数):結果として扱いたい変数 菅沼(HP/2013/12)による『多変量解析』から(リンクはウィキペディア) |
多変量解析(たへんりょうかいせき)とは、複数の結果変数からなる多変量データを統計的に扱う手法。主成分分析、因子分析、クラスター分析などがある。一般に、多変量解析を行うためには計算負荷が高く手計算ではきわめて困難だが、コンピュータの発展により、容易に実行できるようになった。
|
主成分分析と因子分析 |
主成分分析のイメージ |
因子分析のイメージ |
小塩(HP/2013/12)による『心理データ解析 補足説明(1)』から |
主成分分析のモデルと基本式 主成分分析とは、多変量データを統合し、新たな総合指標を作り出すための手法といえます。多くの変数に重み(ウェイト)をつけて少数の合成変数を作るのが主成分分析です。重みのつけ方は、合成変数ができるだけ多く元の変数の情報量を含むようにします。できるだけ多くの情報をもつ合成変数(主成分)を順次作っていきます。 |
因子分析のモデルと基本式 因子分析とは、多変量データに潜む共通因子を探り出すための手法といえます。因子分析は要約のための手法であり、因子分析を使う目的には2つのものがあるといわれています。 |
||||||
主成分分析は合成の分析であるのに対し、因子分析は分解の分析といえるでしょう。
|
|||||||
(株)マクロミル(HP/2013/12)による『主成分分析』と『因子分析』から |
主成分分析のパス図 主成分分析は多数の観測変数から少数の主成分という合成変数を作り出す手法で、観測変数と主成分の因果関係をパス図に描くと上のようになります。主成分分析では観測変数が原因で主成分は結果です。 |
因子分析のパス図 因子分析は観測変数に影響を与えている共通因子を抽出する方法で、観測変数と因子の因果関係をパス図に描くと次のようになります。因子分析では(共通)因子が原因で観測変数が結果と主成分分析とは因果関係が逆になります。なお、この図にある独自因子とは、個々の観測変数固有の因子です。 |
主成分分析と因子分析はこのように異なる考え方に基づく分析手法ですが、因子分析の主因子法という因子の抽出法(因子分析には最尤法、最小二乗法など色々な計算方法があります)を用い、共通性の初期値をすべて1にして繰り返しをなしで共通因子を求めると、抽出された共通因子は主成分分析の主成分に一致します。このことから、主因子法のことを主成分分析だと勘違いしている人もいるようです。なお、主因子法を使った因子分析を行うときは、共通性の初期値にSMC(重相関係数の二乗)を設定し、共通性の値が収束するまで計算を繰り返すのが一般的です。 | |
社会情報サービス統計調査研究室による『第56話「主成分分析と因子分析の違い」』(2008/12)から |
確率分布 |
離散型確率分布 (Discrete probability distributions) |
連続型確率分布 (Continuous probability distributions) |
統計的仮説検定で用いられる確率分布 (Probability distribution for the statistical hypothesis testing) |
確率分布の関係 |
中川(HP/2013/6)による『さまざまな確率分布 probability distributions - 数理的思考 -』から |
正規分布 |
連続型の確率変数Xが正規分布N(μ,σ2) に従うとき、その確率密度関数f(x)は となります。確率変数Xは-∞<x<+∞の範囲の実数をとります。 |
|
|
|
中川(HP/2013/6)による『さまざまな確率分布 probability distributions - 数理的思考 -』の『正規分布 (normal distribution)』から |
標準正規分布のグラフ 確率変数 X が N(μ, σ2) に従う時、平均 μ からのずれが ±1σ 以下の範囲に X が含まれる確率は 68.27%, ±2σ 以下だと 95.45%, さらに ±3σ だと 99.73% となる。 ウィキペディア(HP/2013/6)による『正規分布』から |
シックスシグマ |
統計学の6σとの差異 ウィキペディア(HP/2013/6)による『シックス・シグマ』から |
Graph of the normal distribution, which underlies the statistical assumptions of the Six Sigma model. The Greek letter σ (sigma) marks the distance on the horizontal axis between the mean, μ, and the curve's inflection point. The greater this distance, the greater is the spread of values encountered. For the green curve shown above, μ = 0 and σ = 1. The upper and lower specification limits (USL and LSL, respectively) are at a distance of 6σ from the mean. Because of the properties of the normal distribution, values lying that far away from the mean are extremely unlikely. Even if the mean were to move right or left by 1.5σ at some point in the future (1.5 sigma shift, coloured red and blue), there is still a good safety cushion. This is why Six Sigma aims to have processes where the mean is at least 6σ away from the nearest specification limit. Wikipedia(HP/2013/6)による『Six Sigma』から μ=(母)平均、σ=(母)標準偏差、USL=上方規格限界、LSL=下方規格限界。 |