多変量解析法入門」 の前のイントロ

「多変量解析法入門」
準備
新納浩幸
多変量解析とは
多変量データを解析して有効な
情報を見つける統計的な手法
たくさんの手法がある
テキストの手法は
代表的なもの
データのタイプ
質的データ(カテゴリーデータ)
リンゴ、バナナ、ミカン
○、△、× (順序がある)
量的データ(数量データ)
温度(原点に意味がない)
重さ、長さ (原点に意味がある)
目的変数と説明変数
1次元
目的変数・・・結果
説明変数・・・原因
例)
目的変数: 売り上げ
説明変数: 広告費、営業マンの数、
開発費、店舗数
多数の要因
多次元
多変量解析
目的変数ある or ない
目的変数がある
原因と結果の関係を分析
多変量解析
目的変数がない
標本の類似性、関連性を分析
多変量解析の分類
データのタイプ
目的変数
の有無 目的変数
説明変数
数量
数量
数量
カテゴリ
有
カテゴリ
数量
カテゴリ
カテゴリ
数量
無
カテゴリ
解析手法
重回帰分析
数量化1類
判別分析
数量化2類
主成分分析、因
子分析、数量化
4類
数量化3類
クラスター分析
確率との関係
背後にある関係は?
厳密
目
的
変
数
説明変数
確率的
確率変数
試行
標本空間
  1 , 2 , 3 ,, n 
数値化
X  x1 , x2 , x3 ,, xn 
P( X  xi )  P({i })
ただしこれは離散型
確率密度関数
標本空間
試行
X  (, )
F ( x )  P( X  x )
f ( x)  F ' ( x)
分布関数
確率密度関数
b
P(a  X  b)   f ( x)dx
a



f ( x)dx  1
平均と分散
確率変数を特徴付ける量
E ( X )   xf ( x)dx  
V ( X )   ( x   ) f ( x)dx  
2
2
正規分布
最も重要な分布、自然界の現象の基本
 (x  )
f ( x) 
exp 
2
2
2
2

1
2



X~N (,  )
2
注意)



f ( x)dx  1
を示すには


e

 x2
dx  
2次元分布
確率変数
X ,Y
( X ,Y )
共分散
C( X , Y )  E((X  x )(Y   y ))
相関係数
C( X ,Y )
 ( X ,Y ) 
V ( X )V (Y )
母集団と標本
母集団
標本
サンプリング
x1 , x2 ,, xn
確率変数
X
X
と
Xi
の分布は同じ
Xi
統計量
標本
x1 , x2 ,, xn
X1 , X 2 ,, X n
X1 , X 2 ,, X n
の合成式が統計量
確率変数
推定
パラメトリックモデル
母集団
標本
X
の密度関数にはパラメータ
X1 , X 2 ,, X n
から


を含む
を推定する合成式を
作成すること
推定量
統計量
確率変数
分布を持つ!
標本平均と標本分散
1 n
X   Xi
n i 1
標本平均
平均に対する代表的な推定量
n
標本分散
1
2
S  (Xi  X )
n i 1
2
分散に対する代表的な推定量
区間推定
パラメータ

が区間
[ a, b]
に入る確率が

信頼係数
具体的な手法は検定と同じ
問題の
タイプによって
いろいろ
検定
H 0 :   0

 H1 :    0
帰無仮説
対立仮説
標本からどちらの仮説が正しそうかを判定する
帰無仮説をとりあえず正しいと考えて、ある統計量を導入
標本からその統計量の値を求める。この値が有意水準

(通常、0.05) 以下の確率で起こる値であれば
対立仮説を採択する