相関分析

相関分析
2次元データと散布図
共分散
相関係数
2次元データ
身長と体重、生産と投資、収入と貯蓄などの二つ
の現象の間に非確実な照応関係が存在するが、
この2変数x、yを観測して、2組のデータを得ると
き、そのデータを2次元データという。
2次元のデータをn個の点
( x1 , y1 ), ( x2 , y2 )    ( xn , yn )
として、図式すると、x と y の関係がはっきりする。
散布図(Scatter-gram,正の関
係)
GDPとMS(兆円)
MS
700
600
500
400
300
300
400
500
GDP
600
散布図(負の相関関係)
貯蓄と世帯数の関係
世帯数
1000
800
600
400
200
0
0
500
1000 1500 2000 2500 3000
貯蓄
無相関の例
統計学の前期と後期の試験点数(n=10)
後期
90
80
70
60
50
40
30
20
10
0
0
20
40
前期
60
80
Xの分散とYの分散
変数 x1 , x2 ,  xn と変数 y1, y2 ,   yn の
それぞれの分散が次のように定義される。
n
S xx 
(x  x)
i 1
i
n
n
2
S yy 
 ( y  y)
i 1
i
n
2
共分散(Covariance)
xi と yi
について
n
S xy 
( x  x)( y
i 1
i
i
 y)
n
で定義される S xy を xi と yi の共分散
といい、Cov(x, y)と書く。
Xとyの変動と共分散の符号
Xとyの増減変化の方向が一致であれば、
Sxy の値がプラスになり、xとyが正の相関
関係が存在する。
Xとyの増減変化の方向が逆であれば、
Sxy の値がマイナスになり、xとyが負の相
関関係をもつ。
相関係数
相関係数は次式で定義される。
Sxy
S
xy
 xy 

Sxx  S yy
Sx  S y
n

(x  x)( y  y) / n
 ( x  x ) / n  ( y  y) / n
i 1
i
i
2
i
2
i
相関係数の性質
相関係数  xyは共分散 S xy と同じ符号をもち、
常に 1   xy  1の範囲にある。
 xy =1ならば、すべての観測値が正の傾きを持つ
同一直線上に並ぶ。
 xy =-1ならば、すべての観測値が負の傾きを持つ
同一直線上に並ぶ。
 xy は0に近ければ、XとYの間に相関はない。
相関係数の計算式
 xy 
n xi yi   xiΣyi
n x  ( x ) n y  ( y ) 
2
i
2
i
2
i
2
i
順位相関係数
2つの変数を質的基準によって順位づけて、
2変数の質的基準による順位相関関係を
示す指標。
n
 s  1
6 d 2
i 1
2
n(n  1)
2
d
 は2変数の質的基準による順位にお
ける差の平方和を意味する。