相関係数

Example
8種類のチーズの塩分量:
260 290 300 320 330 340 340 520
Q1 = 292.5
m = 325
m
Q1
Q3
Q3 = 340
IQR = 340-292.5 = 47.5
Lower fence = 292.5-1.5(47.5) = 221.25
Upper fence = 340 + 1.5(47.5) = 411.25
Outlier: x = 520
*
m
Q1
Q3
Median line in center of box and
whiskers of equal length—symmetric
distribution
Median line left of center and long right
whisker—skewed right
Median line right of center and long left
whisker—skewed left
0.2
0.0
0.0
0.0
0.2
0.1
0.2
0.4
0.4
0.3
0.6
0.6
0.4
相対度数ヒストグラム
-4
-2
0
2
0
4
0
1
2
3
4
1
2
x
3
4
Examples
50
60
40
70
60
80
80
90
100
100
SILS
Final
40
Midterm
国
社
数
理
英
Numerical Measures For
Quantitative Bivariate Data
ー散布図, 相関係数ー
SILS Introductory Statistics A
Yoichi MIYATA
Reference:Introduction to Probability &
Statistics,Mendenhall, Beaver, and
Beaver
散布図1(scatter plot)
12
12
座標とみなして
点を描く
10
10
88
6
y($)
6
7.5
8
12
13
15.5
yy
x(年)
2
3
4
5
6
7
14
14
16
16
• 対のデータ(x1,y1),(x2,y2),…,(xn,yn)
• x: number of years of work experience(実務経
験年数)
• y: starting hourly wage(初任時給)
1
2
3
4
5
x
6
77
88
40
50
50
55
50
60
60
60
65
70
70
70
75
80
80
80
散布図2(scatter plot)
50
60
65
70
75
80
50
70
60
70
80
90
80
Positive pattern
正の相関
No pattern 無相関
50
0.0
60
60
0.2
70
70
y1
80
0.6
80
90
Strong positive pattern
正の強い相関
60
0.8
55
0.4
50
5
55
60
65
70
75
80
Negative pattern
負の相関
85
90
50
60
70
10
15
80
Strong negative pattern
強い負の相関
x1
Curvilinear pattern
曲線関係
20
sxy  0
r=-0.6
sxy  0
80
sxy ≒ 0
80
r=0.6
50
55
60
65
70
75
80
50
60
70
80
r≒0
50
50
40
50
50
50
55
60
60
60
60
65
70
70
80
70
80
sxy  0
70
r=0.99
75
P105 相関係数(correlation)
60
70
80
90
55
60
65
70
75
80
85
90
60
70
80
90
対のデータ(x1,y1),(x2,y2),…,(xn,yn)
相関係数
(correlation
coefficient)
sxy  0
r=-0.99
50
60
70
r
80
標準偏差 s x 
sxy
<性質>  1  r  1
sx s y
直線関係の強さを表す
 (x  x)
i
n 1
2
sy 
(y
i
 y)2
n 1
•sxy>0 ⇔ 正の相関がある
( xi  x )( yi  y ) •sxy<0 ⇔ 負の相関がある

sxy 
•共分散は相関の強さはわからない
n 1
共分散(covariance)
0
( x2  x )( y2  y )  0

0

0
( xn  x )( yn  y )  0

0

yn
( xn , yn )
50
0

( x2 , y2 )
y
45

40
( x1  x )( y1  y )  0
55
60
P106, 共分散(covariance)
0
35
y1
( x1 , y1 )
x1
45
50
55
60x
65
xn
70
75
( x1  x )( y1  y )  ( x2  x )( y2  y )    ( xn  x )( yn  y )
s xy 
n 1
計算公式
sxy
相関係数 r 
sx s y
共分散の計算公式(p106)
共分散 sxy
( x  x )( y  y )



i
i
n 1
分散の計算公式(p63)
標本分散 s 
2
x
2
(
x

x
)
 i
n 1


 xi  yi 
 xi yi  n
n 1
2


x
x2   i
i
n 1
n
p110 EXAMPLE 3.7
x
2
3
4
5
6
7
27
y
6
7.5
8
12
13
15.5
62
x2
4
9
16
25
36
49
139
y2
xy
36
12
56.25 22.5
64
32
144
60
169
78
240.25 108.5
709.5 313
共分散の計算公式(p106)
s xy 
 xi  yi 
 xi yi  n
n 1
313 27662

 6.8
計
6 1
2


y
分散の計算公式(p63)
2
i
y

6.8

i
n
2
22
r
sy 
 xii 
2
xi  n
1.871 3.710
n 1

2
sx 
≒ 0.980
709.5  62662
n 1

27 27
6 1
139 6

 3.5
≒13.7667
6 1
sx  3.5 ≒1.871
s y  13.7667≒ 3.710
従属変数, 独立変数
• 変量yは変量xに依存する.この時,yを従属
変数(dependent variable)と言い, xを独立変
数(independent variable)と言う.
• 例 家賃(y) 床面積(x)
• 例 初任給(y$) 経験年数(x year) p110
回帰直線
P110 例3.7
6
7
y
6
7.5
8
12
13 15.5
この直線を回帰式(regression)もしく
は,最小二乗直線(least-squares
line)と言う.
散布図をうまく表す直線(the best
fitting line)とも言う.
14
5
傾き(slope)
12
4
y  a  bx
10
3
切片(intercept)
8
2
y
x
br
sy
6
最小2乗推定量(Least Squares Estimator)
a  y  bx
sx
2
3
4
5
6
7
x
• 傾きbは,xが1単位増えたときのyの平均的な増加(減少)分を表している.
• 回帰直線を求めると予測ができる.
具体例(p110, 例3.7)
2  3  7
x
 4.5,
6
y  10.333,
x
2
3
4
5
6
7
y
6
7.5
8
12
13 15.5
s x  1.871, s y  3.710, r  0.980
3.710
b  0.980 
≒1.943
1.871
a  y  bx  10.333 1.943 4.5  1.590
y  1.590 1.943x
• x=3の時,y  1.590 1.943 3  7.419($) と予測できる.
• 経験年数1年当たりの時給は1.943ドルと推定できる.
演習問題解答
計
x
8
6
5
6
8
33
x2
64
36
25
36
64
225
y
10
8
6
6
9
39
33
39
x
 6.6, y 
 7.8
5
5
2
y2
100
64
36
36
81
317
( xi )(  yi )
n
s xy 
n 1
33  39
266 
5  2.15

5 1
 xi yi 
xy
80
48
30
36
72
266
sx  1.3416, s y  1.7889
s xy
r
sx s y
2

1
33
x    xi 

225
n
 i 1  
5  1.8
s x2  i 1
n 1
5 1
n
n
2
i
2
2

1 n
39
y    yi 

317 
n
 i 1  
5  3.2
s y2  i 1
n 1
5 1
n
2
i
2.15

1.3416 1.7889
 0.8958