13章(pdf形式)

統計学Ⅰ(2014) 13章
13章 回帰分析の基礎
1 散布図と相関係数
回帰分析の目的と関係の把握

3 決定係数
(1) 説明変数・被説明変数
(2) yの変動の分解と決定
係数
(3) 決定係数と相関係数
(1) 散布図
(2) 散布図と相関
(3) 共分散
(4) 相関係数
2 最小2乗法と回帰直線
3章~6章:1変量の分析
 データ: x 1 , x 2 ,  , x


13章→関係の分析(回帰分析,相関分析)
 例
•
•
•
•
4 重回帰分析
(1) 散布図への直線のあては
めと残差
(2) 最小2乗法
(3) 回帰直線と残差の性質
(4) 残差の分散

1 ~2年
3~4年
データ: x , x ,  , x と y , y ,  , y
1
2
n
1
2
n
関係の把握の方法
表13-4 勤続年数と所定内給与額の関係 (平成18年,産業計,企業規模計,男女計)
0年
景気と株価
勤続年数と給与
価格と需要量
気温とビールの売上・・・
または、( x1 , y1 ), ( x 2 , y 2 ),  , ( x n , y n )
データの構造
例:勤続年数と給与額の例
勤続年数階級
n
分析:度数分布,平均,分散(標準偏差),基準化統計
量,歪度,尖度,・・・
グラフ(散布図)により大まかな関係を
つかむ
関係を数量的に把握する

5~9年 10~14年 15~19年 20~24年 25~29年 30年以上
勤続年数(年)
xi
0.0
1.5
3.5
7.0
12.0
17.0
22.0
27.0
32.0
所定内給与額
(千円)
yi
217.4
230.3
246.0
264.1
300.6
348.3
395.4
426.7
444.0

1. 関係の強さ
出所:厚生労働省「賃金構造基本調査」
x1  0 .0, y1  217 .4 ,
– 相関係数,決定係数
( x1 , y1 )  ( 0 .0, 217 .4 ),
x 2  1 .5, y 2  230 .3,
( x 2 , y 2 )  (1 .5, 230 .3),


2. 関係の形
– 回帰直線(回帰式)
3. 関係の有無(14章)
– 検定
1 散布図と相関係数
(1) 散布図

散布図の描き方
教科書 334-342ページ

例:日経平均の変化率 xi とトヨタの株価変化率 yi


全体的な株価の変動(市場の変動)と個別の株価の変動の関係
をみる

• 全体的に株価が上昇→個別の株価も上昇しやすい?
• 必ずしも,全体と同じ動きをしない場合もある?

2つの変数の関係をどうみるか



2本の折れ線グラフ (図13-1)
散布図
トヨタ自動車の株
価変化率(%)
横軸:x (原因)
縦軸:y (結果)
日経平均とトヨタの株価の変化率
の散布図(2006年)
15
10
各組のデータを,目盛に
あわせてプロットする
(plot=グラフに点を打つ
こと)
横軸,縦軸に変数名や単
位を入れる
5
0
-0.7
-5
-10
-15
-15
-10
-5
0
5
3.3
表13-1 日経平均とトヨタ自動車の株価の変化率(2006年,月末値)
10
15
日経平均の変化率(%)
1月
3.3
2月
-2.7
3月
5.3
4月
-0.9
5月
-8.5
6月
0.2
7月
-0.3
8月
4.4
9月
-0.1
10月
1.7
単位:%
11月 12月
-0.8
5.8
表13-1 日経平均とトヨタ自動車の株価の変化率(2006年,月末値)
日経平均 xi
トヨタ y i
-0.7
2.8
2.9
3.6
-11.0
1.0
1.2
5.1
0.8
7.9
1.3
日経平均 xi
1月
3.3
2月
-2.7
3月
5.3
4月
-0.9
5月
-8.5
6月
0.2
7月
-0.3
8月
4.4
9月
-0.1
10月
1.7
単位:%
11月 12月
-0.8
5.8
トヨタ y i
-0.7
2.8
2.9
3.6
-11.0
1.0
1.2
5.1
0.8
7.9
1.3
13.4
13.4
1
統計学Ⅰ(2014) 13章
(2) 散布図と相関
散布図と相関の強さ
b.負の相関
y
y
y
a. 正の相関
d.強い正の相関
y
a. 正の相関
右下がりに点が位置する
=xが増えるとyは減る
=負の相関
x
x
y
c.無相関
x
x
関係が強い:xが決まると,yもほぼ決まる
関係の強さ
 点が近くに集まっているかどうか
 散布上の点が1本の直線の周りに集中しているかどうか
相関・・・1次式(=直線)の関係(非線形の関係ではない)


特定の傾向がみられない
= xとyに関係がない
=無相関:

x
散布図の例
(3) 共分散
都道府県別交通事故死者数と
自動車保有台数の散布図
交通事故
死者数(人)
都道府県別交通事故死者数と平均気温の散布図
交通事故
死者数(人)
400
弱い正の相関
強い正の相関
右上がりに点が位置する
=xが増えるとyも増える
=正の相関
400
散布図

350
350
300
300

250
250

200
200
150
150
関係の強さを数量的に表す必要もある

100
100

50
50

0
0
0
0
5
10
15
表2-9より作成
20
25
平均気温(℃)
100
200
300
400
表2-9,表13-7より作成
散布図を描くことは非常に重要
関係の形,強さに関する大まかな情報を与える
500
600
自動車保有台数(万台)

大企業と中小企業で,勤続年数と給与の関係に違いがあるか
トヨタの株価と他の株価で,日経平均との相関の強さは異なるか
出席と得点の関係の強さが科目で違うか
・・・
→相関係数によって,関係の強さを数量的に把握
する
② 散布図上の点と
偏差の符号
① 散布図上の点と相関
図13-3 散布図の分割
y
xi  x  0 
x
yi  y  0
Ⅰ
y
Ⅳ
x

•正の相関
y
•負の相関

yi  y  0
Ⅲ
0
Ⅰ
Ⅲ
 xi  x  0
Ⅱ
Ⅱ
y
–ⅠとⅢに点が集中
–ⅡとⅣに点が集中
x
相関が強ければ,狭い範囲(直線の近く)
に点が集中する
ex. 強い正の相関であれば,ⅠとⅢに点
が集中し,ⅡとⅣには点があまり入らない
Ⅰ
Ⅱ
Ⅲ
Ⅳ

( xi  x )( yi  y)
+
ー
ー
+
+
+
ー
ー
+
ー
+
ー
ⅠとⅢに点が多い
負の相関が強い


yi  y
正の相関が強い


xi  x
ⅡとⅣに点が多い
無相関に近い

Ⅰ~Ⅳに点が散らばる
Ⅳ
x
n
 ( x  x )( y
i
i
 y ) が+で大きくなる
i 1
n
 ( x  x )( y  y )が  で大きくなる
i
i 1
i
n
 (x
i 1
i
 x )( yi  y ) が0に近い
2
統計学Ⅰ(2014) 13章
共分散・相関係数の計算例
③ 共分散
xの平均からの偏差とyの平均か
らの偏差をかけたものの合計
xi
1月
2月
3月
4月
5月
6月
7月
8月
9月
10月
11月
12月
合計
平均
n
 ( x  x )( y  y)

i
i
が関係の強さを測る尺度になる
i 1

データ数の影響を除くためにデータ数で除す(分散と同
様)=共分散 s xy
s xy 
1
n
n
 ( x  x )( y
i
i
 y)
i 1
cf . s x2 
1
n
 (x
s xx 
1
n
 (x
n
i 1
i
 x )2
i
 x )( x i  x )
n
i 1
共分散の大きさと相関

共分散がプラスで大きい→正の相関が強い
共分散がマイナスで大きい(数としては小さい)
→負の相関が強い
 共分散が0に近い→無相関
共分散の問題点

rxy 
sxy
sx s y

ex. 例で変化率を小数にすると,共分散は1/10000になる
共分散の絶対的な大きさで,相関の強さを判断できない
 共分散の解釈は困難→何らかの基準化が必要
→相関係数
rxy 
• 1に近い(大きい)
→正の相関が強い ex. rxy=0.95
相関係数
• -1に近い(負で絶対値が大きい)
rxyが
→負の相関が強い ex. rxy=-0.95
• 0に近い
→無相関 ex. rxy=0.05
相関係数が(絶対値で)大きいほど,相関が強い

( y i  y ) 2 ( xi  x )( y i  y )
9.35
0.20
0.29
1.54
178.45
1.85
1.34
7.52
2.43
30.71
1.12
121.92
356.71
29.73
5.45
15.88
 0.77
3.78  5.45
s xy
-8.21
-1.46
2.54
-1.88
121.78
0.57
1.06
10.37
1.12
6.00
1.50
57.23
190.62
15.88
共分散
sx s y
1 n
 ( xi  x )( yi  y ) : 共分散
n i 1
s x : xの標準偏差、 s y : yの標準偏差
s xy 
s x2 
1 n
 ( xi  x ) 2 , sx  s x2
n i 1
• そうすることによって,
相関係数は-1から+1までの間の値をとる
(352ページ参照)
1  rxy  1
相関係数の解釈
 相関係数の符号=共分散の符号
→プラスなら正の相関,マイナスなら負の相関
yi  y
7.20
-3.06
11.00
0.44
21.93
0.54
2.30
1.24
83.11
-13.36
0.17
-1.36
0.84
-1.16
14.31
2.74
0.51
-1.56
1.17
5.54
2.01
-1.06
26.87
11.04
171.44
0.00
14.29
分散
3.78 標準偏差
相関係数rxy:共分散を x と y の標準偏差の積で除す
データの測定単位に依存する

( xi  x ) 2
2.68
-3.32
4.68
-1.52
-9.12
-0.42
-0.92
3.78
-0.72
1.08
-1.42
5.18
0.00
分散
標準偏差
(4) 相関係数


-0.7
2.8
2.9
3.6
-11.0
1.0
1.2
5.1
0.8
7.9
1.3
13.4
28.3
2.36
1 n
190.62
 ( xi  x )( yi  y )  12  15.88
n i 1
s xy 
④ 共分散の解釈

xi  x
yi
3.3
-2.7
5.3
-0.9
-8.5
0.2
-0.3
4.4
-0.1
1.7
-0.8
5.8
7.4
0.62
関係の把握方法
1. 関係の強さ


相関係数の大きさ (ややあいまい)
決定係数
2. 関係の形


定性的:相関係数の符号(正の相関,負の相関)
定量的:回帰式(回帰直線)
•
xが増えると,yがどれだけ増えるか
3. 関係の有無

検定(14章)
Excelで相関係数を求める関数:correl(x範囲,y範囲)
3
統計学Ⅰ(2014) 13章
教科書 342-349ページ
回帰直線の定式化
2 最小2乗法と回帰直線
散布図に直線をあてはめる(xとyの関係を
直線で把握する)
y
( xi , yi )

(1) 散布図への直線のあてはめと残差
直線の式

xとyの関係を数量的に把握する
→ xとyに間に数式を仮定
y
 最も簡単な式として,
直線の式で表す
=回帰直線

y  a  bx
yˆ  a  bx
yˆ i (yハット)
yi
x
• あてはめる直線
xi
→各点のできるだけ近くを通る直線(回帰直線)
yˆ  a  bx
x
すべての点を通る直線は,
一般に引くことはできない
yˆ i  a  bxi
i をつけで各データを表 す
図13-4 回帰直線と残差
y
残差 (residual)
図13-4 回帰直線と残差
y


yˆ  a  bx
各点(データ): ( xi , yi )
直線上の点: ( x , yˆ )
i
i
( xi , y i )
ei  yi  yˆ i
( xi , yˆ i )
yi
すべての点のできるだけ近くを通る直線
=残差ができるだけ小さくなるように
n
残差の合計が小さくなるように決める

 (y
i 1
i
 yˆ i ) 
 (y
i 1
i
 a  bx i )
n

回帰直線
の計算例
b
i
i 1
i
n
(x  x)
i 1
i
xi
1月
2月
3月
4月
5月
6月
7月
8月
9月
10月
11月
12月
合計
平均
2
 y)
b
a,b:最小2乗推定値
 ( x  x )( y
i
i 1
n
(x
i 1
i
yi
3.3
-2.7
5.3
-0.9
-8.5
0.2
-0.3
4.4
-0.1
1.7
-0.8
5.8
7.4
0.62
n
, a  y  bx
2
( y i  yˆ i ) 2  最小
となるように直線(すな
わちa,b)を決める
=最小2乗法
表13-3 共分散の計算
最終的には,次のような公式が得られる(練
習問題10,付録A4)
n
xi
 yˆ i )
残差の符号をなくして合計

→最小にするa,bを求める
 ( x  x )( y
x
i
i 1
i 1
最小2乗推定値の公式
RSS 
 (y
いくらでも小さくできる(散布図の上の方に直線を
ひけばよい)ので不可
0にすることも可能

RSS 
–残差>0 → 点が直線の上
–残差<0 → 点が直線の下
–残差=0 → 点が直線上にある
n
yˆ i  a  bxi
→残差の2乗の合計(RSS)ができるだけ小さくなるようにする
•各点と直線のずれ(距離)=残差 yi  yˆ i
2
ei  yi  yˆ i


x
( xi , y i )
yi
回帰直線をどのようにひくか

yˆ i  a  bxi
xi
n
yˆ  a  bx
(2) 最小2乗法
i
 y)
 x )2

-0.7
2.8
2.9
3.6
-11.0
1.0
1.2
5.1
0.8
7.9
1.3
13.4
28.3
2.36
xi  x
2.68
-3.32
4.68
-1.52
-9.12
-0.42
-0.92
3.78
-0.72
1.08
-1.42
5.18
0.00
分散
標準偏差
190.62
 1.11
171.44
( xi  x) 2
yi  y
7.20
-3.06
11.00
0.44
21.93
0.54
2.30
1.24
83.11
-13.36
0.17
-1.36
0.84
-1.16
14.31
2.74
0.51
-1.56
1.17
5.54
2.01
-1.06
26.87
11.04
171.44
0.00
14.29
分散
3.78 標準偏差
( yi  y) 2 ( xi  x )( yi  y )
9.35
0.20
0.29
1.54
178.45
1.85
1.34
7.52
2.43
30.71
1.12
121.92
356.71
29.73
5.45
-8.21
-1.46
2.54
-1.88
121.78
0.57
1.06
10.37
1.12
6.00
1.50
57.23
190.62
15.88
a  y  bx
 2.36  1.11  0.62
 1.67
 yˆ i  1.67  1.11xi
4
統計学Ⅰ(2014) 13章
練習問題1の場合
yˆ i  a  bxi におけるa,bの意味

出席回数 得点
xが0のときのyの値
例)平均株価の変化率が0のとき,トヨタの株価の変化率は(平
均的に)1.67%
yi
xi  x
( xi  x ) 2
1
6
8
9
10
12
45
9
50
60
70
90
90
360
72
-3
-1
0
1
3
0
-
9
1
0
1
9
20
4
2
3
4


xi
2
ex. yˆ i  1.67  1.11xi
a:切片(定数項)
i
5
合計
平均
x 標準偏差
b:傾き(x係数)
( yi  y ) 2
-22
-12
-2
18
18
0
-
484
144
4
324
324
1280
256
16
y 標準偏差
( x i  x )( y i  y )
66
12
0
18
54
150
30
n
xが1単位増えたとき,yが何単位増えるか
例)平均株価が1%上昇すると,トヨタの株価が1.11%上昇する
注:単位とは,測定単位のこと(円,点,億円・・・)
 bはxのyに対する影響の度合いを表す
→bが大きいほど,xの影響が強い
例)他の株との比較

b
 ( xi  x )( yi  y )
i 1
n
 (x  x)
i 1
回帰直線 : yˆ i 
bの解釈・・・
aの解釈・・・
推定値と残差の計算

① 回帰直線は,xとyの平均 ( x , y ) を通る
推定値 yˆ i の計算(予測値,理論値などとも呼ぶ)

a  y  bx より y  a  bx


( x, y)
a  y  bx 

2
i
(3) 回帰直線と残差の性質
y

yi  y
yˆ i  a  bxi
y
回帰式の xi に各値を代入し,計算する
これを直線のグラフにすれば,回帰直線が描ける
残差ei の計算 ei  yi  yˆ i
例)株価の例題で7月(xi=-0.3)に対する推定値
yˆ 7  1.67  1.11x7
 1.67  1.11  ( 0.3)  1.337
x
x
7月の残差
 1.2  1.337  -0.137
推定値・残差の計算例
yˆ1  1.67  1.11 3.3
e1  0.7  5.34
回帰直線 : yˆ i  1.67  1.11xi
xi
1月
2月
3月
4月
5月
6月
7月
8月
9月
10月
11月
12月
合計
平均
3.3
-2.7
5.3
-0.9
-8.5
0.2
-0.3
4.4
-0.1
1.7
-0.8
5.8
7.4
0.62
推定値
yi
-0.7
2.8
2.9
3.6
-11.0
1.0
1.2
5.1
0.8
7.9
1.3
13.4
28.3
2.36
e7  y7  yˆ 7
・・・
残差
ei2
yˆ i ei  y i  yˆ i
5.34
-1.33
7.57
0.67
-7.78
1.90
1.34
6.56
1.56
3.56
0.78
8.12
28.30
2.36
R2  1
-6.04
4.13
-4.67
2.93
-3.22
-0.90
-0.14
-1.46
-0.76
4.34
0.52
5.28
0.00
0.00
36.50
17.05
21.77
8.57
10.38
0.80
0.02
2.15
0.58
18.81
0.27
27.86
144.76
12.06
144.76
 0.59
356.71
(3) 回帰直線と残差の性質 (続)
残差ei  yi  yˆ i
n
② 残差の合計は0
n
 e   ( y  yˆ )  0
i
i 1
i
i
i 1
n
cf.平均からの偏差の合計は0:
③ 残差の2乗の合計は最小
n
e
i 1
2
i
 ( y  y)  0
i
i 1
n
  ( yi  yˆ i ) 2  最小
i 1
n
 ( y  y)
cf.平均からの偏差の2乗の合計は最小:
i
2
 最小
i 1
ˆ
yと平均
y は同じような性質をもつ
5
統計学Ⅰ(2014) 13章
回帰直線には,平均と同様
の解釈を与えることができる
yˆ は平均と同様の性質

回帰直線(推定値) yˆ i  a  bxi は,
あるxに対するyの平均的な値を表す

(4) 残差の分散

2
y
あるxi に対してyはいろ
いろな値をとる可能性
がある
残差の分散・標準偏差の定義
se 
yˆi  a  bxi

 平均的には yˆ i という値
をとることが期待される
 yˆ i は xi が与えられたと
きに予想される yiの値
残差の分散の解釈
• 各点が,回帰直線の近くに集まっている
• 大きいほど,離れている

0
se が小さいほど,回帰直線のあてはまりがよい

yˆi
1 n
1 n 2
2
ei , se  se
 (ei  e )2  n 
n i 1
i 1
ただし,残差の分散,標準偏差はyの単位に依存
• あてはまりの尺度としては,利用しにくい
x
xi
教科書 349-353ページ
(2) yの変動の分解と決定係数
3 決定係数
(1) 説明変数・被説明変数
 回帰分析の目的
 x によって,y を説明する
ˆ i  a  bxi
 回帰直線を仮定する y
•
x:原因→説明変数(独立変数,回帰変数)
• y:結果→被説明変数(従属変数)
 x によって,y の変動をうまく説明できているのか
を考える必要がある



②決定係数の公式
データ全体について変動を分解:2乗して合計する
(単なる合計は0)
n
R 
2
y i  y  ( yˆ i  y )  e i
 (y
i 1
i
 y)2 
yの全変動 =
n
 ( yˆ
i 1
i
 y )2 
回帰(x)で
説明される
部分
⇒ yの全変動のうち,回帰で説明される変
動がどのくらいの割合を占めるかが,回帰
がどれくらいうまくいったかの指標になる:
決定係数R2
x
xi
回帰(x)で 回帰(x)で説
yの変動 = 説明される+ 明されない
部分(残差)
部分
yの全体の変動の分解
n
yˆ i  a  bxi
yi
各点について
y i  yˆ i  ( y i  yˆ i )
 yˆ i  e i
y i  y  ( yˆ i  y )  e i
x の y に対する説明力を数値によって測る
⇒決定係数

yi  yˆ i  ei
関係の強さを数量的
に表す指標
① yの変動の分解


y
決定係数 R2
n
e
i 1
+
2
i
R2 
i 1
n
 y )2
 ( yi  y ) 2
i 1
(y
i
 y )2
0  R2  1
計算式
n
R  1
i
 y )2
xがyの変動のどのくらいの割合を説明しているか
e
i 1
2
n
i
i 1
n
i 1
回帰で説明
されない部
分(残差)
 ( yˆ
 ( yˆ
n
(y
i 1
i
n
 y)2
⇒1から説明できな
い割合を引く
 ( yˆ
i 1
n
2
i
n
  ( yi  y )2 
 (y
i 1
n
 (y
i 1
i
i
i 1
n
 y )2

 y )2
 ( yˆ
i 1
n
 (y
i 1
n
 1 R2 
e
i 1
n
 (y
i 1
i
i
i
i
n
e
 y)2 
i 1
n
e
 y )2

 y )2
i 1
n
 (y
i 1
i
2
i
2
i
 y )2
2
i
 y )2
6
統計学Ⅰ(2014) 13章
③ 決定係数の解釈
n
R 
2
 ( yˆ
i
 y )2
(y
i
 y )2
i 1
n
i 1
(3) 決定係数と相関係数
2
0  R 1


xの説明力の尺度
 回帰(xで説明できる部分)によって,yの変動のどれだけ
が説明できるか
 xによってyの何%が説明できるか
 回帰直線のあてはまりの尺度
 回帰直線が各点のいかに近くを通るか

ex.R2=0.9 →xによって,yの90%が説明される
–R2が1に近いほど(大きいほど),xの説明力が高い
–R2が0に近いほど(小さいほど),xの説明力が低い
決定係数:あてはまりの尺度,xの説明力の尺度
相関係数:相関の強さ

決定係数の方が,相関係数より,意味が明確(説明力の割合)
 ex. R2=0.5とrxy=0.5の解釈

(相関係数)2=決定係数

ex. rxy=0.8のとき
rxy=0.6のとき


R2=0.64
R2=0.36
決定係数の平方根が相関係数(符号は,bの符号)
相関係数の範囲
0  R 2  1より  1  rxy  1
教科書 353-362ページ
4 重回帰分析

回帰分析:yをxで説明する



重回帰分析における最小2乗法

重回帰方程式

y:結果→被説明変数
x:原因→説明変数

説明変数が2個の場合:
(回帰平面)
説明変数がK個の場合:
yˆ i  a  b1 x1i  b2 x2i    bK x Ki
yの説明要因は1つとは限らない

株価の変動,給与額,試験の得点,交通事
故・・・ cf. 決定係数の水準
重回帰分析:説明変数が2つ以上
単回帰分析:説明変数が1つの場合
 重回帰分析でも,単回帰と基本的には同じ


最小2乗法,推定値,残差,決定係数・・・
yˆ i  a  b1 x1i  b2 x2i
⇒n個のデータ

( yi , x1i , x2i ,, xKi ) から a, b1 , b2 ,, bK を推定
回帰係数,定数項の推定方法:最小2乗法
RSS 
n
 (y
i 1
i
 yˆ i ) 2  最小
(一般の場合は410-411ページ参照)
重回帰分析における決定係数

yの変動の分解(単回帰の場合と同様)
n
 (y
i 1

i
 y )2 
n
 ( yˆ
i 1
決定係数の公式
i
n
e
 y )2 
i 1
n
R2 
 ( yˆ
i
 y)2
 (y
i
 y)2
i 1
n
2
i
,
0  R2  1
i 1
yの変動をx1, x2, ・・・,xKによってどれだけの割合が説明できるか


このように単回帰と重回帰は基本的に同じ
単回帰と重回帰の違いで注意すべき点



係数の解釈(重回帰モデルにおける係数:偏回帰係数)
修正決定係数と通常の決定係数
説明変数間の相関
Excelでの回帰分析:
データ→データ分析→回帰分析→y範囲,x範囲の
指定→出力先の指定→OK
7
統計学Ⅰ(2014) 13章
13章 回帰分析 練習問題
1.ある科目の5人の受講者について,出席回数と
試験の得点を調べたら,以下のような表になった.
出席回数(回): x
試験の得点(点): y
6
8
9
10
12
50
60
70
90
90
(1) 右に散布図を描け.
(2) 共分散 s xy =
相関係数 rxy =
1 n
∑ ( xi − x )( yi − y ) ,
n i =1
s xy
sx s y
を求めよ.
また,相関係数から x と y の関係についてどのようなことがいえるのかを簡単に述べよ.
出席回数 得点
i
xi
yi
1
6
50
2
8
60
3
9
70
4
10
90
5
12
90
xi − x
( xi − x ) 2

yi − y
( yi − y ) 2
( xi − x )( y i − y )
合計
平均
-
-
x 標準偏差
y 標準偏差
相関係数r xy
2.次の表は,ある商品の価格(円)と
購入量(個数)のデータである.
600
4
価格(円): x
購入量(個): y
300
4
300
8
200
8
(1) 右に散布図を描け.
(2) 共分散 s xy =
相関係数 rxy =
1 n
∑ ( xi − x )( yi − y ) ,
n i =1
s xy
sx s y
を求めよ(次ページの表を利用)
.
(割り切れない場合は,小数第3位を四捨五入して,
小数第2位まで求めよ)
.また,相関係数から x と y の関係についてどのようなことがいえるのかを
簡単に述べよ.
8
統計学Ⅰ(2014) 13章
価格(円)
購入量(個)
i
xi
yi
1
600
4
2
300
4
3
300
8
4
200
8
xi − x

yi − y
( xi − x ) 2
( y i − y ) 2 ( xi − x )( y i − y )
合計
平均
y 標準偏差
x 標準偏差
相関係数r xy
3. x と y のデータが(1)と(2)のように与えられているとき,上問と同様の問いにそれぞれ答えよ.
(1)
(2)
xi
6
8
10
14
14
yi
40
60
70
80
100
xi
1
2
3
5
5
yi
10
10
6
4
2
4.ある5世帯について,1年間の所得額と消費額を調べたら下の表のようになった.所得を x ,消費
を y とするとき,次の問に答えよ.
(1) 散布図を描け.
(2) 所得と消費のそれぞれの平均,分散,標準偏差,および両者の共分散 s xy =
相関係数 rxy =
s xy
sx s y
1 n
∑ ( xi − x )( yi − y ) ,
n i =1
を求めよ.また,相関係数から x と y にどのような関係があるのかを答えよ.
(3) 回 帰 直 線 yˆ i = a + bxi を 求 め よ . a, b に は ど の よ う な 意 味 が あ る か 述 べ よ . た だ し ,
n
b=
∑ (x
i =1
i
− x )( y i − y )
n
∑ (x
i =1
i
, a = y − bx
である.
− x)2
所得(万円)
消費(万円)
i
xi
yi
1
300
300
2
400
250
3
500
350
4
500
350
5
500
350
xi − x
( xi − x ) 2

yi − y
( yi − y ) 2
( xi − x )( y i − y )
合計
平均
-
-
x 標準偏差
y 標準偏差
相関係数r xy
9
統計学Ⅰ(2014) 13章
5.A株とB株のある5か月の株価変化率(%)を調べたら下の表のようになった.A株の株価変化率
を x ,B株の株価変化率を y とする.
(1) 散布図を描け.
(2) A 株 と B 株 の 株 価 変 化 率 の そ れ ぞ れ の 平 均 , 分 散 , 標 準 偏 差 , お よ び 両 者 の 共 分 散
s xy =
s xy
1 n
を求めよ.また,相関係数からA株とB株の株価変化
( xi − x )( y i − y ) ,相関係数 rxy =
∑
sx s y
n i =1
率にどんな関係があるのかを答えよ.
(3) 回 帰 直 線 yˆ i = a + bxi を 求 め よ . a, b に は ど の よ う な 意 味 が あ る か 述 べ よ . た だ し ,
n
b=
∑ (x
i =1
i
− x )( y i − y )
n
∑ (x
i =1
i
, a = y − bx
である.
− x)2
(4) 推定値 yˆ i ,残差 ei およびその2乗 ei2 を求めよ.決定係数も求めよ.
xi − x
yi
i
xi
1
1
2
2
2
3
3
3
3
4
4
3
5
5
5
( xi − x ) 2

yi − y
( yi − y ) 2
( xi − x )( y i − y )
yˆ i
ei2
ei
合計
平均
-
-
x 標準偏差
y 標準偏差
相関係数r xy
決定係数R2
6.教科書 練習問題1(363 ページ)
価格(円)
購入量(個)
i
xi
yi
1
240
2
2
160
3
3
120
7
4
80
10
xi − x
( xi − x ) 2

yi − y
( yi − y ) 2
( xi − x )( y i − y )
yˆ i
ei2
ei
合計
平均
x 標準偏差
y 標準偏差
10
統計学Ⅰ(2014) 13章
7.教科書 練習問題2(363 ページ)
xi − x
所得(万円) 消費(万円)
xi
i
1
2
3
4
5
合計
平均
yi
300
350
350
400
450
300
400
500
500
500
yi − y
( xi − x ) 2
( y i − y ) 2 ( xi − x )( y i − y ) 推定値 yˆ i
残差
ei2
ei = y i − yˆ i
sy
sx
8.右下の表のデータは,ある5人の1年間の所得(単位:万円)と消費(単位:万円)のデータである.ページ下の表
を埋めながら以下の問いに答えよ.
(1)
x(所得,万円)
400
500
550
600
700
y(消費,万円)
300
400
500
500
500
x と y の散布図を描け.ただし,縦軸と横軸に何をとった
のかを明示し,適当に目盛りもつけること.
(2)
x と y の平均 x =
1
n
n
∑
xi , y =
i =1
1
n
n
∑
y i ,分散 s x2 =
i =1
1
n
n
∑
( x i − x ) 2 , s 2y =
i =1
1
n
n
∑(y
i
− y ) 2 ,標準偏差
i =1
s x = s x2 , s y = s 2y を求めよ.
(3)
n
x の平均からの偏差の合計
∑ (x
− x ) を求めよ.
i
i =1
(4)
n
y の平均からの偏差平方和
∑(y
i =1
i
− y) 2
を求めよ.
(5)
所得 x がすべて 1.2 倍になった場合の平均・分散・標準偏差を求めよ.
(6)
消費 y がすべて 20 万円減少した場合の平均・分散・標準偏差を求めよ.
(7)
y の基準化変量 z i =
(8)
(7)の基準化変量の平均・分散・標準偏差を求めよ.
(9)
y の偏差値 10 z i + 50 を求めよ(合計・平均の欄を含めて,表の右側に答えよ)
.
xi
yi
1
400
300
2
500
400
3
550
500
4
600
500
5
700
500
yi − y
を求めよ(合計・平均の欄を含めて,表の右側に答えよ)
.
sy
xi − x
( xi − x ) 2
yi − y
( yi − y) 2
( x i − x )( y i − y )
(7)
(9)
y 基準化
y 偏差値
合計
平均
-
-
11
統計学Ⅰ(2014) 13章
(10)
(11)
(12)
(9)の偏差値の平均・分散・標準偏差を求めよ.
x と y の共分散 s xy =
∑ (x
i
− x )( y i − y ) を求めよ.
i =1
s xy
x と y の相関係数 rxy =
(13)
(14)
n
1
n
sx s y
を求めよ.
(12)の相関係数から,この x と y の関係についてどのようなことがいえるのかを簡単に述べよ.
y を x で回帰したときの回帰直線
n
b=
∑ (x
i =1
− x )( y i − y )
i
n
∑ (x
i =1
i
− x)
yˆi = a + bxi を最小2乗法によって求めよ.ただし,最小2乗推定値は,
, a = y − bx である( yˆi = a + bxi の形で答えよ).
2
(15)
この b の値からどのようなことがわかるか.簡単に述べよ.
(16)
x 2 = 500 に対する推定値 yˆ 2 と残差 e2 = y 2 − yˆ 2 を求めよ.
(17)
決定係数 R を求めよ.その結果,どのようなことが言えるか,簡単に述べよ.
2
9.右の表のデータは,ある商品の価格(単位:円)と購入量(単位:個)のデータである.下の表を埋めながら以下の
問いに答えよ.
xi
yi
1
35
10
2
45
10
3
50
10
4
55
8
5
65
6
xi − x
yi − y
( xi − x ) 2
( yi − y) 2
x(価格,円)
35
45
50
55
65
y(購入量,個)
10
10
10
8
6
( x i − x )( y i − y )
(7)
(9)
y 基準化
y 偏差値
合計
平均
-
-
(1) x と y の散布図を描け.ただし,縦軸と横軸に何をとったのかを明示し,適当に目盛りもつけること.
(2) x と y の平均 x =
標準偏差 s x =
1
n
n
∑
xi , y =
i =1
n
∑
1
n
y i ,分散 s x2 =
i =1
1
n
n
∑
( x i − x ) 2 , s 2y =
i =1
1
n
n
∑(y
i
− y) 2 ,
i =1
s x2 , s y = s 2y を求めよ.
(3) x の平均からの偏差の合計
n
∑ (x
− x ) を求めよ.
i
i =1
(4) y の平均からの偏差平方和
n
∑(y
i =1
i
− y) 2
を求めよ.
(5) 価格 x がすべて 0.8 倍になった場合の平均・分散・標準偏差を求めよ.
12
統計学Ⅰ(2014) 13章
(6) 購入量 y がすべて 2 個増加した場合の平均・分散・標準偏差を求めよ.
yi − y
を求めよ(合計・平均の欄を含めて,表の右側に答えよ)
.
sy
(7) y の基準化変量 z i =
(8) (7)の基準化変量の平均・分散・標準偏差を求めよ.
.
(9) y の偏差値 10 z i + 50 を求めよ(合計・平均の欄を含めて,表の右側に答えよ)
(10) (9)の偏差値の平均・分散・標準偏差を求めよ.
(11) x と y の共分散 s xy =
1
n
(12) x と y の相関係数 rxy =
n
∑ (x
i
− x )( y i − y ) を求めよ.
i =1
s xy
sx s y
を求めよ.
(13) (12)の相関係数から,この x と y の関係についてどのようなことがいえるのかを簡単に述べよ.
(14) y を x で回帰したときの回帰直線
n
b=
∑ (x
i =1
i
− x )( y i − y )
n
∑ (x
i =1
i
− x)
yˆi = a + bxi を最小2乗法によって求めよ.ただし,最小2乗推定値は,
, a = y − bx である( yˆi = a + bxi の形で答えよ).
2
(15) この b の値からどのようなことがわかるか.簡単に述べよ.
(16)
x3 = 50 に対する推定値 yˆ 3 と残差 e3 = y 3 − yˆ 3 を求めよ.
(17) 決定係数 R を求めよ.その結果,どのようなことが言えるか,簡単に述べよ.
2
10.教科書 練習問題3(363 ページ)
11.教科書 練習問題5(364 ページ)
12.教科書 練習問題6(365 ページ)
13