第 (3) 回 : 記述統計(散布図,相関,回帰,変数の変換と対称化・線形化

経済と経営のための統計学
2015 年度 美添泰人
第 (3) 回 : 記述統計(散布図,相関,回帰,変数の変換と対称化・線形化,外れ値)
Reading Assignment : 統計入門 IV 章 1 節と 2 節,3 節は概観だけ
位置の尺度(補足)
(1) 加重(算術)平均:
∑
Wi xi ∑
=
wi xi
x̄w = x̄w = ∑
Wi
∑
∑
ただし Wi > 0, wi = Wi /( j Wj ).このとき i wi = 1 となる
以下の例は Laspeyres (ラスパイレス)価格指数,消費者物価指数の算式.0 時点と 1 時点の
比較.
p,q
p0
p1
q0
q1
A
20
24
3
3
B
30
27
4
5
支出額
C
40
32
3
6
0 時点
1 時点
A
60
72
B
120
135
C
120
192
計
300
399
p1 /p0
w
v
A
120
0.2
0.18
B
90
0.4
0.34
C
80
0.4
0.48
∑ 1 0
∑ 1 0
p i qi
(pi /pi ) · Wi ∑ p1i
i
=
wi 0
PL = ∑ 0 0 = i ∑
pi
i Wi
i p i qi
i
∑
ただし pti , qit は t 時点の価格と数量,Wi = p0i qi0 , wi = Wi / i Wi とする.
(2) もう一つの物価指数:例は Paasche (パーシェ)価格指数,GDP 物価指数.0 時点と 1 時点
の比較.
{
}−1
∑ 1 1
∑
∑ ( p1 )−1
p i qi
Vi
i
i
i
PQ = ∑ 0 1 = ∑ 0 1
=
vi
p0i
i p i qi
i (pi /pi ) · Vi
i
∑
q q
ただし Vi = pi qi , vi = Vi / i Vi とする.
(これは加重(調和)平均である)
√∏
∑
xi
(3) 幾何平均:成長率など,対数の平均 log G = ( log xi )/n,すなわち G = n
(∑
)/ ∑
加重平均は log Gw =
wi log xi
wi
(4) 幾何平均:物価指数の例(3 種類の飲料,下の表)で幾何平均と算術平均を比較する.
価格
0 時点
1 時点
2 時点
A
100
50
100
B
100
200
100
C
100
100
100
前期比
A
.5
2
1 時点
2 時点
B
2
.5
C
1
1
(5) 以下の例で平均時速を求めよ.
• 時速 x の算術平均 x̄ = (30 + 60 + 40)/3 = 43.3 は正しくない.
• 平均時速は 距離/時間)
例1
1 区間
2 区間
3 区間
時速 x
距離 w
30
60
40
120
120
120
例2
時速 x
距離 w
30
60
40
60
120
80
1 区間
2 区間
3 区間
∑
例 1(同じ距離)
:(120 + 120 + 120)/(120/30 + 120/60 + 120/40) = n/ (1/xi )
∑
∑
例 2(異なる距離)
:(60 + 120 + 80)/(60/30 + 120/60 + 80/40) =
wi / wi (1/xi )
1
(6) 調和平均:逆数の平均.H −1 =
∑
(∑
)/ ∑
/
−1
−1
x−1
n
,加重平均は
H
=
w
x
wi
i
w
i
i
(7) 刈込み平均 (α-trimmed mean):x̄α ,両端の α ずつを切落した,(1 − 2α)n 個の観測値の平均
(8) 線形変換 y = a + bx と平均,メディアンの関係:ȳ = a + bx̄, My = a + bMx , ȳα = a + bx̄α
ちらばりの尺度
(1) ちらばり:標準偏差 (s.d. : standard deviation) .s =
∑
(2) ちらばり:平均偏差.d = n1
|xi − x̄|,
√ ∑
1
n
(xi − x̄)2
(3) 平均偏差と標準偏差の意味について,初等的解説
1∑
1 ∑
(4) 分散:s2 =
(xi − x̄)2 .なお,一般に用いられる定義として s2 =
(xi − x̄)2 (不
n
n−1
√
√∑
偏分散)もある.その場合の標準偏差は s = s2 =
(xi − x̄)2 /(n − 1)
∑
∑
(5) 偏差平方和の別な表現: (xi − x̄)2 =
x2i − nx̄2
∑
∑ 2
(6) 分散の計算法: (xi − x̄)2 =
xi − nx̄2 , 仮平均の利用: {x1 , x2 , x3 } = {100, 100, 101} とし
∑
∑
て,仮平均 m = 100 を用いる.u = x − m について, u2i − ( u)2 /n を計算する例を学ぶ.
1 変数の分析手法(補足)
(1) x を 1 次式で y = a + bx と変換したときの平均,分散,標準偏差:
ȳ = a + bx̄,
s2y = b2 s2x ,
sy = |b|sx
(2) 仮平均の利用: {x1 , x2 , x3 } = {100, 100, 101} として,仮平均 m = 100 を用いる.u = x − m
∑
∑
について, u2i − ( u)2 /n を計算する例で有用性を確かめる.
(3) 標準化(基準化,standardization):各観測値について z =
z̄ = 0, s2z = 1 を確かめる.
(4) 変動係数 (cv, coefficient of variation),cv =
x − x̄
と 1 次式で変換する.
s
s
.安定的な散らばりの尺度.品目別価格の変
x̄
動比較・全国物価統計調査の例
http://www.econ.aoyama.ac.jp/~yasuto_yoshizoe/econstat/stat200209.pdf
(5) モーメント, r 次のモーメント(積率)r = 1, 2, · · ·
∑ r/
x n.m′1 = x̄ は算術平均
原点まわりの積率:m′r =
/
∑ i
平均まわりの積率:mr = (xi − x̄)r n.m2 = s2 は分散
(6) 歪み:歪度, skewness:b1 = m3 /s3 (s =
√
m2 は標準偏差)
(7) 尖度, kurtosis :b2 = m4 /s4 (b2 − 3 を尖度と呼ぶ流儀もあるので注意)
2 変数の分析手法
参考:教科書 IV.1-2,ips chap. 2
(1) 散布図の読み方:1 変数の視点と 2 変数の視点,関係の存在,線形性(非線形性).
統計入門 IV p. 66–74, ips 2 章 p. 123–145,データの変換(放送大学教材)
http://www.yoshizoe-stat.jp/stat/textbook/transform.pdf
(2) 集計データの散布図とミクロデータの散布図:
「全国消費実態調査の意義と特長 (pdf) 」参照.
2
(3) 相関の概念:正の相関・負の相関,弱い相関・強い相関
∑
(4) 共分散の概念:sxy = (xi − x̄)(yi − ȳ)/n, (n − 1) で割る流儀もある.
(5) 分散と共分散の比較:s2x = sxx (x x の共分散は x の分散)
(6) 相関係数.簡単な定義の例:(n+ − n− )/n
(7) Pearson の相関係数: r = sxy /(sx sy ),線形性と単調性
(8) r の別な表現:x, y を基準化した変数を u = (x − x̄)/sx , v = (y − ȳ)/sy とするとき,u と v の
共分散が r = suv である.これを用いると (u ± v)2 /n = u2 /n ± 2uv/n + v 2 /n = 2(1 ± uv/n) =
2(1 ± r) ≥ 0, だから −1 ≤ r ≤ 1 が分かる.
(9) Spearman の順位相関係数: ρ (順位相関係数には Kendall の相関係数: τ もある.
)
(10) 注意点:(1) 因果関係,(2) 非線形性,(3) 偏った標本, (4) 方向がない, (5) 外れ値の影響
(11) 回帰分析の基本的な考え方.方向がある:説明変数と従属変数 x =⇒ y
∑
(12) 回帰直線のあてはめ:最小二乗法 (OLS), (yi − a − bxi )2 = min!
∑
(13) 回帰直線のあてはめ:最小絶対値法 (L1 ), |yi − a − bxi | = min!
∑
(14) さらに一般的な手法: ρ(yi − a − bxi ) = min!,ρ(x) = x2 , ρ(x) = |x| など
(15) 外れ値の影響:対称な分布では比較的わかりやすい.歪んだ分布の場合は注意が必要.データ
の変換(放送大学教材)p. 114–122.
(16) 回帰の現象,回帰の錯誤:統計学基礎 4.6.2 (p.33–) 「参考資料(受講者のみ)」に下書きを掲
載.統計学基礎 (草稿) 第 4 章.
(17) 当てはまりの尺度:R, r
(18) 変数変換の手法(1 変数ヒストグラムの対象化,2 変数散布図の線形化): Web 「その他の
教材」にある「変数の変換」
コンピュータによる演習
(1) ヒストグラムの描き方(R による).cars.R で利用するデータ cars.txt
(2) ヒストグラム:階級の数,階級幅の設定
(3) 箱ヒゲ図の描き方(R による)
(4) 複数のデータセットを比較するためのヒストグラムと箱ヒゲ図
(5) ヒストグラムの情報を箱ヒゲ図が表現できない例:geyser (geyser.R, geyser.txt)
(6) 変数変換と対称性 : 経済変数(所得,資産など)
(7) 相関係数の計算と読み方 corr_and_normal.R
(8) 回帰直線のあてはめと解釈.外れ値についての注意
(9) 変数変換と線形性 : bacteria (bacteria.R, bacteria.txt ), cars など
3