wi - 美添泰人のホームページ

コンピュータによる統計分析
2014 年度 美添泰人
9/16 : 記述統計(位置とちらばりの尺度,箱ヒゲ図)
Reading Assignment : 統計入門 III 章全体
(1) 深度 (depth),四分位点 (quartile),中央値(中位数 median),五数要約 (five-number summary):
資料の整理 p.29, 37,ips p.53
(2) 箱ヒゲ図 (box-and-whisker plot / box plot):資料の整理 p.31,ips p.53,56,71
PC 室でも解説する
(3) パーセント点 (percentile),分位点 (quartile):統計入門 p.50–52,資料の整理 p.35
(4) 位置 (location) の尺度・散らばり (dispersion) の尺度とヒストグラム(度数分布)との対応:資
料の整理 p.29, 37,ips p.53
(5) 算術平均:式,解釈(重心),偏差の合計,偏差を最小にする値:統計入門 III.2
(6) 度数分布表からの算術平均の計算:統計入門 III.2(p.47–48)
(7) 加重(算術)平均:
x¯w =
∑ Wi xi
= ∑ wi xi
∑ Wi
ただし Wi > 0, wi = Wi /(∑ j W j ).このとき ∑i wi = 1 となる
以下の例は Laspeyres (ラスパイレス)価格指数,消費者物価指数の算式.0 時点と 1 時点の
比較.
p,q
p0
p1
q0
q1
A
20
24
3
3
B
30
27
4
5
支出額
C
40
32
3
6
0 時点
1 時点
PL =
A
60
72
B
120
135
C
120
192
計
300
399
p1 /p0
w
v
A
120
0.2
0.18
B
90
0.4
0.34
C
80
0.4
0.48
p1i
∑i p1i q0i
∑i (p1i /p0i ) ·Wi
=
=
w
i
∑ p0
∑i Wi
∑i p0i q0i
i
i
ただし pti , qti は t 時点の価格と数量,Wi = p0i q0i , wi = Wi /∑i Wi とする.
(8) もう一つの物価指数:例は Paasche (パーシェ)価格指数,GDP 物価指数.0 時点と 1 時点の
比較.
( 1 )−1
pi
∑i Vi
∑ p1 q1
PQ = i 0i 1i =
=
v
i
∑
0 /p1 ) ·V
p
q
(p
p0i
∑i i i
∑i i i
i
i
q q
ただし Vi = pi qi , vi = Vi /∑i Vi とする.
(これは加重(調和)平均である)
√
(9) 幾何平均:成長率など,対数の平均 log G = (∑ log xi )/n,すなわち G = n ∏ xi
(
)/
加重平均は log Gw = ∑ wi log xi
∑ wi
(10) 幾何平均:物価指数の例(3 種類の飲料,下の表)で幾何平均と算術平均を比較する.
価格
0 時点
1 時点
2 時点
A
100
50
100
B
100
200
100
C
100
100
100
前期比
1 時点
2 時点
A
.5
2
1
B
2
.5
C
1
1
(11) 以下の例で時速 x1 , x2 , x3 の算術平均は正しくない.平均時速は 距離/時間.
例1
1 区間
2 区間
3 区間
時速 x
距離 w
30
60
40
120
120
120
例2
1 区間
2 区間
3 区間
時速 x
距離 w
30
60
40
60
120
80
例 1(同じ距離)
:(120 + 120 + 120)/(120/30 + 120/60 + 120/40) = n/ ∑(1/xi )
例 2(異なる距離)
:(60 + 120 + 80)/(60/30 + 120/60 + 80/40) = ∑ wi / ∑ wi (1/xi )
(
)/
/
(12) 調和平均:逆数の平均.H −1 = ∑ xi−1 n,加重平均は Hw−1 = ∑ wi xi−1 ∑ wi
(13) メディアン (m),四分位点,パーセント点.グラフとの関係,(n + 1)/2 の公式
四分位は n′ = [(n + 1)/2] として (n′ + 1)/2 の公式(ただし [ ] は切り捨ての記号で [3.5] は 3 で
ある).同様に八分位も n′′ = [(n′ + 1)/2] として (n′′ + 1)/2
(14) 切落し平均 (α -trimmed mean):x¯α ,両端の α ずつを切落した,(1 − 2α )n 個の観測値の平均
(15) 線形変換 y = a + bx と平均,メディアンの関係:y¯ = a + bx,
¯ ym = a + bxm , y¯α = a + bx¯α
(16) ちらばり:平均偏差 (m.d. : mean deviation) d = 1n ∑ |xi − x|
¯
√
(17) ちらばり:標準偏差 (s.d. : standard deviation) .s = 1n ∑(xi − x)
¯2
(18) 平均偏差と標準偏差の意味について,初等的解説
1
1
(19) 分散:s2 = ∑(xi − x)
¯ 2 .なお,一般に用いられる定義として s2 =
(xi − x)
¯ 2 もある.
n
n−1 ∑
(20) 分散の計算法:∑(xi − x)
¯ 2 = ∑ xi2 − nx¯2 , 仮平均の利用: {x1 , x2 , x3 } = {100, 100, 101} として,仮
平均 m = 100 を用いる.u = x − m について,∑ u2i − (∑ u)2 /n を計算する例は後述する.
2
コンピュータによる演習
7 時限の内容
教室:I-104
(1) 先週の課題について,確認
(2) 統計解析ソフトウェア R の入門.
(2-1) R の起動と終了.
(2-2) 最初の注意: getwd( ), setwd( ) とデータ・プログラムの保存場所
(2-3) (高機能)卓上計算機としての利用
(2-4) データの入力方法,変数の指定,データ構造と dataframe,その他.
(3) R script の利用
(3-1) 「ファイル」∼ 「新しいスクリプト」.適当に編集後,名前をつけて保存(拡張子は .R
とする).
(3-2) スクリプトの実行:カーソル行なら Ctrl-R
(3-3) スクリプトの実行:範囲を選択して Ctrl-R
(3-4) 慣れた editor があれば,あらかじめ編集したプログラムをコピーしても良い
(3-5) 物価指数の計算:Rのプログラム例 : price_indexes2.R
(3-6) 参考例:Rのプログラム例 : ta01_004.R で利用するデータ ta01_004.txt を setwd( )
で指定したフォルダにおく.本日の例は,グラフ機能を紹介する意味に留める.
•
•
•
•
•
データの読込み read.table( )
時系列データへの変換 ts( )
ヒストグラム作成 hist( )
散布図作成 plot( )
回帰分析 lm( ) と回帰直線 abline( )
データ解析演習
Excel で出来るものに加えて,R の利用を想定する.
(1) 1 変量データ:ヒストグラム eg01_004.R (通話時間)
(2) 1 変量データ:箱ヒゲ図の利用例 (car data, geyser data)
3