コンピュータによる統計分析 2014 年度 美添泰人 9/16 : 記述統計(位置とちらばりの尺度,箱ヒゲ図) Reading Assignment : 統計入門 III 章全体 (1) 深度 (depth),四分位点 (quartile),中央値(中位数 median),五数要約 (five-number summary): 資料の整理 p.29, 37,ips p.53 (2) 箱ヒゲ図 (box-and-whisker plot / box plot):資料の整理 p.31,ips p.53,56,71 PC 室でも解説する (3) パーセント点 (percentile),分位点 (quartile):統計入門 p.50–52,資料の整理 p.35 (4) 位置 (location) の尺度・散らばり (dispersion) の尺度とヒストグラム(度数分布)との対応:資 料の整理 p.29, 37,ips p.53 (5) 算術平均:式,解釈(重心),偏差の合計,偏差を最小にする値:統計入門 III.2 (6) 度数分布表からの算術平均の計算:統計入門 III.2(p.47–48) (7) 加重(算術)平均: x¯w = ∑ Wi xi = ∑ wi xi ∑ Wi ただし Wi > 0, wi = Wi /(∑ j W j ).このとき ∑i wi = 1 となる 以下の例は Laspeyres (ラスパイレス)価格指数,消費者物価指数の算式.0 時点と 1 時点の 比較. p,q p0 p1 q0 q1 A 20 24 3 3 B 30 27 4 5 支出額 C 40 32 3 6 0 時点 1 時点 PL = A 60 72 B 120 135 C 120 192 計 300 399 p1 /p0 w v A 120 0.2 0.18 B 90 0.4 0.34 C 80 0.4 0.48 p1i ∑i p1i q0i ∑i (p1i /p0i ) ·Wi = = w i ∑ p0 ∑i Wi ∑i p0i q0i i i ただし pti , qti は t 時点の価格と数量,Wi = p0i q0i , wi = Wi /∑i Wi とする. (8) もう一つの物価指数:例は Paasche (パーシェ)価格指数,GDP 物価指数.0 時点と 1 時点の 比較. ( 1 )−1 pi ∑i Vi ∑ p1 q1 PQ = i 0i 1i = = v i ∑ 0 /p1 ) ·V p q (p p0i ∑i i i ∑i i i i i q q ただし Vi = pi qi , vi = Vi /∑i Vi とする. (これは加重(調和)平均である) √ (9) 幾何平均:成長率など,対数の平均 log G = (∑ log xi )/n,すなわち G = n ∏ xi ( )/ 加重平均は log Gw = ∑ wi log xi ∑ wi (10) 幾何平均:物価指数の例(3 種類の飲料,下の表)で幾何平均と算術平均を比較する. 価格 0 時点 1 時点 2 時点 A 100 50 100 B 100 200 100 C 100 100 100 前期比 1 時点 2 時点 A .5 2 1 B 2 .5 C 1 1 (11) 以下の例で時速 x1 , x2 , x3 の算術平均は正しくない.平均時速は 距離/時間. 例1 1 区間 2 区間 3 区間 時速 x 距離 w 30 60 40 120 120 120 例2 1 区間 2 区間 3 区間 時速 x 距離 w 30 60 40 60 120 80 例 1(同じ距離) :(120 + 120 + 120)/(120/30 + 120/60 + 120/40) = n/ ∑(1/xi ) 例 2(異なる距離) :(60 + 120 + 80)/(60/30 + 120/60 + 80/40) = ∑ wi / ∑ wi (1/xi ) ( )/ / (12) 調和平均:逆数の平均.H −1 = ∑ xi−1 n,加重平均は Hw−1 = ∑ wi xi−1 ∑ wi (13) メディアン (m),四分位点,パーセント点.グラフとの関係,(n + 1)/2 の公式 四分位は n′ = [(n + 1)/2] として (n′ + 1)/2 の公式(ただし [ ] は切り捨ての記号で [3.5] は 3 で ある).同様に八分位も n′′ = [(n′ + 1)/2] として (n′′ + 1)/2 (14) 切落し平均 (α -trimmed mean):x¯α ,両端の α ずつを切落した,(1 − 2α )n 個の観測値の平均 (15) 線形変換 y = a + bx と平均,メディアンの関係:y¯ = a + bx, ¯ ym = a + bxm , y¯α = a + bx¯α (16) ちらばり:平均偏差 (m.d. : mean deviation) d = 1n ∑ |xi − x| ¯ √ (17) ちらばり:標準偏差 (s.d. : standard deviation) .s = 1n ∑(xi − x) ¯2 (18) 平均偏差と標準偏差の意味について,初等的解説 1 1 (19) 分散:s2 = ∑(xi − x) ¯ 2 .なお,一般に用いられる定義として s2 = (xi − x) ¯ 2 もある. n n−1 ∑ (20) 分散の計算法:∑(xi − x) ¯ 2 = ∑ xi2 − nx¯2 , 仮平均の利用: {x1 , x2 , x3 } = {100, 100, 101} として,仮 平均 m = 100 を用いる.u = x − m について,∑ u2i − (∑ u)2 /n を計算する例は後述する. 2 コンピュータによる演習 7 時限の内容 教室:I-104 (1) 先週の課題について,確認 (2) 統計解析ソフトウェア R の入門. (2-1) R の起動と終了. (2-2) 最初の注意: getwd( ), setwd( ) とデータ・プログラムの保存場所 (2-3) (高機能)卓上計算機としての利用 (2-4) データの入力方法,変数の指定,データ構造と dataframe,その他. (3) R script の利用 (3-1) 「ファイル」∼ 「新しいスクリプト」.適当に編集後,名前をつけて保存(拡張子は .R とする). (3-2) スクリプトの実行:カーソル行なら Ctrl-R (3-3) スクリプトの実行:範囲を選択して Ctrl-R (3-4) 慣れた editor があれば,あらかじめ編集したプログラムをコピーしても良い (3-5) 物価指数の計算:Rのプログラム例 : price_indexes2.R (3-6) 参考例:Rのプログラム例 : ta01_004.R で利用するデータ ta01_004.txt を setwd( ) で指定したフォルダにおく.本日の例は,グラフ機能を紹介する意味に留める. • • • • • データの読込み read.table( ) 時系列データへの変換 ts( ) ヒストグラム作成 hist( ) 散布図作成 plot( ) 回帰分析 lm( ) と回帰直線 abline( ) データ解析演習 Excel で出来るものに加えて,R の利用を想定する. (1) 1 変量データ:ヒストグラム eg01_004.R (通話時間) (2) 1 変量データ:箱ヒゲ図の利用例 (car data, geyser data) 3
© Copyright 2024 ExpyDoc