1 変数,総和の記号(宿題)— HW (1)(統計学基礎 §0.2–§0.4) (解答例) 1. 変数の分類 (a) 講義用 Web site http://www.yoshizoe-stat.jp/mva/data/contents.html に掲載さ れている Boston Housing Data (bonstonh.dat) について (1) 変数 X1 から X14 のうち,質的変数(カテゴリカルデータ)は X4 Charles River (1 if tract bounds river, 0 otherwise). 0/1 と数値化されているが,数値そのものには意味がない.なお,Charles River は Boston と Cambridge の境界をなす川で,毎年,Harvard vs Yale のボートレースが行 われる. (2) 離散型量的は X9 (アクセシビリティを段階で表示している).段階ではなく,職業別 の分類コードのように数値の大きさに意味がない変数であれば「質的」 その他の変数はすべて「連続型量的」.判断のためには変数の定義を確認すること,い くつか実際の数値を見ること. C=categorical, Qc=quantitative/continuous, Qd=quantitative/discrete Qc X1: per capita crime rate, Qc X2: proportion of residential land zoned for large lots, Qc X3: proportion of nonretail business acres, C X4: Charles River (1 if tract bounds river, 0 otherwise), Qc X5: nitric oxides concentration, Qc X6: average number of rooms per dwelling, Qc X7: proportion of owner-occupied units built prior to 1940, Qc X8: weighted distances to five Boston employment centers, Qd X9: index of accessibility to radial highways, Qc X10: full-value property tax rate per $10,000, Qc X11: pupil/teacher ratio , Qc X12: 1000(B - 0.63)^2 I(B < 0.63) where B is the proportion of blacks, (I: indicator function) Qc X13: % (percentage) of lower status of the population, Qc X14: median value of owner-occupied homes in $1000. (3) X9 は離散的な量的変数であり,その分布の表現には棒グラフが用いられる.連続的な 変数として表現されるアクセシビリティの尺度も広く利用される.その表現はヒスト グラムが適当である. 詳しい解説は,参考資料にあげた「ips」の第1章「データをよく見る:分布」を参照 のこと. (b) 講義用 Web site statistics_1_1.pdf の 27 ページ. • 「練習問題 1.1」 (a) データセットの個体:データの各行が「個体 individual / observation」を表して いる.この問題では, 「メーカーと車種」と記されている自動車の種類である. (b) 変数は「車のタイプ」から「燃費」の 5 つ.なお「メーカーと車種」は個体の識別 符号 ID であり, 「変数ではない」ことに注意. カテゴリカル変数は「車のタイプ」と「変速機のタイプ」の 2 つ. • 「練習問題 1.2」 個体は「統計の授業を受けていた生徒」,変数は「専攻」 「点数」 「評価」の 3 つ,その うちカテゴリカル変数(質的変数)は「専攻」と「評価」,量的変数は「点数」.ここで の評価は A, B, . . . となっていて,これは質的変数.ただし,評価が得点で 60, 75,. . . な どとなっていたら,量的変数である.その区別のためは,評価の定義を確認する必要 がある. 前問と同様, 「氏名」は識別符号であり,分析の対象となる変数ではないことに注意. 2. 数値の組 {a1 , · · · , an } および {b1 , · · · , bn } について, (1) ∑ ∑ ∑ (ai + bi ) = (a1 + b1 ) + . . . + (an + bn ) = (a1 + . . . + an ) + (b1 + . . . + bn ) = ai + bi (2) c を定数とするとき ∑ ∑ (cai ) = ca1 + . . . + can = c(a1 + . . . + an ) = c ai 特別な場合として ai = c (i = 1, . . . , n) とおくと n ∑ c= i=1 (3) 定義から導かれる 偏差の合計は ∑ n ∑ ai = (a1 + . . . + an ) = nc. i=1 xi = nx̄ という表現をしっかり記憶すること.これに注意すると, n ∑ i=1 (xi − x̄) = n ∑ i=1 xi − n ∑ i=1 x̄ = n ∑ i=1 xi − nx̄ = 0 2 第 II 章, III 章 進んだ問題— HW (1a) (1) Jensen の不等式: ( ) (i) f が凸関数なら,任意の a に対して,点 a, f (a) を通る直線 y − f (a) = b(x − a) が f (x) より大きくなるように傾き b を選ぶことができる. (図左) 凸関数 6 y = f (x) f (a) " " " " " " 6 " " " 凹関数 " y = f (a) + b(x − a) " f (a) " " " " " " y = f (a) + b(x − a) " " " - x a " " " y = f (x) " - x a (ii) 凹関数の場合は(図右) ∑ (iii) 任意の関数 g(x) > = 0 に対して, g(xi ) > = 0 となることは明らかである. f (x) が凹関数なら,前問から a = x̄ に対して b を適当に選ぶと f (x̄) + b(xi − x̄) − f (xi ) > =0 ] ∑ ∑ ∑[ f (x̄) + b(xi − x̄) − f (xi ) = nf (x̄) + b (xi − x̄) − f (xi ) = となるから,その合計は ∑ ∑ nf (x̄) − f (xi ) > = 0 となる(途中で (xi − x̄) = 0 という性質を利用している). ∑ (iv) x > 0 の場合,y = log x は凹関数だから,log x̄ > log xi /n となる. = ∑ ∑ (v) 加重平均 x̄w = wi xi / wi に対して,f (x) が凹関数なら適当な b を選んで f (x̄w )+b(x− x̄w )−f (x) > = 0 とできる.x = xi とおけば f (x̄w )+b(xi −x̄w )−f (xi ) > = 0 だから,この式にウ ] ∑ [ ェイト wi > 0 をかけて合計すると非負である.すなわち, wi f (x̄w )+b(xi −x̄w )−f (xi ) = (∑ ) (∑ ) ∑ ∑ ∑ wi f (x̄) − wi f (xi ) > wi f (x̄w ) + b wi (xi − x̄w ) − wi f (xi ) = = 0 となる ∑ ∑ ∑ ここではウェイトつき偏差合計について, wi (xi − x̄w ) = wi xi − wi x̄w = 0 という ∑ ∑ 性質を利用している( wi xi = ( wi )x̄w に注意). ∑ 対数関数 log x が凹関数であることから,加重算術平均 x̄w について,log x̄w > = wi log xi = ∏ i log Gw となる(Gw = xw i が加重幾何平均の定義). なお,すべての xi が等しい倍に限って等号が成立する. (vi) y = 1/x は x > 0 の範囲で凸関数だから,同様の議論で算術平均 x̄ は調和平均 H = )−1 (∑ (∑ −1 )−1 wi x−1 xi /n より大きい.さらに,加重算術平均 x̄w は加重調和平均 Hw = i より大きい. (2) 中央値の性質:簡単のため,観測値はすべて異なる場合について示す.いま x1 < x2 < · · · < xn ∑ とする.g(m) = ni=1 |xi − m| の,区間 xk < m < xk+1 における形を調べると,それは次のよ うに直線である. g(m) = ∑ (m − xi ) + i<k = (2k − n)m − ∑ (xi − m) = km − i>k ∑ i<k xi + ∑ i>k ∑ i<k xi xi + ∑ i>k xi − (n − k)m その傾き (2k − n) は k < n/2 なら負,k > n/2 なら正である.すなわち g(m) は xk < m < xk+1 において k < n/2 なら減少関数,k > n/2 なら増加関数である. 数学が苦手な学生は,n = 2 および n = 3 の場合について,y = g(m) のグラフを描くとよい. 等しい観測値が存在する場合は,問題文のように k1 , k2 を定義すればよい.上記では k1 = k, k2 = n − k となる. 以下は明らかだから解説は省略する. (i) n が奇数のとき m = xk (k = (n + 1)/2) は g(m) を最小にすることを示せ. (ii) n が偶数のとき xk < = xk+1 (k = n/2) を満たす m は g(m) を最小にすることを示せ. =m< (注)中央値は,#{xi < m} < n/2 かつ #{xi > m} < n/2 を満たす m として定義される.
© Copyright 2024 ExpyDoc