土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之 Sample Population 母集団の平均値(母平均) 母集団の分散(母分散) 2 母集団中のある値の比率(母比率) p 標本平均 X 標本分散(不偏分散) U 2 標本中の比率 P ? わからない! 標本調査において,母集団の平均や分散などを直接知ることは できない. 標本から母集団のパラメータを推定するための手法 統計的推定手法 (Statistical estimation) 標本調査における利用法 ・必要な標本数の算出 ・推定値の信頼区間の算定 統計的手法を用いれば,標本調査でも十分実用に耐える 結果を出すことができる. 統計理論の復習 収集されたデータから特性を明らかにする. 度数分布表(Frequency table) データが取り得る値をいくつかの区間に分けておき(カテゴライズ), 各カテゴリーに該当するデータの個数(度数)を表にまとめる. ヒストグラム:度数分布を度数を高さとする長方形で表したグラフ (Histogram) 15 身長 140cm~150cm 150cm~160cm 160cm~170cm 170cm~180cm 180cm~190cm 度数 2 8 18 10 3 度 数 10 5 0 150.00 160.00 170.00 v a r 00001 180.00 代表値の例 標本平均(sample mean) n X f i xi i 1 n xi (i 1,2,..., n) i 番目の観測値 fi i 番目の観測値の度数 パーセンタイル(percentile) P( X Qp ) p メディアン(中央値)(median)m P( X m) 0.5 50パーセンタイル値 モード(mode)(最頻値) 度数が最大となる観測値 Q0 .5 散布度(dispersion)の指標 2 f { x x } i i 2 分散 sx n (variance) 2 f x i i fi xi fi 2 2 x x n n n 2乗の平均-平均の2乗 標準偏差 (standard deviation) sx sx2 変動係数 (coefficient of variation) sx CV x 複数の調査項目間の相関の有無の検討 クロス集計表(p80) 共分散 (covariance) sxy fij{xi x}{ y j y} i 相関係数 (correlation coefficient) j n r s xy sx s y 大数の法則(law of large numbers) 同一の確率分布(期待値μ,標準偏差σ)に従うn個の 確率変数X1,X2,…,Xnの標本平均 n xi x i 1 n は,nが大きくなれば,限りなくμに近づく. 観測数を増やせば,より正確な期待値の推定が可能となる. 後の統計的推測に重要 さいころの目の標本平均の推移 (エクセルによる計算) 6 5.5 5 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 1 16 31 46 61 76 91 106 121 136 151 166 181 196 回数が増えるほど,母平均3.5に収束 正規分布(ガウス分布)(normal distribution) 2 1 (x ) exp 確率密度関数 p X ( x) 2 2 2 期待値 N ( , ) 2 x2 p X ( x) exp 2 2 1 期待値0,分散1の場合 標準正規分布 N (0,1) 正規分布の 分布関数の値 分散 x を正規分布表に当てはめる 配布資料参照 0.4 N (0,1) 0.3 確率密度関数 0.2 0.1 -4 -2 2 4 1 0.8 0.6 分布関数 0.4 0.2 -4 -2 2 4 正規分布が重要な理由 1.観測誤差の分布がよく適合する. 平均を中心に,左右に同じように 広がっている 例1:部材の強度 平均よりも強い部材,弱い部材が存在 例2:離散選択モデル (個人が複数の選択肢から一つを選択する過程をモデル化) 誤差が正規分布 プロビットモデル 正規分布が重要な理由 2.中心極限定理(central limit theorem) 同一の確率分布(期待値μ,標準偏差σ)に従うn個の 確率変数X1,X2,…,Xnの標本平均 n xi i 1 x n は,nが大きくなれば,正規分布N(μ,σ2/n)に従う. X1,X2,…,Xnがどのような確率分布に従う場合も成立する. 後の統計的推測に重要 母集団:直接すべて調べることができない集団 母数: 母集団の特性値 (平均,分散など) 正確に 真の母数を 知ることはできない 標本:調査可能な,限られた数の集団 母集団の一部 統計的推計手法:標本から母数を推定するための手法 確率的推定の前提:大数の法則と中心極限定理 大数の法則 同一の確率分布(期待値μ,標準偏差σ)に従うn個の 確率変数X1,X2,…,Xnの標本平均は,nが大きくなれば, 限りなくμに近づく. 観測数を増やせば,より正確な期待値の推定が可能となる. 中心極限定理 同一の確率分布(期待値μ,標準偏差σ)に従うn個の 確率変数X1,X2,…,Xnの標本平均は,nが大きくなれば, 正規分布N(μ,σ2/n)に従う. X1,X2,…,Xnがどのような確率分布に従う場合も成立する. 不偏推定量 期待値が母数に一致するような推定量 =何度も標本抽出して当該の値を求めることを多数回 繰り返せば目的とする母数に近づいてゆくような推定量 xi x 母平均の不偏推定値=標本平均 n 母分散の不偏推定値 S 2 (x x) i n 1 2 点推定 母数をある一つの値として推定する 最尤推定法 観測値:x1,x2,…,xn 母数がθの場合に, 観測値の組(x1,x2,…,xn)が 実現する確率 L( ) f ( x1; ) f ( x2 ; )... f ( xn ; ) 母数θのもっともらしさ...尤度関数 n f ( xi ; ) L( ) i 1 L(1) L( 2 ) 2 よりも 1 の方が標本が生起する確率が大きい 1 の方が母数として現実的(もっともらしい) 「もっともらしさ」が最大となる母数θを求める(尤度関数の最大化) 最尤推定法 対数尤度関数 n n lnL( ) ln f ( xi ; ) ln f ( xi ; ) i 1 i 1 実際は対数尤度関数を最大化
© Copyright 2024 ExpyDoc