PowerPoint プレゼンテーション

土木計画学
第3回:10月19日
調査データの統計処理と分析2
担当:榊原 弘之
Sample
Population
母集団の平均値(母平均) 
母集団の分散(母分散)  2
母集団中のある値の比率(母比率) p
標本平均 X
標本分散(不偏分散) U 2
標本中の比率 P
? わからない!
標本調査において,母集団の平均や分散などを直接知ることは
できない.
標本から母集団のパラメータを推定するための手法
統計的推定手法
(Statistical estimation)
標本調査における利用法
・必要な標本数の算出
・推定値の信頼区間の算定
統計的手法を用いれば,標本調査でも十分実用に耐える
結果を出すことができる.
統計理論の復習
収集されたデータから特性を明らかにする.
度数分布表(Frequency table)
データが取り得る値をいくつかの区間に分けておき(カテゴライズ),
各カテゴリーに該当するデータの個数(度数)を表にまとめる.
ヒストグラム:度数分布を度数を高さとする長方形で表したグラフ
(Histogram)
15
身長
140cm~150cm
150cm~160cm
160cm~170cm
170cm~180cm
180cm~190cm
度数
2
8
18
10
3
度
数
10
5
0
150.00
160.00
170.00
v a r 00001
180.00
代表値の例
標本平均(sample
mean)
n
X

f i xi
i 1
n
xi (i  1,2,..., n) i 番目の観測値
fi
i 番目の観測値の度数
パーセンタイル(percentile)
P( X  Qp )  p
メディアン(中央値)(median)m
P( X  m)  0.5
50パーセンタイル値
モード(mode)(最頻値)
度数が最大となる観測値
Q0 .5
散布度(dispersion)の指標
2
f
{
x

x
}
 i i
2
分散
sx 
n
(variance)
2
f
x
 i i
 fi xi
 fi 2

2
x
x
n
n
n
2乗の平均-平均の2乗
標準偏差
(standard deviation)
sx  sx2
変動係数
(coefficient of variation)
sx
CV 
x
複数の調査項目間の相関の有無の検討
クロス集計表(p80)
共分散
(covariance)
sxy 
  fij{xi  x}{ y j  y}
i
相関係数
(correlation coefficient)
j
n
r
s xy
sx s y
大数の法則(law of large numbers)
同一の確率分布(期待値μ,標準偏差σ)に従うn個の
確率変数X1,X2,…,Xnの標本平均
n
 xi
x  i 1
n
は,nが大きくなれば,限りなくμに近づく.
観測数を増やせば,より正確な期待値の推定が可能となる.
後の統計的推測に重要
さいころの目の標本平均の推移
(エクセルによる計算)
6
5.5
5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
1
16 31 46 61 76 91 106 121 136 151 166 181 196
回数が増えるほど,母平均3.5に収束
正規分布(ガウス分布)(normal distribution)
2

1
(x  ) 

exp  
確率密度関数 p X ( x) 
2
2
2 


期待値

N ( , )
2
 x2 
p X ( x) 
exp   
2
 2
1
期待値0,分散1の場合
標準正規分布 N (0,1)
正規分布の
分布関数の値
分散
x   を正規分布表に当てはめる

配布資料参照
0.4
N (0,1)
0.3
確率密度関数
0.2
0.1
-4
-2
2
4
1
0.8
0.6
分布関数
0.4
0.2
-4
-2
2
4
正規分布が重要な理由
1.観測誤差の分布がよく適合する.
平均を中心に,左右に同じように
広がっている
例1:部材の強度
平均よりも強い部材,弱い部材が存在
例2:離散選択モデル
(個人が複数の選択肢から一つを選択する過程をモデル化)
誤差が正規分布
プロビットモデル
正規分布が重要な理由
2.中心極限定理(central limit theorem)
同一の確率分布(期待値μ,標準偏差σ)に従うn個の
確率変数X1,X2,…,Xnの標本平均
n
 xi
i

1
x
n
は,nが大きくなれば,正規分布N(μ,σ2/n)に従う.
X1,X2,…,Xnがどのような確率分布に従う場合も成立する.
後の統計的推測に重要
母集団:直接すべて調べることができない集団
母数:
母集団の特性値
(平均,分散など)
正確に
真の母数を
知ることはできない
標本:調査可能な,限られた数の集団
母集団の一部
統計的推計手法:標本から母数を推定するための手法
確率的推定の前提:大数の法則と中心極限定理
大数の法則
同一の確率分布(期待値μ,標準偏差σ)に従うn個の
確率変数X1,X2,…,Xnの標本平均は,nが大きくなれば,
限りなくμに近づく.
観測数を増やせば,より正確な期待値の推定が可能となる.
中心極限定理
同一の確率分布(期待値μ,標準偏差σ)に従うn個の
確率変数X1,X2,…,Xnの標本平均は,nが大きくなれば,
正規分布N(μ,σ2/n)に従う.
X1,X2,…,Xnがどのような確率分布に従う場合も成立する.
不偏推定量
期待値が母数に一致するような推定量
=何度も標本抽出して当該の値を求めることを多数回
繰り返せば目的とする母数に近づいてゆくような推定量
xi

x
母平均の不偏推定値=標本平均
n
母分散の不偏推定値
S
2
(x  x)


i
n 1
2
点推定
母数をある一つの値として推定する
最尤推定法
観測値:x1,x2,…,xn
母数がθの場合に, 観測値の組(x1,x2,…,xn)が
実現する確率
L( )  f ( x1; ) f ( x2 ; )... f ( xn ; ) 
母数θのもっともらしさ...尤度関数
n
 f ( xi ; )
L( )
i 1
L(1)  L( 2 )
 2 よりも  1 の方が標本が生起する確率が大きい
 1 の方が母数として現実的(もっともらしい)
「もっともらしさ」が最大となる母数θを求める(尤度関数の最大化)
最尤推定法
対数尤度関数
 n
 n


lnL( )   ln
f ( xi ; )  
ln f ( xi ; ) 


 i 1
 i 1

実際は対数尤度関数を最大化
