10/18 平均値と標準偏差、誤差伝搬、最尤法

統計的データ解析 2011
2011.10.18
林田 清
(大阪大学大学院理学研究科)
平均値、標準偏差
n回の(独立な)測定 x1 , x2 ,...., xn 各々の誤差は
わざわざ“標本の”といわないのが普通
1 n
(標本の)平均値 x   xi
n i 1
1 n
2
(標本の)(不偏)分散(=標準偏差 ) s 
(
x

x
)
 i
n  1 i 1
2
2
1 n
*)不偏分散に対して  ( xi  x ) 2を標本分散とよぶこともあるので注意
n i 1
1 n
母集団の平均   lim  xi
n  n
i 1
1 n
2
母集団の分散   lim  ( xi   ) 2
n  n
i 1

その他、中央値、最頻値
標本の分散(標準偏差2) (なぜ n-1で割るのか?)
1 n
平均 x   xi
n i 1
2
2

 xi  x j   
 xi  x j  
二項間の分散の和  ij2   xi  

x

  j 

2
2





 
2
2
1
1
  xi  x j    ( xi  x )  ( x j  x ) 
2
2
1
  ( xi  x ) 2  ( x j  x ) 2  2( xi  x )( x j  x ) 
2
n
n
1
2
2
 ijの平均 sn 
 ij2


n(n  1) i 1 j 1
(i  j )


(不偏)分散sn2
標準偏差sn
n
1


n(n  1) i 1
1
( xi  x ) 2  ( x j  x ) 2  2( xi  x )( x j  x ) 


j 1 2
n
n
n
n
n
1
2

 x i  x   x j  x 
 ( xi  x )  n(n  1) 
n(n  1) i 1
i 1
j 1
n
1

( xi  x ) 2

(n  1) i 1
x  f (u , v,...)
誤差伝播1
1 n

2
 x  lim   ( xi  x ) 2 
n  n
 i 1

 x 
 x 
xi  x (ui  u )    (vi  v )   
 u 
 v 
 x2

1 n 
 x 
 x 
lim  (ui  u )    (vi  v )   
n  n
 u 
 v 
i 1 
測定値u,vの関数としてxが定義
されているとき、xの誤差はu,vの
測定誤差からどう計算(伝播)さ
れるか



2
2
2
1 n 
 x  x 
2  x 
2  x 
lim  (ui  u )    (vi  v )    2(ui  u )(vi  v )    
n  n
 u 
 v 
 u  v 
i 1 

1 n
1 n

2
2
  lim   (ui  u )  ,  v  lim   (vi  v ) 2 
n  n
n  n
 i 1

 i 1

1 n

 uv  lim    (ui  u )(vi  v ) 
共分散 (covariance)
n  n
 i 1

2
u
 x 
 x 
 u2     v2   
 u 
 v 
2
 x2
2
 x  x 
 2 uv    
 u  v 



誤差伝播2
1 n

 uv  lim    (ui  u )(vi  v ) 
n  n
 i 1

 x 
 x 
 u2     v2   
 u 
 v 
2
 x2

 x  x 
 2 uv    
 u  v 
2
uとvが独立のとき(相関がないとき)、共分散
uvはゼロ
 x 
 x 
 u2     v2   
 u 
 v 
2
 x2
2
誤差伝播3

足し算、引き算 。。。誤差は同じ

バックグランドの引き算で誤差が大きくなる
x  u  v あるいは x  u  v  x2   u2   v2

かけ算

相対誤差の大きい成分が全体の誤差を決める
x  uv 2
2




2
2 2
2 2
2 2
u
v
 x  uv v u  u v  2  2 
v 
u
平均値の誤差(Error)、不確かさ(Uncertainty)
n回の(独立な)測定
x1 , x2 ,...., xn 各々の誤差は
1 n
標本平均値 x   xi
n i 1
誤差伝播則を使うと
標本平均値の誤差 xは  x

2
1
 2
n
n
1 2
  

n
i 1
2
測定をN回繰り返して平均を取ることで、(偶然)
誤差を1/√nに小さくできる
最尤法 (Maximum Likelihood Method)
n回の(独立な)測定
x1 , x2 ,...., xn を考える。
母集団が平均値μ 標準偏差 の正規(Gauss)分布の場合
1回の測定で xi
xi  dx の値を観測する確率は
dQi  Pdx
i
2

1
1  xi    
Pi 
exp   
 
 2
 2    
ここで は不可知、推定値は ' 。
x1 , x2 ,...., xnの組が得られる(得られた)確率を尤度とよぶ。
尤度が最大になるような 'が最もよい推定値と考える。
これが最尤法(Maximum Likelihood Method)の考え方。
最尤法(正規分布の場合の例)
最尤法2
考え方:
最も確率の高い標本分布(測定
値の組)が実現されているはず
平均値 '、標準偏差 '   の正規分布を仮定すると
xiを観測する確率は
2

x


'
1
1 i
 
Pi (  ') 
exp   


 2
 2    
n回の測定でx1 , x2 ,....., xnを観測する確率(尤度)は
n
P(  ')   Pi (  ')
i 1
 1 n  xi   ' 2 
 1 

 exp    
 
2

 
i 1 
  2 

P(  ')を最大にする 'が最も確からしいの推定値
n
最尤法(正規分布の場合の例)
最尤法3
P(  ')を最大にすることは次のXを最小にするのと同じ
1 n  xi   ' 
X  

2 i 1   
2
n
dX
 xi   ' 
  
0
2
d '

i 1  
1 n
 '   xi  x
n i 1

最も確からしい母集団平均(mean)の推定値は加算
平均(average)
最尤法(正規分布の場合の例)
問題A
1.
2.
3.
4.
独立でない測定値u,vと、その関数x=f(u,v)の具体例をひとつ
あげよ。この例において、誤差伝搬則で共分散を無視するか
考慮するかで、xの誤差が過大評価されるか過少評価される
か、定性的に述べよ。
あるきめられた時間T(s)の間に、1個の放射線検出器を用い
て放射線源の強さを測定する。ソースを測定しているときの
(バックグランド込みの)カウントレートの期待値がr(c/s),ソー
スを外したときのカウントレートの期待値がb(c/s)であるとき、
時間Tのうちでソース測定の時間をいくらにとるのが最適か?
ある1本の棒の長さに関してx1,x2,…,xnのn回分の測定値が
ある。測定誤差は個々に異なるi と仮定して、この棒の長さ
を最尤法で推定せよ。(結果自体は当たり前の答え)
独立な二つの測定量x,yがx,yの誤差をもっているとき、x+y
の誤差は誤差伝搬則を使うとsqrt(x2+y2)とかける。 x,yが
正規分布に従うことから出発して、これを証明せよ。(Taylor
の本のp.153を参照;5.53式は1/2間違い?)