区間推定 - FC2

基礎統計 2014/5/9
mcobaya.web.fc2.com/kisotokei/index_ut.htm
[email protected]
s2 
( X 1  X) 2  ...  ( X N  X) 2
か
N
s2 
( X 1  X) 2  ...  ( X N  X) 2
N 1
ブドウの糖度の例は、不評なので成績にしました。
で見当をつける(推定)することができる。後者の分散
前提1:母集団の分布が平均  , 分散  のとき、そこ
の推定量を不偏分散という。なぜ、N ではなく N-1 でわ
か ら 無 作 為 ( random) に 抽 出 ( 抜 き 取 っ た ) 標 本 を
本(不偏)分散 s2 を母分散  2 で代用してもよいとしよ
2
X 1 ,..., X N とする。このとき
E ( X 1  ...  X N )  N  , V ( X 1  ...  X N )  N 2
ここから E ( X ) 
 , V ( X )   2 / N は容易にわかる。
るかは後回し。N が十分大きい時は精度も高いので、標
う。N が多いのかどうかの判断基準、分散の誤差を考慮
する方法は後まわし)
問題3
Case 1:分散  2 が不明だが、N が大きい時
N=16 個の生徒の標本平均
X =25 であった。分散 s 2
前提2:正規分布に従う変数の和の分布も正規分布に
=0.64,標準偏差 s  0.8(=0.64 の平方根)が十分精度
従う。(証明は後回し)
の高い推定と仮定し、  2 =0.64,標準偏差   0.8 と
区間推定
しよう。
p.95
例:A クラスの生徒の平均成績  をしりたい。N 個の生
徒を無作為に抽出して成績を計測した。母集団の生徒の
2
成績の分布を X ~ N ( ,  ) とする。
(Case 2
 2 の推定誤差を考慮にいれる場合は後回し)
 2 が十分高い精度で推定される場合(または不
Case 1:
自然だが既知と仮定)
2
問題1N=1 の極端な例 p.99 X ~ N ( ,  ) として、A ク
2
ラスの生徒をひとり無作為にえらんで、X =25,   10 の
とき、  の 99%信頼区間、95%信頼区間を求めよ。
問題2p.103 、A クラスの生徒を9人無作為にえらんで
2
N=9 X =25,   10 のとき  の 99%信頼区間、95%信頼
区間を求めよ。A クラスの成績を知るのならば、9人選
んだほうが、問題1よりも精度が高くなり、信頼区間も
狭くなるはず。
注意;一番わかりにくいのは「標本平均の分布の分散」。
z  ( X   ) /  2 / N は平均 0,分散1の標準正規分布に
なる。
 E ( X   )      0, V ( X   )  V ( X )   2 / n,
V (( X   ) /  2 / n )   2 / n / (  2 / n ) 2  1,
Pr(| ( X   ) /  2 / N | 1.96)  0.05 より
Pr( X  1.96  2 / N    X  1.96  2 / N )  0.95
Pr( X  1.96  2 / N    X  1.96  2 / N )  0.95
解釈: X は、ほぼ確実に期待値  から 1.96  2 / N 以内
の距離にある。逆に考えると、未知の  はほぼ確実に X
何百人もいる学生のなかからの9人の選び方で標本平均
から 1.96  2 / N  2  SE 以内の距離にある。
は大きくなったり小さくなったりする。N を大きくとっ
注意:1.96は実務的には2と考えてよい。
たほうが、A クラスの成績の分布の平均を高い精度で知
たとえ話:推定量(推定子)が子供、真の係数が母親(母
ることができる。(分散が小さい)
数)。子供は母親から 1.96×標準誤差(推定量の分布の標
準偏差)の距離に確率 95%で存在するのならば、子供は母
分散の推定量(   10 が既知は非現実的なので、見当
親は±1.96×標準誤差の範囲に存在するはず(母親が子
をつけよう)
供の 1.96×標準誤差にいるという判断は 95%で当たる)
分散  は「変量の平均  からの偏差の二乗」の平均な
信頼係数 95%の信頼区間は 25±1.96×0.8/√16≒25±2
ので、 X は  に代用できるほど精度が高いとして
この方法で作る信頼区間は 95%の確率で真実の値を含む。
2
2
×0.2=25.4 24.6
(95%の確率で魚を捕まえる網のようなもの)
5%以下の確率の滅多に起きないはずの出来事。その確率
99%の信頼区間は 25±2.6×0.2
の前提となっていることが間違っていると考える。仮説
当然、99%の信頼区間は信頼係数は高くなるが 30%広く
「  =24」は水準 5%の両側検定で棄却されたと。「B 学
なるので有用性は低くなる。
園において総*学習の影響はあった」と推論できる。
N が大きくなると、信頼区間は狭まる。
注意:分布の標準偏差/√N=推定量の標準偏差(誤りやす
もしも B 学園の成績の平均が24 であるとき、抽出
い)推定量の分布の標準偏差を標準誤差(SE)という。
された生徒の標本平均が25 という値が出る確率は極
注意:95%(もしくは 99%)を使うのは習慣。1.96, 2.6
めて小さい。しかし、前提が正しいなら珍しいはずのこ
という数値はよく使うので覚えておくと良い。
とが現実に起きてしまったので、その前提「この生徒の
(p.109 の話は後回し。)
課程で成績の平均24」がデータから否定される。
区間推定を使った検定考え方(p.247 以降でより詳しく)
仮説を棄却する統計量の領域(棄却域)の設定のしかた
問題3続き
で両側検定と片側検定がある。 X が十分大きい場合と
十分小さい場合で仮説  =24 が否定(棄却)される。
A クラスでは B 学園で一クラスだけ特に総*学習をお
こなった。総*学習しない通常の教育の B 学園の生徒の
成績が  =24 であることがわかっているとしよう。
仮説が棄却できない場合の判断:
総*学習をおこなった A クラスの平均成績は B 学園の通
常課程の学生の平均と同一と判断できるか。
結論「95%の信頼区間は 24 を含まないので、B 学園の通
もしも X =24.3 とすると、
( X   ) /  2 / N  (24.3  24) / 0.2  1.5
常のクラスものではあり得ない。99%についても同様。」
成績の平均が  =24 の「可能性がある」といえる(B 学
したがって、A クラス学生の分布の平均点は B クラスの
園の生徒の可能性はある)
学生の平均点とは異なる。
論理
両側検定
「X ならば Y」が正しいとき、との対偶「Y でないなら
Pr(| X   | c)  0.05 or 0.01 と い う c を 求 め 、 し て
ば X でない」も正しい。この論理では主張したいこと「X
| X   | c のとき、仮説 E[ X ]   を棄却し、仮説は疑わ
でない」を導くために、前段の仮説を「X である」とし
しいと判断する。X の値が十分大きくても十分小さくて
た。
も仮説が棄却される。
この場合、X は「A クラスの生徒の成績分布の平均点は
B 学園の通常教育の生徒の平均点と同一である。」とし、
Y は「N 人の成績分布の標本平均は

=24 か ら
1.96  2 / N 以上離れることはない。」である。
両側検定が望ましい例:1)源氏物語の一部分が紫式部
の作が偽作かを特定の言葉(助詞)の使用頻度で検定す
る。助詞をたくさん使いすぎても少なすぎても真作が疑
われる。
仮説の値が信頼区間の外にでることと、仮説の棄却は
注意:s 2 =0.64 は発見されたサンプルから計測されたの
同値であるので、両側検定と区間推定の結論は当然一致。
で、
片側検定:Pr( X
仮説検定
 2  s 2 =0.64 と仮定。
の値が十分大きくて X
( X   ) /  / N  (25  24) / 0.2  5
2

   c)  0.05 という c をもとめ、X
し
か
し
、

P ( X   ) /  2 / N  1.96  0.05
は z  ( X   ) /  2 / N の絶対値が 1.96 を越えるのは、
   c のとき、仮説 E[ X ]  
を棄却する。(片側検定の棄却域は広くなる)
片側検定が望ましい例:ある新薬が従来製品より優れて
いるかどうかしりたい。(「従来品より劣っているか同
等」という前提が否定されるときだけ、製品化される)
仮説 E[ X ]   (新薬の効果が従来品と同じ) を棄却す
るのは X (=新薬の効果)の値が十分大きいとき。
両側検定は新薬の効果 X が十分小さいときも、仮説を棄
却するが、従来よりよい薬を製品化という目的にそぐわ
ない。
注意1)期待値が指定された値と同一 E[ X ]   のとき
Pr( X    c)  0.05 であれば、E[ X ]   と期待値が
指定値より小さいときには 必ず Pr( X
   c)  0.05
と な る 。 し た が っ て 、 E[ X ]   が 棄 却 さ れ れ ば
E[ X ]   は自動的に棄却されるので、 E[ X ]   を
検定すれば十分。P(z<1.65)=0.95, P(z<2.3)=0.99
注意2:両側検定がよいか片側検定がよいか不明のとき
は両側検定を使うのが普通。危険率(有意水準)は 0.05
か 0.01 を用いるのが普通。
不偏分散
独立な確率変数 X 1 , , X N が期待値 E( X i )   ,分散
V ( xi )   2 の正規分布に従うならば、正規分布の和は正
規分布なので、したがって標本平均も正規分布となり、
E( X )  , V ( X )   2 / N
という期待値、分散を持つ。(p.182)以下はその計算課
程である。
 X  ..  X n  E ( X 1 )  ..  E ( X n )
E( X )  E  1
 ,

n
n


 X  ..  X n  1
V (X )  V  1
  2 V  X 1  ..  X n 
n

 n
1
 2 V ( X 1 )  ..  V ( X n ) 
n
V ( X 1  X 2 )  V ( X 1 )  V ( X 2 )  2 cov( X 1 , X 2 ),
cov( X i , X j )  0(i  j )
定
理
6.2
p.201
不
偏
分
散
s 2 =[(x1  x ) 2 +...+(xn  x ) 2 ] / ( n  1) に た い し て
E(s 2 )   2
(( X1  X )2  ...  ( X n  X )2 )
 ( X1   )  ...  ( X n   )  n( X   )2
の期待値をとると、右辺の期待値は
n 2  n( 2 / n)  (n  1) 2
したがって、
E (s 2 ) 
n 2  n( 2 / n)
2
n 1
計算の経過
(( X 1  X ) 2  ...  ( X n  X ) 2 )
 (( X 1   )  ( X   )) 2  ...  (( X n   )  ( X   ))2
 ( X 1   )   ...  ( X n   )   n( X   ) 2
 ( X 1   )( X   )  ...  ( X n   )( X   )
 ( X   )( X 1  ..  X n  n )  n( X   )( X   )
区間推定と仮説検定
正規分布を用いた推論例:ある(違法)薬物の錠剤に含ま
れているに成分 B の濃度分布が、正規分布(期待値  、
分散  2 )であることがわかっている。