統計の基礎 第5回 各種統計量 5月27日

統計の基礎
第12回
推定
7月8日
復習
Z値
• 確率変数(X)と平均(m)の偏差が標準偏差(s)
の何倍かに対応する。
• 正規分布では、Z値により(累積)確率分布が
確定する。
⇒確率変数と確率(右側、左側、中間など)の
対応を計算できる。
• Z値表
• Excel
N(0,1^2)での x=0から右側の面積
左端からの面積
=NORM.S.DIST(Z,型)
=NORM.S.INV(Pr)
=NORM.DIST(x,μ,σ,型)
=NORM.INV(Pr,μ,σ)
• 補足
外側の確率がα/2となるZ値の意味
例 Z0.025 =-1.960
Z0.975 =1.960
中心極限定理
• 標本平均の分布
【目標】
• 母集団の平均値等の推定について、考え方
を理解するとともに、実際に算出できるように
なる。
【構成】
• 1.点推定
2.区間推定
(1) 母分散が既知の場合
(2) 母分散が未知の場合
・不偏分散
・t分布の利用
(3) 信頼度
3.比率(ベルヌーイ試行)での推定
(1) 比率の平均と分散
(2) 平均・標準偏差の推定
4.収集標本数の決定
参考.母分散の推定
1.点推定
• 標本データから母集団の平均(母平均;μ)を推
定する。
• 標本平均(m)とする。
大数の法則
• ただし、確率(実験確率)的に出現したものに
過ぎず、その信頼性は明らかでない。
2.区間推定
• 一定の信頼度を設定し、それに対応する信
頼区間を推定する。
○○%程度妥当である
(1) 母分散が既知の場合
• 標本平均は正規分布(N(m,σ2/n))となることを
利用し 信頼度(例えば95%など)に相当する
の中心の幅を区間とする。
標準正規分布で区間の端点での累積確
率(例えば0.025あるいは0.975)に相当するZ値
(標準偏差に対する比率)
• Excelでは"=NORMS.INV(累積確率)"
正規分布
• 平均と標準偏差で分布型が決定
(2) 母分散が未知の場合
・不偏分散
• 偏差平方和をn-1で除した分散
• μでなくmを利用するためずれが生じる
・t分布の利用
• 自由度n-1のt分布となることを利用し同様
に求める。
T(n-1)は、自由度n-1のt分布の意味
Excelでは"=T.INV(累積確率,自由度)"
自由度
• 変数のうち独立に選べるものの数
• 例えば合計があると、n-1となる
t分布
•
小標本から平均を推定するための分布
(3) 信頼度
• 信頼度を決める積極的根拠はなく、各分野で習慣
的に用いられる水準がある
よく用いられる信頼度
学術研究 90%、95%、99%
製造品の品質管理では 9がさらに続くことも
マーケティングの判断では、もっと低くいことも
※ヒッグス粒子の確認 シックス9・・・5σ
• 90%、95%、99% → 1.645、1.960、2.575
(両側に危険域)
• 1、2、3 → 34.13%、47.72%、49.87%
• 課題によっては、両側でなく、片側で判断す
ることもある。
3.比率(ベルヌーイ試行)での推定
(1) 比率の平均と分散
•
成功 x=1, Pr(x)=p
不成功 x=0, Pr(x)=q=1-p
• 平均の期待値
1*p+0*q=p
• 分散の期待値
(1-p)^2*p+(0-p)^2*q=qqp+ppq=pq(q+p)=pq
(2) 平均・標準偏差の推定
• 点推定
• 区間推定
p
区間の表現
• P±α%
4.収集標本数の決定
• 母集団標準偏差が既知で、一定の信頼度で
一定幅の信頼区間を得るために必要な標本
数を求める。
• 信頼区間の幅をk倍にするには、標本数をk
^2倍にする必要がある。
• 実際の標本数の決定は、求められる信頼度
の程度と調査費用・時間との関係で決める。
参考.母分散の推定
• 点推定
• 区間推定
は、自由度n-1のχ二乗分布で、右側累
積確率α/2となる位置
χ2分布
• 分散等に関する分布
【提出課題】
•
サンプル数と信頼区間の関係を描く。
→区間推計
【時間末レポート】
• サンプル数2100人、賛成比率0.3、
信頼度95%で、母集団比率を区間推計せよ。