1 正規分布 2 標準正規分布

1
正規分布
以下のような密度関数を持つ確率分布を正規分布という。
[
(
)2 ]
1
x
−
µ
1
f (x; µ, σ 2 ) = √
exp −
2
σ
2πσ
(1)
図 1: 正規分布の密度関数
正規分布の特徴:
• 左右対称(平均・中央値・最頻値が同じ)。
• 平均は µ,分散は σ 2 。
確率変数 X が平均 µ,分散 σ 2 の正規分布にしたがうとき,以下のように
書く。
X ∼ N (µ, σ 2 )
(2)
たとえば,成人男性の身長 X が,平均 170cm,標準偏差 10cm の正規分布
にしたがうとき,以下のように書く。
X ∼ N (170, 102 )
2
(3)
標準正規分布
平均 0,分散 1 の正規分布 N (0, 1) を標準正規分布という。
標準正規分布の密度関数:
z2
1
f (z) = √ e− 2
2π
(4)
確率変数 X が N (µ, σ 2 ) にしたがうとき,X の標準化変量 Z は標準正規分
布にしたがう。
Z=
X −µ
∼ N (0, 1)
σ
1
(5)
たとえば,成人男性の身長 X が平均 170cm,標準偏差 10cm の正規分布にし
たがうとき,X から平均 170 を引き標準偏差 10 で割った標準化変量 Z は標
準正規分布に従う。
Z=
X − 170
∼ N (0, 1)
10
(6)
P (Z > z) = α となるような z を,zα と書き α × 100% 点という。
標準正規分布は左右対称なので,P (Z > zα ) = P (Z < −zα ) = α である。
3
母集団と標本
推測統計:母集団から抽出された標本を用いて母集団の性質を推測する。
• われわれの関心は母集団であるが,通常は母集団全体を調査すること
はできない。
• 製品の耐久性の調査のように,調査が製品の破壊を意味する。
• 仮に,調査することは可能であっても,莫大な時間・費用が必要。
母集団から標本を抽出して調査する(標本調査)→標本(母集団の一部)
から母集団に関する情報を推測。
母集団の特性を表す値(母平均 µ や母分散 σ 2 など)のことを母数という。
また,標本にもとづく統計量(標本平均や標本分散など)を標本統計量とい
う。標本統計量は,標本抽出をやり直すたびに異なる値をとるので確率変数
であり,標本統計量の分布を標本分布という。
4
標本平均の分布
✓
【定理】標本平均の分布
✏
X1 , X2 , · · · , Xn を平均 µ,分散 σ 2 の母集団からの大きさ n の無作為標本
n
∑
¯= 1
とする。このとき,標本平均 X
Xi の期待値は µ,分散は σ 2 /n
n i=1
となる。
✒
✑
たとえば,成人男性の身長 X が平均 170cm,標準偏差 10cm であるとき
¯を
(正規分布でなくても良い),成人男性 20 人を無作為に選んで標本平均 X
¯
計算する。X は異なる 20 人を選ぶたびに変化するが,その平均は 170,分散
√
√
は 102 /20,標準偏差は 102 /20 = 10/ 20 となる。
2
✓
【定理】正規母集団の標本平均の分布(1)
✏
X1 , X2 , · · · , Xn を N (µ, σ 2 ) に従う母集団からの大きさ n の無作為標本
n
1∑
¯
とする。このとき,標本平均 X =
Xi は N (µ, σ 2 /n) にしたがう。
n i=1
✒
✑
【問題】たとえば,成人男性の身長 X が平均 170cm,標準偏差 10cm の正規
¯は
分布にしたがうとき,成人男性 20 人を無作為に選んだときの標本平均 X
どのような分布にしたがうか?
中心極限定理
5
✓
【定理】中心極限定理
✏
母集団がどのような分布であっても(正規分布でなくても),n が十分
に大きければ,標本平均の分布は N (µ, σ 2 /n) で近似できる。
✒
✑
たとえば,サイコロを 1 回投げて出る目の分布は一様分布。
→サイコロを n 回投げて出る目の平均(標本平均)の分布は n が大きくな
ると,
図 2: サイコロを投げる回数と出目の平均の分布
n=3
n=2
n=1
n
n=∞
1
6
母集団において,政党を支持する人の割合は p であるとする。このとき,
n 人に対して調査を行い,政党を支持するかどうかを尋ねた。n 人の標本に
おける支持率(標本比率という)は,n が十分に大きければ,平均 p,分散
p(1 − p)/n の正規分布にしたがう。
たとえば,政党を支持する人の割合は 60%であるとする。このとき,100 人を
調査すれば,標本における支持率は,平均 0.6,分散 0.6×(1−0.6)/100 = 0.0024
の正規分布にしたがう。
【問題】(母集団における真の)政党支持率が 60%のとき,25 人の標本調
査で支持率が 50%未満となる確率を求めよ。
3
6
母数の区間推定と信頼区間
母数の推定:未知の母数を,標本から得られる情報で推測する。
たとえば,未知の母平均を標本から推測する場合,未知の母平均 µ を,ズ
バリ言い当てることはできない!
→推定に幅をもたせることにより,任意の確率で母平均がその区間の中に入る。
(例)
母平均を 10 と推定
→的中する確率はゼロ
母平均を 9.5∼10.5 と推定
→的中する確率が 50 %
母平均を 9∼11 と推定
→的中する確率が 90 %
母平均を 8∼12 と推定
→的中する確率が 99 %
的中する確率を高くしようと思えば,推定値の幅を広くしてやればよい。
→確率 1 − α で的中するような,推定値の幅を確率 1 − α の信頼区間という。
信頼区間を求めることを区間推定という。
✓
復習
✏
¯ は,平
正規分布する母集団から抽出されたサイズ n の標本の標本平均 X
均 µ,分散 σ 2 /n の正規分布に従う。
したがって,標準化変量:
Z=
¯ −µ
X
√
σ/ n
(7)
は標準正規分布にしたがう。
✒
✑
仮に,母集団が正規分布で母分散がわかっているいれば1 :
)
(
¯ −µ
X
√ < zα/2 = 1 − α
P −zα/2 <
σ/ n
(8) 式を書き直すと:
)
(
σ
σ
¯
¯
=1−α
P X − zα/2 √ < µ < X + zα/2 √
n
n
(8)
(9)
¯ ± zα/2 √σ の区間に母平均 µ が含まれる確率が 1 − α。
→X
n
1 未知の母集団の平均を推定するわけだから,母分散だけがわかっているというのはあまり現
実的ではないが,ベンチマークとして考える。
4
¯ の値が x
標本平均 X
¯ であれば,母平均 µ の (1 − α) × 100%信頼区間は:
(
)
σ
σ
x
¯ − zα/2 √
, x
¯ + zα/2 √
(10)
n
n
標準正規分布表から,よく使う値を書き出しておく。
α
zα/2
0.01
2.576
0.05
1.960
0.10
1.645
たとえば,ある菓子メーカーのポテトチップス 1 袋の内容量は,経験上が
標準偏差 5 グラムの正規分布にしたがうことがわかっている。このとき,25
袋の内容量を計測すると,標本平均は 100 グラムであったとする。この菓子
メーカーのポテトチップス 1 袋の内容量の母平均を信頼係数 0.95 で区間推定
してみよう。
(
P
)
¯ −µ
X
√ < 1.96 = 0.95
−1.96 <
σ/ n
n = 25, x
¯ = 100, σ = 5 であるから,母平均の 95%信頼区間は,
(
)
5
5
100 − 1.96 √
, 100 + 1.96 √
25
25
(11)
(12)
次に,25 人に対するアンケート調査で,ある政党を支持する人が 15 人で
あったとしよう。このとき,母集団における政党支持率を信頼係数 0.95 で区
間推定してみよう。
母集団におけるこの政党の支持率を p とすれば,標本比率の分布は,N (p, p(1−
p)/n) である。
(
)
√
√
¯ − zα/2 pq/n < p < X
¯ + zα/2 pq/n = 1 − α
P X
(13)
ここで,母集団における比率 p はわからないが,標本比率 0.6(=15/25) で置
き換えると近似的に,
(
)
√
√
P 0.6 − 1.96 0.6 × 0.4/25 < p < 0.6 + 1.96 0.6 × 0.4/25 = 0.95 (14)
したがって,この政党の支持率の 95%信頼区間は 41%∼79%である。
5