確率と統計

確率と統計
メディア学部2007年
2007年11月29日(木)
これまでの内容(復習)
統計学の構成
–
記述統計学
•
–
(確率)
•
–
データの整理(効果的な表・図の作り方)
推計学(統計的推論)の基礎
推計学(数理統計学)
•
推定・検定など
確率と統計2007
2
統計学の構成
•
•
•
記述統計学
確率の基礎
推計学(数理統計学)
確率と統計2007
3
1. 記述統計学
• データ解析の演習
– EXCEL
• 基本統計量:
– 平均・中央値(メディアン)・最頻値(モード)
– 分散・標準偏差
• その他
確率と統計2007
4
2. 確率の基礎
•
•
確率の定義
–
試行・標本点ω・標本空間Ω・事象・確率関数
確率の計算
–
–
–
–
加法定理・互いに素
乗法定理・独立性・
ベイズの定理
その他
確率と統計2007
5
3. 推計学(数理統計学)
• 推定
• 検定 など
確率と統計2007
6
標本平均mの性質(重要)
大きさnの標本から求めた標本平均mの
平均(期待値)と分散は、次の性質を持つ。
• E(m) =μ
(標本平均mの期待値は、母平均μと等しい。)
• V(m) = σ2/n
(標本平均mの分散は、母分散σ2の1/n。)
確率と統計2007
7
標本分散s2の性質(重要)
大きさnの標本から求めた標本分散s2の
平均は、次の性質を持つ。
• E(s2) =σ2
(標本分散s2の期待値は、母平均σ2と等しい。)
(注) E(s) =!=σ
確率と統計2007
8
確率と統計2007
9
確率と統計
(続き)
確率と統計2007
11
今日の内容
1. 推定と検定(続き)
確率と統計2007
12
推定
• 推定とは、標本のデータを利用して(標本
の分析を通じて)、母集団に関するパラ
メータ(母平均や母分散など)の値を推測
すること。
確率と統計2007
13
推定(標本が1つのとき)
(事実)標本の平均がm
(結論)母集団の平均の推定値はm
確率と統計2007
14
推定(標本が2つのとき)
(事実)標本の平均がm1とm2
(結論)母集団の平均の推定値は
m=(m1+m2)/2
確率と統計2007
15
推定(標本がn個のとき)
(事実)標本の平均がm1,m2, …, mn
(結論)母集団の平均の推定値は
m = (m1 + m2 + …+ mn ) / n
確率と統計2007
16
推定(一般に)
(事実)
標本の平均がm
標本の標準偏差がσ
(結論)母集団の平均はm、
(その誤差はσ/√n)
確率と統計2007
17
検定
• こちらの方も実用上重要。
確率と統計2007
18
サイコロ実験
サイコロAとBとをそれぞれ100回ずつ投げ
たところ以下のようになった。
サイコロA:偶数40回
サイコロB:偶数30回
奇数60回
奇数70回
AもBもサイコロはただしく作られているか?
確率と統計2007
19
問題をもっと簡単にして解説する。
サイコロを5個投げる。
確率と統計2007
20
目(偶)の出方は以下の通り:
(場合1)
(場合2)
(場合3)
(場合4)
(場合5)
(場合6)
偶0回-奇5回:
偶1回-奇4回:
偶2回-奇3回:
偶3回-奇2回:
偶4回-奇1回:
偶5回-奇0回:
奇-奇-奇-奇-奇
偶-奇-奇-奇-奇
偶-偶-奇-奇-奇
偶-偶-偶-奇-奇
偶-偶-偶-偶-奇
偶-偶-偶-偶-偶
確率と統計2007
21
(場合1) 偶0回-奇5回: 奇-奇-奇-奇-奇
の生起確率を計算してみる。
=>乗法定理を用いる。
P0 =(1/2)×(1/2)×(1/2)×(1/2)×(1/2)
= (1/2)5
= 1 / 32
確率と統計2007
22
(場合3) 偶2回-奇3回: 偶-偶-奇-奇-奇
○○XXX
○X○XX
○XX○X
○XXX○
X○○XX
X○X○X
X○XX○
XX○○X
XX○X○
•
•
個々の系列の生起確は(1/2)5 。
個々の系列は同時には起きな
い(互いに排反)。
=> 加法定理
従って、(場合3)全体の生起確率は
P2 = 10× (1/2)5 となる。
XXX○○
確率と統計2007
23
目(偶)の出方は以下の通り:
(場合1)
(場合2)
(場合3)
(場合4)
(場合5)
(場合6)
偶0回-奇5回:
偶1回-奇4回:
偶2回-奇3回:
偶3回-奇2回:
偶4回-奇1回:
偶5回-奇0回:
P0 = 1× (1/2)5
P1 = 5× (1/2)5
P2 = 10× (1/2)5
P3 = 10× (1/2)5
P4 = 5× (1/2)5
P5 = 1× (1/2)5
確率と統計2007
24
• 疑問:「5回中2回偶数が出た。偶数の目
は出にくい?」
• これを調べる方法を「検定」という。
• それでは、検定してみよう。
確率と統計2007
25
1.
検定(考え方)
【仮説設定】検定したい事柄に対して「仮説H」を立
てる。
2. 【確率計算】 仮説が正しいものとして、注目してい
る出来事の生起確率Pを計算する。
3. 【結論】
– Pの値が極めて小さい
=>まず起きないことが起きた。
=>何かが変だからだ。
=>仮説Hが正しいとしたことがいけない。
=>仮説を棄てる。
– Pの値が特に小さくない
=>起きてもおかしくないことが起きた。
確率と統計2007
=>特に何も結論なし。(新たな知見なし)
26
• 極めて小さい値として、習慣的に5%(0.05)
や1%(0.01)、10%(0.10)がとられる。
<=特に根拠なし。
(3%や7%でもいいが、習慣に従おう)
• このような値を、「有意水準」あるいは「危険
率」という。
=>この意味は後で検討する。
確率と統計2007
27
検定(実行例1)
1.
2.
3.
4.
5.
事実:「5回中、偶2回、奇3回」
検定課題:「偶の目が出にくい」
検定の有意水準を決める。ここでは10%とする。
仮説H:「偶奇ともに等確率」
偶数の目が2回以下の確率を求める。
P = P0+ P1+P2 = (1+5+10)×(1/2)5
= 16 / 32 = 1 / 2
3.P = 0.5 > 0.1
4.仮説は棄却されない。
確率と統計2007
28
検定(実行例2)
1.
2.
3.
4.
5.
事実:「5回中、偶1回、奇4回」
検定課題:「偶の目が出にくい」
検定の有意水準を決める。ここでは10%とする。
仮説H:「偶奇ともに等確率」
偶数の目が1回以下の確率を求める。
P = P0+ P1 = (1+5)×(1/2)5
= 6 / 32 = 3 / 16 = 0.2
3.P = 0.2 > 0.1
4.仮説は棄却されない。
確率と統計2007
29
検定(実行例3)
1.
2.
3.
4.
5.
事実:「5回中、偶0回、奇5回」
検定課題:「偶の目が出にくい」
検定の有意水準を決める。ここでは10%とする。
仮説H:「偶奇ともに等確率」
偶数の目が0回以下の確率を求める。
P = P0 = 1×(1/2)5
= 1 / 32 = 0.03
3.P = 0.03 < 0.1
4.Hは棄却される。偶奇の目の出方は等確率ではな
い。偶の方が出にくい。
確率と統計2007
30
有意水準あるいは危険率
*有意水準10%の意味:
検定を行うと、結論として、
1. 仮説Hを棄却する
2. 仮説Hを棄却しない
という2つの結論のいずれかを下すこと
になる。
確率と統計2007
31
検定における判断の問題点
仮説Hを棄却する
仮説Hは本当 仮説Hは本当は
は正しい
誤り
正しいのに棄却 正しい判断
仮説Hを棄却しな 正しい判断
い(あるいは採択)
誤りなのに棄却
しない
(注)第一種の過誤、第二種の過誤
確率と統計2007
32
• 有意水準10%で仮説を棄却するとき、
• 100回中90回は正しい判断をしているが、
100回中10回は誤った判断をしているこ
とになる。
=>これ以降は、データ解析例でさらに勉
強してみましょう。
確率と統計2007
33
確率と統計2007
34
母集団と標本の関係
無作為抽出
母平均μ
標本平均m
標本分散s2
母分散σ2
推測
確率と統計2007
35
推定と検定
• 推定:
適当な統計量を選び、現実の標本から計算した
それの現実値をたよりにして、母集団の未知母数
に関し、ある程度、信頼のおける命題をたてること。
母集団について知る
• 検定:
あらかじめ母集団の型や母数の値を仮定し、現実
のデータがどの程度この母集団からの標本とみな
せるか決定すること。
母集団と標本の関係を知る
確率と統計2007
36
検定
母集団と標本の関係
?
無作為抽出
母平均μ
標本平均m
標本分散s2
母分散σ2
ホントにこの母集団の標本?
確率と統計2007
37
検定の例
• 問題1
ある人がコインを投げ、表の出た回数と
裏の出た回数とを調べたら、表が220回、
裏が180回であった。
これだけの事実から、このコインは歪み
なく作られているといえるか?
確率と統計2007
38
考え方(No.1)
• コインを無限回投げなければ、表と裏の出
る確率が等しいことはいえないのではない
か?
ー> 無限回投げることは無理!!!
ー> 何も結論できないのだろうか?
確率と統計2007
39
考え方(No.2)
• 次のように考えてみよう!
• もし「コインが正しく作られている」ならば、
表と裏の出る確率は等しい。そのような母
集団から無作為抽出により n = 400個 の
データからなる標本を作り出したとして、
標本中の表の回数Hと裏の回数Tの割合
が 220/400 を超える可能性 p1、および
逆に、180/400 を下回る可能性 p2 を求
める。P = P1 + P2 とする。
確率と統計2007
40
考え方(No.3)
• Pの値が十分小さい
ー>めったに起きないことがいま起きた
ー>普通起きないことが起きた
ー>起きるはずのないこと(奇跡)が起きた
ー>何かがおかしい!
(仮説を捨てる)
• Pの値が大きい ->仮説は捨てない
(仮説を採用するわけではない)
確率と統計2007
41
考え方(No.4)
つまり…
• 出現率 p = 1/2 = 0.5 の無限母集団から、
n = 400 のデータを無作為に取り出したと
する。このとき、
P = P( m > 220 ) + P( m <180 )
を求めて判断しよう、ということ。
それでは具体的にやってみよう。
確率と統計2007
42
計算
• コイン投げは、いわゆる2項分布と呼ばれて
いるものに相当する。
• したがって、
P = P(m>220) + P(m<180)
= nC221・(1/2)221・(1/2)179 + ・・・
+ nC400・(1/2)400・(1/2)0 +
179・(1/2)221 + ・・・
C
・(1/2)
n 179
+ nC0・(1/2)0・(1/2)400 +
確率と統計2007
43
• 定理:
2項分布はnが大きければ正規分布で近
似できる。(教科書、108-114ページ)
• このことを利用して計算すると楽。
確率と統計2007
44
2項分布の計算を正規分布で!
• 変数変換を行う。
Z = (X – m)/s
= (X – n・p)/√(n・p・q)
この式の意味は?
考えてみること。
• 今の場合、
m = np = 400・0.5 = 200
s = √(npq)=√(400・0.5・0.5) = 10
確率と統計2007
45
• したがって、
P = P(m>220) + P(m<180)
= P(Z>(220-200)/10) +
P(Z<(180-200)/10)
= P(Z>2) + P(Z<-2)
= 1 - P(-2<Z<+2)
= 1 – 2・P(0<Z<2)
=
(教科書295ページ参照)
確率と統計2007
46
• P は約 0.046
ー>100回のうち4回か5回の割合でこ
のようなこと(表が400回中に220回出
る)がおきうる。
• 仮説「表と裏の出現確率が等しい」が正し
ければ、このようなことは100回に4回か
5回しか起きない。
• めったに起きないことがおきた?
確率と統計2007
47
• 統計学的結論:
めったにないことが起きたのではなく、
「仮説が正しくない」
と結論する。
つまり、このサイコロは歪んでいると。
(ただし、... ) <- ここからが大切!
確率と統計2007
48
• ただし、このようなことは100回中に数回
起こりえるのだから、このような実験を行っ
てこのような結論を下すことは、100回中
4から5回程度間違っていることになる。
• そこで、統計学的には以下のように結論
する。
「有意水準5%のもとに、このコインは歪ん
でいる。」
確率と統計2007
49
• 有意水準としては、通常1%、5%、10%
などが採用される。(3%、7%などでもい
いのだが…)
確率と統計2007
50
確率と統計2007
51
確率と統計2007
52
(おまけ)
• 以下の定理も重要な定理です。
確率と統計2007
53
定理1
• x が正規分布 N(μ,σ2) に従うとき、大き
さ n の無作為標本に基づく標本平均 m
は、正規分布 N(μ、σ2/n) に従う。
(xの標本分布に関する定理)
確率と統計2007
54
定理2(重要)
• xが任意の分布(平均=μ,分散=σ2)に従
うとき、大きさ n の無作為標本に基づく標
本平均 m は、 n が無限に大きくなるとき、
正規分布 N(μ、σ2/n) に従う。
(中心極限定理)
確率と統計2007
55
問題1
ある学力テストの得点xは、正規分布
N(160,202)に従うとする。大きさ16
の標本をとり、mの値を求めるとき、
1. mが165を超える確率は?
2. mが150未満となる確率は?
確率と統計2007
56
中心極限定理の利用法
問題1.
ある大学の受験生の母集団から無作為に選
んだ1人の受験生の成績を x とする。いま、過
去の経験から x は平均 μ= 2.5、標準偏差s
= 0.4であることがわかっているものする。こ
のとき、この母集団から 36人の受験生の標
本を採り、標本平均 m を求めるとき、
1. mが2.4未満となる確率は?
2. mが2.4~2.7となる確率は?
確率と統計2007
57
問題1のヒント
• 中心極限定理より
s=σ/√n =0.4/√36
z=(x-m)/s =(2.4-25)・0.067
=
P{m<2.4} =P{z<-1.50}=
(標準正規分布表を利用)
次回解説します。
確率と統計2007
58