確率と統計

確率と統計
メディア学部2011年
2011年12月22日(木)
この資料は数学的な話が中心です。
確率分布
• 検定を行う際、確率計算が必要になります。
• そのためには、分析対象が従うそれぞれの
確率値の在り様(確率分布)を知り、その
性質・特徴を上手く利用することになります。
東京工科大学 確率と統計2011
P.2
例えば
• 1つのサイコロを500回投げたとき、偶数
の目が100回出る確率Pを求めるとき、
定義では
100
400
1 1
P500 C100      
 2  2
を計算しなければならない。うっそ!
興味ある人は計算してみてください。
東京工科大学 確率と統計2011
P.3
参考情報
• オープンソースのツールを使うことも考え
てみよう
– 数式計算ソフトウェア Maxima
– 数値計算ソフトウェア Scilab
– 統計計算ソフトウェア R など
東京工科大学 確率と統計2011
P.4
いろいろな確率分布
1.
2.
3.
4.
5.
6.
7.
2項分布
正規分布
ポアソン分布
一様分布
χ2分布(カイ自乗分布
t分布(ティー分布)
F分布(エフ分布) などなど
東京工科大学 確率と統計2011
P.5
1. 2項分布
• 1回の試行において、事象Aの起こる確率
がp、起こらない確率がqとする。このとき、
n回の反復試行で事象Aがk回起こる確率
は、次のようになる。
P( X  k )n Ck  pk  qnk (k  0,1,2,, n)
この分布を B(n, p) と書く。
教科書 p.97 参照のこと
東京工科大学 確率と統計2011
P.6
例
• 1枚の硬貨をn回投げる。
東京工科大学 確率と統計2011
P.7
2項分布B(n, p)の平均と分散
• 平均 = np
• 分散 = npq
有名かつ便利な公式
教科書 p.101 式 (2) 参照のこと
東京工科大学 確率と統計2011
P.8
公式の利用例
• サイコロを500回振る。3の倍数の目が
出る回数の平均(期待値)は、公式より
 2  500
n  p  500   
回
3
6
東京工科大学 確率と統計2011
P.9
2.正規分布
• 測定誤差や身長のデータのヒストグラムを
作ると釣鐘型になる。このときのヒストグラ
ムの形を近似的に表す曲線を正規分布曲
線とい、このときの分布を正規分布という。
正規分布曲線は、平均μと分散σ2できまる
ので、N(μ, σ2 ) と書くことがある。
東京工科大学 確率と統計2011
P.10
キーワード
•
•
•
•
•
分布関数
確率密度関数
正規分布曲線(定義)
正規分布の特徴
標準化 など
東京工科大学 確率と統計2011
P.11
正規分布のグラフ
東京工科大学 確率と統計2011
P.12
教科書 p.102 図3 参照のこと
正規分布のグラフ
左右対称
変曲点
ほとんどゼロ
東京工科大学 確率と統計2011
P.13
正規分布曲線の式
f ( x) 
1
2 
e

2
(x )
2
2
(  x  )
東京工科大学 確率と統計2011
14
正規分布曲線の式
f ( x) 
標準偏差
1
2 

平均
2
(x )
e
2
2
(  x  )
東京工科大学 確率と統計2011
15
重要な性質
• 左右対称
• X=σは変曲点(上凸と下凸の変わり目)
• 平均 = 中央値 = モード
東京工科大学 確率と統計2011
P.16
他の重要な性質
• (次ページ以降を参照のこと)
東京工科大学 確率と統計2011
P.17
正規分布のグラフ
68%
東京工科大学 確率と統計2011
P.18
正規分布のグラフ
95%
東京工科大学 確率と統計2011
P.19
正規分布のグラフ
99.7%
東京工科大学 確率と統計2011
P.20
ちょっと一言
• 図形の面積は定積分によりもとめられる。
b
面積S   f ( x)dx
a
東京工科大学 確率と統計2011
P.21
標準化の公式
x
z

2
N(μ,σ )
N(0,1)
東京工科大学 確率と統計2011
P.22
標準化の公式
x
z

平均μ、分散σ2
平均ゼロ、分散1
(正規分布)
(標準正規分布)
2
N(μ,σ )
N(0,1)
東京工科大学 確率と統計2011
P.23
標準化の公式
x
z

平均μ、分散σ2
平均ゼロ、分散1
(正規分布)
(標準正規分布)
2
N(μ,σ )
N(0,1)
東京工科大学 確率と統計2011
これについての情報が
標準正規分布表として
与えられている。 P.24
練習問題
• 正しく作られたコインを100回投げるとき、
表が40回から60回出る確率を求めよ。
東京工科大学 確率と統計2011
P.25
• ヒント:
– コイン投げの繰り返しは2項分布B(n,p)となる
ので、定義に従って計算しても良い。
– 繰り返しの回数が多い場合は、平均がnp、分
散がnpqの正規分布N(np,npq)で近似できる。
– この事実を使うと比較的楽に確率が計算でき
る。
東京工科大学 確率と統計2011
P.26
• 答え:
–
–
–
–
–
–
μ= np = (100)×(1/2) = 50
σ2= npq = (100)×(1/2)×(1-1/2) = 25 = 52
Z=(X-μ)/σ = (X – 50) / 5 とすると
Z1=(40-50)/5 = -2
Z2=(60-50)/5 = +2
標準正規分布曲線の -2 ~ +2 の部分の面積が
求める確率。
– 標準正規分布表(教科書p.295)より
約0.95 (= 0.4772×2)
東京工科大学 確率と統計2011
P.27
以上のことを
別の言い方で表すと...
確率P (表が100回中40回以上60回以下出る)
 P (40  X  60)
100  k
k
1 1
  100 Ck     
2 2
k  40
60

60
40
1 
e
2
60  m
 40  m


( xm)2
2 2
dx
2 1
1 z2
 x2
e dz  
e dx
2
2
2
東京工科大学 確率と統計2011
P.28
図で表すと...
• (黒板で説明します)
東京工科大学 確率と統計2011
P.29
確認問題
• 正しく作られたコインを400回投げるとき、
表が150回以上230回以下出る確率を求
めよ。
東京工科大学 確率と統計2011
P.30
発展問題
•
両側検定と片側検定について
以下の問に答えよ。
(1)両側検定とは何か。
(2)片側検定とは何か。
(3)コインを何回か投げた結果に基づい
て、コインが正しく作られているかを調べ
たい。このときは、両側検定を使うべき
か、片側検定を使うべきか。
東京工科大学 確率と統計2011
P.31
• 問題のヒント:
教科書のp.163~167をよく読むこと。
両側検定、片側検定の区別、使い分けは
重要なので、何かの機会に一度調べてお
くことを勧める。
東京工科大学 確率と統計2011
P.32
正規分布の話は
今日はここまで
東京工科大学 確率と統計2011
P.33
今日の挑戦問題
• ある人種では4つの血液型が知られてお
り、各血液型を持つ人の割合は
0.16, 0.48, 0.20, 0.16
であるという。一方、他の人種の人につい
ても同様の調査をしたところ、それぞれの
血液型を持つ人は
180, 360, 130, 100 人
だった。これら人種間で血液型の人数比
は同じだろうか?
東京工科大学 確率と統計2011
P.34
挑戦問題問題のヒント
•
•
•
•
•
•
カイ2乗検定を利用する。
教科書第10章を参照のこと。
教科書 p.229 の問題2と同じ。
自由度の求め方を覚えると良い。
カイ2乗分布の表は教科書p.298 。
(カイ2乗検定は利用価値が高いですので、
是非覚えて使ってください。)
東京工科大学 確率と統計2011
P.35
練習問題
• ある図書館での本の貸し出しを調べたら以下の
ようになった。「曜日により貸し出し冊数は変わらな
い」かどうか検定せよ。なお、有意水準を5%とせよ。
貸し出し
冊数
月曜
火曜
水曜
木曜
金曜
135
108
120
114
146
東京工科大学 確率と統計2011
36
練習問題のヒント
月曜
火曜
水曜 木曜 金曜 合計
観測値
135
108
120 114 146
理論値
T/5
T/5
T/5
T
T/ 5 T / 5
T=135 + 108 + 120 + 114 + 146=623
東京工科大学 確率と統計2011
37
その他
• カイ2乗検定の1つに、分割表(教科書
p.225)があります。便利なのでマスター
してください。授業でもやりましたよね!
• カイ2乗検定は、分散分析の特殊な場合
となっています。分散分析はさらに強力な
手法ですので、是非勉強しましょう。
• 統計は慣れることが大切です。継続的に
勉強してください。理論よりまず実践です。
東京工科大学 確率と統計2011
P.38
最後に
• 統計を知っている人と知らない人とでは、
今後大きな差になってきます。統計をすべ
て勉強することは無理です。自分に関係
のある分野で、必要なものから順次慣れ
ていってください。
練習あるのみ
次回4つ目のレポート課題を提示する予定です。
東京工科大学 確率と統計2011
P.39