スライド 1

確率と統計2009
平成20年1月7日(木)
東京工科大学
亀田弘之
修正版Version 3
復習
2
はじめにデータありき
5
9
2
8
1
6
1
2
4
1
7
社会調査や実験の実施
により得られる3
データを全体として眺めるとき,
集団として何らかの性質を持っている.
=>統計的性質
この性質(分布の様子)を,例えば,
(算術)平均・中央値・モードなどの
いわゆる代表値や,分散・標準偏差・
範囲(range)などで数値的に捕らえた.
定義や計算方法が重要.
統計ソフトの利用も考えよう.4
統計ソフトウェア
参考情報
EXCEL:お手軽?
R:フリーソフトウェア(お勧め?)
SPSS:本格的なソフトウェア(有償)
SAS:本格的なソフトウェア(有償)
GnunPlot・Maximaなども便利
(いろいろと学んでください.)
日本計算機統計学会のページも参考にしてください。
5
http://www.jscs.or.jp/etc/softdata.html
基本的な統計量
平均
中央値
モード
最大値・最小値
範囲
分散
標準偏差 など
6
平均
定義 : m =(x1 + x2 + ・・・+Xn)÷n
意味:データ群の中心
考え方:データ群の中心で,データ群
を代表させる.(代表値)
特徴:量 T  ( x1  m)2  ( x2  m)2   ( xn  m)2
の最小値を与える点.
(基準点としてふさわしい)
7
中央値
定義:データを大きさの順に並べたときに
中央にくるデータ値.
意味:順序的観点から真ん中辺り.
考え方:順序的観点から中庸を捉えている.
真ん中辺りを代表値とする.
特徴:飛び離れ値に影響されない.
量 T | x1  M |  | x2  M |  | xn  M |
の最小値を与える点.
8
モード
定義:度数(出現回数)がもっとも
多いデータ値.
意味:多数派がデータ群を代表する.
考え方:度数の多いもの程重要.
特徴:飛び離れ値に影響されない.
代表値として素直な定義.
9
データの散らばりも大切
分散
標準偏差
範囲
10
範囲(レンジ)
定義:R = 最大値 ー 最小値
考え方:データの存在範囲
(すべてのデータはこの
範囲内にある)
特徴:計算が簡単
(工場などで実用されている)
11
分散
定義: ( x1  m) 2  ( x2  m) 2    ( xn  m) 2
n
考え方:「各データの平均mからのずれ」に着
目して,その平方数の平均を求め,データ全体
の散らばりを捉える.
特徴:数学的に取り扱いやすい.
12
標準偏差
定義:分散の平方根(√分散)
考え方:分散をもとに,データと同じ
次元の量にする.
特徴:データに対して,足したり
引いたりすることができる.
13
以上で,得られたデータ群の
特徴をとらえることができる
ようになった.
14
さて,…
15
知りたい対象(母集団)
母集団
4
31
5
1
6
7
16
標本
母集団
4
31
5
1
6
7
5
1
3
1
無作為抽出
17
母集団
4
31
5
1
6
7
標本
5
1
3
1
統計的分析
18
標本
母集団
4
31
5
1
6
7
5
1
3
1
統計的推論
19
抽出法
無作為抽出法:
どのデータも等確率で抽出されるようなサン
プリング法.どの単純事象も等確率で取り出
される抽出法.Laplaceの確率の定義参照.
高校で習った確率の定義でOK.
詳しく知りたい人は,社会調査法などの勉強
をしてください.(データは適切に集めなけ
れば,分析しても意味がない.サンプル数の
決め方なども重要です.)
20
分析法
統計的推定
統計的検定
この授業では「モデルに基づく分析」
を主に取り扱っているが,近年モデル
に基づかない分析法も重要になってい
る.(例:データマイニングの分野)
21
統計的推定
点推定
区間推定
信頼区間
信頼限界
興味のある人は,教科書p.136~p.142
を参照のこと.
22
統計的検定
この授業では,まず,これを学んで欲
しいと思っています.
(理由:とにかく役に立つから.
そして,なれないと結構
難しいから.)
23
仮説検定の考え方
前提:
調査や実験によりある事実Eが得られた.
この事実からあることを主張したい.
(これを仮説という.)
方法論:
モデルを仮定する(仮説設定:帰無仮説H0)
その仮説が正しいとして,事実Eの生起確率pを計算
する.
pの値が異常に小さければ,仮説H0を棄却する.
(誤謬法の考え方)
24
検定の考え方の例
実験:サイコロを600回振ったら,1の目が
180回出た(事実E).
主張したいこと:1の目が出やすい.
仮説の設定:どの目も等確率で出る.
Eの生起確率pの計算:
180
420
181
419
p≒0
1 5
1 5
p  600 C180      600 C181    
6 6
6 6
判断:出易い.
182
1 5
 600 C182    
6 6
418
1
  600 C600  
6
計算方法と判断の基準の理解が重要
600
5
 
6
25
0
(重要)確率分布の相互関係図
26
例題(教科書p.163例1)
ある市役所ではこれまで数年間銘柄Aの
電球を購入していたが,銘柄Bの電球の
方が価格が安いのでBへの切り替えを考
えている.銘柄Bのセールスマンは自社
の製品が品質においてAの製品と同じで
あると主張している.数年間の経験に
よれば,製品Aの平均寿命は1180時間
で,標準偏差は90時間であった.
27
製品Bのセールスマンの主張をテストする
ため,その銘柄の電球100個を正規販売
店から購入して試験をした.この結果,
m=1140,s=80が得られた.電球の品質
の尺度として平均寿命時間を考えると
すれば,どう結論すべきか?
28
問題の整理
事実:製品Bのm=1140,s=80
製品Aのm=1180,s=90
知りたいこと:Bの方が劣っている.
仮説:AとBは品質的に同等.
確率の計算:Bのデータの生起確率pを,平均
μ=1180,分散σ2=90^2の母集団からの抽出と
して計算する.
危険率(有意水準)αを設定する.
Α=10%とする.
29
確率の計算をしてみよう
30
理論的根拠(1)
標本平均の平均mは母平均と等しい.
標本平均の分散σm2は母分散のn分の1
倍.(nは標本の大きさ)
つまり,
E(m) = μ
E(σm2)=σ2/n
31
理論的根拠(2)
xが平均μ,分散σ2 の任意の分布に従う
とき,大きさnの無作為標本に基づく
標本平均mは,nが限りなく大きくな
るとき,平均 μ,分散 σ2 /n の正規分布
に近づく.
中心極限の定理
(統計学で1番重要な定理)
教科書p.130 定理2
32
計算
標本平均の分散:
90/√100 = 9
標準化:
Z = (1140 – 1180) / 9 = -40/9 = -4.4
標準正規分布表(教科書p.295 表IV):
Zがー∞~-4.4の範囲の値をとる確率
は,p≒0.
33
判断
確率p≒0 < 0.1 (10%) .
おきにくい事が起きたのではなく,仮
設が間違っていると考えて,仮設を捨
てる.
最終結論:有意水準10%において,
銘柄BはAよりも劣っている.
34
コメント
確率の計算方法を理解するためには,
数学の勉強が必要であるが,検定をす
ることが目的の場合,基本的考え方と
手順をしっかりとマスターすればよい.
理論的なものは,必要に応じて,必要
になったものだけを一生かけて勉強し
てください.
35
χ2検定
いろんな場面で使えて便利な検定法.
(先ほどのサイコロの例を再び取り上
げてみる.)
36
1の目が
出る回数
他の目が
出る回数
実測値A
180
420
600
理論値B
100
500
600
(A-B)2/B
64
64/5
合計
76.8
自由度φ= 2-1=1
37
χ2 = 76.8 >
χ02 = 6.6(有意水準1%)
結論:有意水準1%のもとで,1の目
は出やすい.
手法は異なっても結論は同じ
38
2つの平均の差の検定
先の電球A,Bの品質の差の問題を再度
取り上げる.これは2つの平均同士に
差があるかどうかの検定と考えること
もできる.これを「2つの平均の差の
検定問題」という.
教科書p.172~p.176
39
定理
x1,x2がそれぞれ独立に平均μ1,μ2,標準
偏差σ1,σ2の正規分布に従うとき,変数
x1-x2 は
平均 μ1ーμ2,
標準偏差
σx1-x2 = √(σx12+ σx22)
= √(σ12/n1 + σ22/n2)
の正規分布に従う.
40
仮説:Aの平均とBの平均とは等しい.
計算:
変数x1-x2は,
平均 = 0
標準偏差 = √(90*90/100 + 80*80/100)
= 12
の正規分布に従う.
Z=(1140-1180)/12=-40/12=-10/3=-3.3
Zがー3.3以下か+3.3以上になる場合の正規分布曲線
の面積を求めると,表VIより,p≒0
結論:AとBの平均の差は同じではない.
41
コメント
「2つの平均の間に差があるのか?」
はしばしば問題となるので,この検定
方法は役に立つ.
ただし今の場合,母分散σ1,σ2が既知で
ある.これらが既知でない場合はもう
一工夫が必要となる.(t検定を導入す
る必要がある.)
42
練習問題
43
Problem1
さいころを180回投げて、1の目の出る確
率が28回以上、34回以下である確率を
求めよ。
44
ヒント
1. B(n,p)の二項分布は、nが十分大きけれ
ば、平均np, 分散np(1-p)の正規分布で
近似できる。
2. N(μ, σ2)の正規分布は、標準化変換
Z = (X – μ)/σ により、標準正規分
N(0, 1)に変換される。
45
Problem2
1つのさいころを120回投げたら以下の
ようになった。このさいころは正しく
作られているか? 有意水準5%で検定
せよ。
目の数
1
出現回数 19
2
3
4
5
6
合計
31
17
23
11
19
120
46
Problem3
ある町で無作為に選ばれた618名に対し
て、とある伝染病の予防接種の効果を
調べたら、以下のようになった。この
予防接種は有効といえるか?有意水準
5%で検定せよ。
罹病
健康
合計
予防接種した
4
354
358
予防接種せず
9
251
260
13
605
618
計
47
Problem4
結婚に対する適応性に関してのアンケ
ート調査を行ったら次ページのような
結果が得られた。“学歴”と“結婚に
対する適応性”の間には関係があると
いえるか? ただし、有意水準5%。
学歴
結婚に対する適応性
非常に低い
低い
高い
非常に高い
計
大学卒
18
高校卒
17
小中学卒 11
29
28
10
70
30
11
115
41
20
232
116
52
計
67
111
176
400
46
48
ヒント
I. 理論値
学歴
結婚に対する適応性
非常に低い
低い
高い
非常に高い
計
大学卒
27
高校卒
13
小中学卒
6
39
19
9
64
32
14
102
51
23
232
116
52
計
67
111
176
400
46
II. 自由度φ = (行数 ー 1)× (列数 ー 1)
= (3-1)・(4ー1)
=6
III. 計算値χ2 = 20.7 >
χ02 = 12.6
49