応用確率統計学(第3回) - STReP in IRIDeS and CNEAS

行動計量分析
Behavioral Analysis
•第3回 推測統計学の考え方
inferential statistics
–第4章 母集団と標本
• Statistical Population and Sampling
–第5章 統計的仮説検定
• Statistical test of hypothesis
1
統計学(Statistics)の発展
• 統計学の始まり(紀元前3000年~2300年)
古代エジプト:ピラミッド建設のための基礎調査
古代中国:人口調査
17世紀頃:国勢調査の学問 status(国家)→statistics
• 記述統計学( 19世紀末~)Descriptive Statistics
ゴールトン(Francis Galton)、ピアソン(Karl Pearson)
データを要約し調査対象の情報を数学的に記述する方法
• 推測統計学(1925年) Inferential Statistics
フィッシャー(Rinald Aylmer Fisher) 「研究者のための統計的方法」
標本集団の要約値から母集団の要約値を確率的に推測
し、それによって母集団の様子を記述する
• ベイズ統計学・ノンパラメトリック手法
母集団の確率分布を事前に仮定しない方法
2
記述統計学の目的
Descriptive Statistics
• 沢山のデータを要約し、中に含まれている情報を
把握しやすくするための手段
• 例:学生100人の体重のデータがある.
その100個の数値持っている情報を簡単に表わしたい
データ,データ,
データ,データ,
データ,データ,
データ,データ,
データ,データ
要約値
(統計量)
判断
計画
平均値:「100人の学生の体重はだいたい60kgぐらいである」
3
+標準偏差: 「100人の日本人の体重はだいたい50~70kgである 」
記述統計学と推測統計学
多数データの
数学的要約
・記述
母集団の
データ
(仮想的)
母集団
無作為
抽出
標本集団
のデータ
確率的推測・記述
少数データの
数学的要約
・記述
4
標本抽出(Sampling)の考え方
• 知りたいのは,同様の性質を持つデータの全体(母
集団population)が持つ性質
– 全数調査は困難(日本中学生の実力テストの点数)
– 全数調査は無意味(強度が売り物のPCの破壊検査)
• 特定の性質を持った個体に偏らないようにして,少
数の個体を抜き出す(標本sample)
– それらの観測値を手に入れる(標本値)
• 標本の代表値(例えば平均値)を求め,そこから母
集団の性質(母数:母集団の平均や分散の値)を推
測する
– 母集団の性質についての確からしさの判断→検定
– 母集団の記述統計値を推測→推定
5
目の前のさいころの出目
• 母集団:このサイコロを何回も振ったときに出る
目の出方
• 標本値:確率変数X={1,2,3,4,5,6}
• サンプリング:例えば4回サイコロを振る
• 統計量:4回のサイコロの目の平均値
Y 
1
4
(X1  X 2  X 3  X 4)
• 統計量の実現値がy=1.25であったとする
• (4回のうち3回が1,1回が2であったことを意味し
ている)
6
4.2 推測統計の分類(p72)
• 統計的推定 statistical estimation, inference
 得られた統計量の実現値をもとに,母集団の確率分
布を決めるパラメータ(母数)を推定
 一部の中学生の実力テストの結果を用いて,日本の
中学生全体の同じ実力テストの点数を推測する
 日本の中学生の平均点は60点ぐらいだろう(点推定)
 日本の中学生の点数は50点から70点ぐらいだろう(区間推
定)
• 統計的検定 statistical test
 母集団の性質に関する何らかの仮説の是非を,得ら
れた統計量の実現値に基づいて判断
 一部の中学生に同じテストを5年後に受験させて,次
のどちらであるかを判断したい
 日本の中学生の実力は5年間で変化していない
 日本の中学生の実力は5年間で変化した
7
4.3点推定 point estimation
• 17歳の日本人男性全体の平均身長を知りたい(母
数:母平均)
• 10人の17歳男性を標本として抽出し身長の計測値
を得る
• 10個の計測値から,標本の平均値を計算する
(169.3)
• 標本平均の値を用いて,17歳日本人男性の平均身
長を推測する
> 身長 <- c(165.2, 175.9, 161.7, 174.2, 172.1, 163.3, 170.9, 170.6, 168.4, 171.3)
> 身長
[1] 165.2 175.9 161.7 174.2 172.1 163.3 170.9 170.6 168.4 171.3
> mean(身長)
8
[1] 169.36
(p74図4.2)母集団と標本
母集団population
標本抽出
sampling
標本sample
記述
母数
Population Parameters
標本統計量
Sample Statistics
(本当に知りたいもの)
(標本から計算できるもの)
母平均
母分散
母標準偏差
母相関係数
母比率
など
推定
inference
標本平均
標本分散
不偏分散
標本標準偏差
標本相関係数
標本比率
など
9
標本抽出に伴う誤差(p75)
サイズ2の
標本抽出
sampling
母集団population
1,2,6
Aさんは数字が書かれた3
つの「玉」が入った袋から,
玉を出し,数字を報告
玉を2個
取出し
報告
標本sample
1,2
1,6
2,6
記述
標本統計量
Sample Statistics
(標本から計算できるもの)
母数
Parameter
(本当に知りたいもの)
母平均
(1+2+6)/3=3
標本平均
推定
inference
1.5
3.5
4.0
標本統計値
標本誤差を含む (統計量の実現値)
誤差を許容限度内に抑える方法
10
生じうる誤差の大きさの見通し
4.4 推定値がどれぐらい当てに
なるか?(p77)
• 標本抽出の方法 単純無作為抽出
– 母集団内の各データが等確率で選ばれる方法
– 実際に取ったサンプルがたまたま「偏る」かも
• 抽出データの性質を表わす「確率変数」
– 実際に結果が得られるまで値がわからない変数,同じ手
続きを踏んでも再現性がない
• 確率変数がどのような値をとるかを示す「確率分布」
– 実際の実現値から作るのではなく,理論的に決められるべ
きもの
– ただし,非常の多くの実現値が繰り返し得られるなら,度数
分布から確率分布をほぼ知ることができる
11
推定値の確からしさ
• 推定値は,そのときの標本の実現値によっていろいろ
な値を取る:確率変数であり,「標本統計量」と呼ぶ
• 母集団のばらつきが少なければ,推定値は良く当た
る(母集団の確率分布)
標本の実現値
を全て使った平
均値を,
「点推定値」と
する場合
標本の確率分布
=
母集団分布
母集団分布
+
推定量の計
算方法
↓
推定量の確
12
率分布
4.5.1点推定量(標本統計量)の
望ましさ(p89)
• 不偏性:標本統計量の分布が,真値を中心
に広がっているか?
• 有効性:標本統計量が狭い範囲に分布し
ているか?
13
モンテカルロ法による
標本統計量分布の経験的な検討
• #母集団分布を仮定する(正規分布) 4.4.5
curve(dnorm(x,mean=50,sd=10))
標本平均<-numeric(length=10000)
• #以下の作業を繰り返す
for(i in 1:10000){
– #正規母集団から無作為抽出をする 4.4.7
標本 <- rnorm(n=10,mean=50,sd=10)
– #標本統計量の実現値(標本統計値)を求める
mean(標本)
• #統計量の実現値の分布を作る4.5.2
標本平均[i] <- mean(標本)
}
14
標本平均(という統計量)の分布
– #標本平均値の平均値
• mean(標本平均)
• curve(dnorm(x,mean=50,sd=10/
sqrt(10)),add=TRUE)
0.04
– #理論分布曲線(標準偏差が
√N分の1になる)との比較
0.00
• hist(標本平均,freq=FALSE)
Density
– #ヒストグラムを相対値で書く
0.08
0.12
Histogram of 標本平均
40
45
50
55
標本平均
15
60
偏りのある統計量の例
標本平均B<-numeric(length=10000)
#以下の作業を繰り返す
for(i in 1:10000){
標本 <- rnorm(n=10,mean=50,sd=10)
#10個からなる標本を小さい順にならべる.
整列標本 <- sort(標本)
Histogram of 標本平均B
0.08
0.04
0.00
mean(標本平均B)
#[1] 48.26386
hist(標本平均B,freq=FALSE)
Density
標本平均B[i] <- mean(整列標本[1:9])
}
0.12
#初めの9個を取り出し,平均を残す
35
40
45
50
標本平均B
55
60
16