応用確率統計学(第3回） - STReP in IRIDeS and CNEAS

行動計量分析
Behavioral Analysis
•第3回推測統計学の考え方
inferential statistics
–第4章母集団と標本
• Statistical Population and Sampling
–第5章統計的仮説検定
• Statistical test of hypothesis
1
統計学（Statistics)の発展
• 統計学の始まり（紀元前3000年～2300年)
古代エジプト：ピラミッド建設のための基礎調査
古代中国:人口調査
17世紀頃：国勢調査の学問 status(国家)→statistics
• 記述統計学（ 19世紀末～）Descriptive Statistics
ゴールトン(Francis Galton)、ピアソン(Karl Pearson)
データを要約し調査対象の情報を数学的に記述する方法
• 推測統計学(1925年) Inferential Statistics
フィッシャー(Rinald Aylmer Fisher) 「研究者のための統計的方法」
標本集団の要約値から母集団の要約値を確率的に推測
し、それによって母集団の様子を記述する
• ベイズ統計学・ノンパラメトリック手法
母集団の確率分布を事前に仮定しない方法
2
記述統計学の目的
Descriptive Statistics
• 沢山のデータを要約し、中に含まれている情報を
把握しやすくするための手段
• 例：学生100人の体重のデータがある．
その100個の数値持っている情報を簡単に表わしたい
データ，データ，
データ，データ，
データ，データ，
データ，データ，
データ，データ
要約値
(統計量)
判断
計画
平均値：「100人の学生の体重はだいたい60kgぐらいである」
3
＋標準偏差：「100人の日本人の体重はだいたい50～70kgである」
記述統計学と推測統計学
多数データの
数学的要約
･記述
母集団の
データ
(仮想的)
母集団
無作為
抽出
標本集団
のデータ
確率的推測･記述
少数データの
数学的要約
･記述
4
標本抽出（Sampling）の考え方
• 知りたいのは，同様の性質を持つデータの全体（母
集団population）が持つ性質
– 全数調査は困難（日本中学生の実力テストの点数）
– 全数調査は無意味（強度が売り物のPCの破壊検査）
• 特定の性質を持った個体に偏らないようにして，少
数の個体を抜き出す（標本sample）
– それらの観測値を手に入れる（標本値）
• 標本の代表値（例えば平均値）を求め，そこから母
集団の性質（母数：母集団の平均や分散の値）を推
測する
– 母集団の性質についての確からしさの判断→検定
– 母集団の記述統計値を推測→推定
5
目の前のさいころの出目
• 母集団：このサイコロを何回も振ったときに出る
目の出方
• 標本値：確率変数X={1，2，3，4，5，6}
• サンプリング：例えば４回サイコロを振る
• 統計量：４回のサイコロの目の平均値
Y 
1
4
(X1  X 2  X 3  X 4)
• 統計量の実現値がy=1.25であったとする
• （４回のうち３回が1，１回が2であったことを意味し
ている)
6
４．２推測統計の分類（ｐ72）
• 統計的推定 statistical estimation, inference
 得られた統計量の実現値をもとに，母集団の確率分
布を決めるパラメータ（母数）を推定
 一部の中学生の実力テストの結果を用いて，日本の
中学生全体の同じ実力テストの点数を推測する
 日本の中学生の平均点は60点ぐらいだろう（点推定）
 日本の中学生の点数は50点から70点ぐらいだろう（区間推
定）
• 統計的検定 statistical test
 母集団の性質に関する何らかの仮説の是非を，得ら
れた統計量の実現値に基づいて判断
 一部の中学生に同じテストを5年後に受験させて，次
のどちらであるかを判断したい
 日本の中学生の実力は5年間で変化していない
 日本の中学生の実力は5年間で変化した
7
4.3点推定 point estimation
• 17歳の日本人男性全体の平均身長を知りたい（母
数：母平均）
• 10人の17歳男性を標本として抽出し身長の計測値
を得る
• 10個の計測値から，標本の平均値を計算する
（169.3）
• 標本平均の値を用いて，17歳日本人男性の平均身
長を推測する
> 身長 <- c(165.2, 175.9, 161.7, 174.2, 172.1, 163.3, 170.9, 170.6, 168.4, 171.3)
> 身長
[1] 165.2 175.9 161.7 174.2 172.1 163.3 170.9 170.6 168.4 171.3
> mean(身長)
8
[1] 169.36
（ｐ74図4.2）母集団と標本
母集団population
標本抽出
sampling
標本sample
記述
母数
Population Parameters
標本統計量
Sample Statistics
（本当に知りたいもの）
（標本から計算できるもの）
母平均
母分散
母標準偏差
母相関係数
母比率
など
推定
inference
標本平均
標本分散
不偏分散
標本標準偏差
標本相関係数
標本比率
など
9
標本抽出に伴う誤差（ｐ７５）
サイズ2の
標本抽出
sampling
母集団population
１，２，６
Aさんは数字が書かれた３
つの「玉」が入った袋から，
玉を出し，数字を報告
玉を2個
取出し
報告
標本sample
1，2
1，6
2，6
記述
標本統計量
Sample Statistics
（標本から計算できるもの）
母数
Parameter
（本当に知りたいもの）
母平均
（1＋2＋6）/3＝3
標本平均
推定
inference
1.5
3.5
4.0
標本統計値
標本誤差を含む（統計量の実現値)
誤差を許容限度内に抑える方法
10
生じうる誤差の大きさの見通し
4.4 推定値がどれぐらい当てに
なるか？（ｐ77）
• 標本抽出の方法単純無作為抽出
– 母集団内の各データが等確率で選ばれる方法
– 実際に取ったサンプルがたまたま「偏る」かも
• 抽出データの性質を表わす「確率変数」
– 実際に結果が得られるまで値がわからない変数,同じ手
続きを踏んでも再現性がない
• 確率変数がどのような値をとるかを示す「確率分布」
– 実際の実現値から作るのではなく,理論的に決められるべ
きもの
– ただし,非常の多くの実現値が繰り返し得られるなら,度数
分布から確率分布をほぼ知ることができる
11
推定値の確からしさ
• 推定値は，そのときの標本の実現値によっていろいろ
な値を取る：確率変数であり，「標本統計量」と呼ぶ
• 母集団のばらつきが少なければ，推定値は良く当た
る（母集団の確率分布）
標本の実現値
を全て使った平
均値を,
「点推定値」と
する場合
標本の確率分布
＝
母集団分布
母集団分布
＋
推定量の計
算方法
↓
推定量の確
12
率分布
4.5.1点推定量（標本統計量）の
望ましさ（ｐ89）
• 不偏性：標本統計量の分布が,真値を中心
に広がっているか？
• 有効性：標本統計量が狭い範囲に分布し
ているか?
13
モンテカルロ法による
標本統計量分布の経験的な検討
• #母集団分布を仮定する（正規分布） 4.4.5
curve(dnorm(x,mean=50,sd=10))
標本平均<-numeric(length=10000)
• #以下の作業を繰り返す
for(i in 1:10000){
– #正規母集団から無作為抽出をする 4.4.7
標本 <- rnorm(n=10,mean=50,sd=10)
– #標本統計量の実現値（標本統計値）を求める
mean(標本)
• #統計量の実現値の分布を作る4.5.2
標本平均[i] <- mean(標本)
}
14
標本平均（という統計量）の分布
– #標本平均値の平均値
• mean(標本平均)
• curve(dnorm(x,mean=50,sd=10/
sqrt(10)),add=TRUE)
0.04
– #理論分布曲線（標準偏差が
√N分の1になる）との比較
0.00
• hist(標本平均,freq=FALSE)
Density
– #ヒストグラムを相対値で書く
0.08
0.12
Histogram of 標本平均
40
45
50
55
標本平均
15
60
偏りのある統計量の例
標本平均B<-numeric(length=10000)
#以下の作業を繰り返す
for(i in 1:10000){
標本 <- rnorm(n=10,mean=50,sd=10)
#10個からなる標本を小さい順にならべる．
整列標本 <- sort(標本)
Histogram of 標本平均B
0.08
0.04
0.00
mean(標本平均B)
＃[1] 48.26386
hist(標本平均B,freq=FALSE)
Density
標本平均B[i] <- mean(整列標本[1:9])
}
0.12
#初めの９個を取り出し，平均を残す
35
40
45
50
標本平均B
55
60
16

Download Report