行動計量分析 Behavioral Analysis •第3回 推測統計学の考え方 inferential statistics –第4章 母集団と標本 • Statistical Population and Sampling –第5章 統計的仮説検定 • Statistical test of hypothesis 1 統計学(Statistics)の発展 • 統計学の始まり(紀元前3000年~2300年) 古代エジプト:ピラミッド建設のための基礎調査 古代中国:人口調査 17世紀頃:国勢調査の学問 status(国家)→statistics • 記述統計学( 19世紀末~)Descriptive Statistics ゴールトン(Francis Galton)、ピアソン(Karl Pearson) データを要約し調査対象の情報を数学的に記述する方法 • 推測統計学(1925年) Inferential Statistics フィッシャー(Rinald Aylmer Fisher) 「研究者のための統計的方法」 標本集団の要約値から母集団の要約値を確率的に推測 し、それによって母集団の様子を記述する • ベイズ統計学・ノンパラメトリック手法 母集団の確率分布を事前に仮定しない方法 2 記述統計学の目的 Descriptive Statistics • 沢山のデータを要約し、中に含まれている情報を 把握しやすくするための手段 • 例:学生100人の体重のデータがある. その100個の数値持っている情報を簡単に表わしたい データ,データ, データ,データ, データ,データ, データ,データ, データ,データ 要約値 (統計量) 判断 計画 平均値:「100人の学生の体重はだいたい60kgぐらいである」 3 +標準偏差: 「100人の日本人の体重はだいたい50~70kgである 」 記述統計学と推測統計学 多数データの 数学的要約 ・記述 母集団の データ (仮想的) 母集団 無作為 抽出 標本集団 のデータ 確率的推測・記述 少数データの 数学的要約 ・記述 4 標本抽出(Sampling)の考え方 • 知りたいのは,同様の性質を持つデータの全体(母 集団population)が持つ性質 – 全数調査は困難(日本中学生の実力テストの点数) – 全数調査は無意味(強度が売り物のPCの破壊検査) • 特定の性質を持った個体に偏らないようにして,少 数の個体を抜き出す(標本sample) – それらの観測値を手に入れる(標本値) • 標本の代表値(例えば平均値)を求め,そこから母 集団の性質(母数:母集団の平均や分散の値)を推 測する – 母集団の性質についての確からしさの判断→検定 – 母集団の記述統計値を推測→推定 5 目の前のさいころの出目 • 母集団:このサイコロを何回も振ったときに出る 目の出方 • 標本値:確率変数X={1,2,3,4,5,6} • サンプリング:例えば4回サイコロを振る • 統計量:4回のサイコロの目の平均値 Y 1 4 (X1 X 2 X 3 X 4) • 統計量の実現値がy=1.25であったとする • (4回のうち3回が1,1回が2であったことを意味し ている) 6 4.2 推測統計の分類(p72) • 統計的推定 statistical estimation, inference 得られた統計量の実現値をもとに,母集団の確率分 布を決めるパラメータ(母数)を推定 一部の中学生の実力テストの結果を用いて,日本の 中学生全体の同じ実力テストの点数を推測する 日本の中学生の平均点は60点ぐらいだろう(点推定) 日本の中学生の点数は50点から70点ぐらいだろう(区間推 定) • 統計的検定 statistical test 母集団の性質に関する何らかの仮説の是非を,得ら れた統計量の実現値に基づいて判断 一部の中学生に同じテストを5年後に受験させて,次 のどちらであるかを判断したい 日本の中学生の実力は5年間で変化していない 日本の中学生の実力は5年間で変化した 7 4.3点推定 point estimation • 17歳の日本人男性全体の平均身長を知りたい(母 数:母平均) • 10人の17歳男性を標本として抽出し身長の計測値 を得る • 10個の計測値から,標本の平均値を計算する (169.3) • 標本平均の値を用いて,17歳日本人男性の平均身 長を推測する > 身長 <- c(165.2, 175.9, 161.7, 174.2, 172.1, 163.3, 170.9, 170.6, 168.4, 171.3) > 身長 [1] 165.2 175.9 161.7 174.2 172.1 163.3 170.9 170.6 168.4 171.3 > mean(身長) 8 [1] 169.36 (p74図4.2)母集団と標本 母集団population 標本抽出 sampling 標本sample 記述 母数 Population Parameters 標本統計量 Sample Statistics (本当に知りたいもの) (標本から計算できるもの) 母平均 母分散 母標準偏差 母相関係数 母比率 など 推定 inference 標本平均 標本分散 不偏分散 標本標準偏差 標本相関係数 標本比率 など 9 標本抽出に伴う誤差(p75) サイズ2の 標本抽出 sampling 母集団population 1,2,6 Aさんは数字が書かれた3 つの「玉」が入った袋から, 玉を出し,数字を報告 玉を2個 取出し 報告 標本sample 1,2 1,6 2,6 記述 標本統計量 Sample Statistics (標本から計算できるもの) 母数 Parameter (本当に知りたいもの) 母平均 (1+2+6)/3=3 標本平均 推定 inference 1.5 3.5 4.0 標本統計値 標本誤差を含む (統計量の実現値) 誤差を許容限度内に抑える方法 10 生じうる誤差の大きさの見通し 4.4 推定値がどれぐらい当てに なるか?(p77) • 標本抽出の方法 単純無作為抽出 – 母集団内の各データが等確率で選ばれる方法 – 実際に取ったサンプルがたまたま「偏る」かも • 抽出データの性質を表わす「確率変数」 – 実際に結果が得られるまで値がわからない変数,同じ手 続きを踏んでも再現性がない • 確率変数がどのような値をとるかを示す「確率分布」 – 実際の実現値から作るのではなく,理論的に決められるべ きもの – ただし,非常の多くの実現値が繰り返し得られるなら,度数 分布から確率分布をほぼ知ることができる 11 推定値の確からしさ • 推定値は,そのときの標本の実現値によっていろいろ な値を取る:確率変数であり,「標本統計量」と呼ぶ • 母集団のばらつきが少なければ,推定値は良く当た る(母集団の確率分布) 標本の実現値 を全て使った平 均値を, 「点推定値」と する場合 標本の確率分布 = 母集団分布 母集団分布 + 推定量の計 算方法 ↓ 推定量の確 12 率分布 4.5.1点推定量(標本統計量)の 望ましさ(p89) • 不偏性:標本統計量の分布が,真値を中心 に広がっているか? • 有効性:標本統計量が狭い範囲に分布し ているか? 13 モンテカルロ法による 標本統計量分布の経験的な検討 • #母集団分布を仮定する(正規分布) 4.4.5 curve(dnorm(x,mean=50,sd=10)) 標本平均<-numeric(length=10000) • #以下の作業を繰り返す for(i in 1:10000){ – #正規母集団から無作為抽出をする 4.4.7 標本 <- rnorm(n=10,mean=50,sd=10) – #標本統計量の実現値(標本統計値)を求める mean(標本) • #統計量の実現値の分布を作る4.5.2 標本平均[i] <- mean(標本) } 14 標本平均(という統計量)の分布 – #標本平均値の平均値 • mean(標本平均) • curve(dnorm(x,mean=50,sd=10/ sqrt(10)),add=TRUE) 0.04 – #理論分布曲線(標準偏差が √N分の1になる)との比較 0.00 • hist(標本平均,freq=FALSE) Density – #ヒストグラムを相対値で書く 0.08 0.12 Histogram of 標本平均 40 45 50 55 標本平均 15 60 偏りのある統計量の例 標本平均B<-numeric(length=10000) #以下の作業を繰り返す for(i in 1:10000){ 標本 <- rnorm(n=10,mean=50,sd=10) #10個からなる標本を小さい順にならべる. 整列標本 <- sort(標本) Histogram of 標本平均B 0.08 0.04 0.00 mean(標本平均B) #[1] 48.26386 hist(標本平均B,freq=FALSE) Density 標本平均B[i] <- mean(整列標本[1:9]) } 0.12 #初めの9個を取り出し,平均を残す 35 40 45 50 標本平均B 55 60 16
© Copyright 2025 ExpyDoc