行動計量分析 Behavioral Analysis •第4回 推測統計学の考え方(2) inferential statistics –母数の区間推定 interval estimation –第5章 統計的仮説検定 • Statistical inference 1 記述統計学と推測統計学 多数データの 数学的要約 ・記述 母集団の データ (仮想的) 母集団 無作為 抽出 標本集団 のデータ 確率的推測・記述 少数データの 数学的要約 ・記述 2 4.2 推測統計の分類(p72) • 統計的推定 statistical estimation, inference 得られた統計量の実現値をもとに,母集団の確率分 布を決めるパラメータ(母数)を推定 一部の中学生の実力テストの結果を用いて,日本の 中学生全体の同じ実力テストの点数を推測する 日本の中学生の平均点は60点ぐらいだろう(点推定) 日本の中学生の点数は50点から70点ぐらいだろう(区間推 定) • 統計的検定 statistical test 母集団の性質に関する何らかの仮説の是非を,得ら れた統計量の実現値に基づいて判断 一部の中学生に同じテストを5年後に受験させて,次 のどちらであるかを判断したい 日本の中学生の実力は5年間で変化していない 日本の中学生の実力は5年間で変化した 3 (p74図4.2)母集団と標本 母集団population 標本抽出 sampling 標本sample 記述 母数 Population Parameters 標本統計量 Sample Statistics (本当に知りたいもの) (標本から計算できるもの) 母平均 母分散 母標準偏差 母相関係数 母比率 など 推定 inference 標本平均 標本分散 不偏分散 標本標準偏差 標本相関係数 標本比率 など 4 4.3点推定 • 17歳の日本人男性全体の平均身長を知りたい(母 数:母平均) • 10人の17歳男性を標本として抽出し身長の計測値 を得る • 10個の計測値から,標本の平均値を計算する (169.3) • 標本平均の値を用いて,17歳日本人男性の平均身 長を推測する > 身長 <- c(165.2, 175.9, 161.7, 174.2, 172.1, 163.3, 170.9, 170.6, 168.4, 171.3) > 身長 [1] 165.2 175.9 161.7 174.2 172.1 163.3 170.9 170.6 168.4 171.3 > mean(身長) 5 [1] 169.36 点推定量の性質 • たまたま取ってきた標本から計算した値(推定値) がどのぐらい真値に近いかはよくわからない。 • さまざまな標本から同じ計算方法で推定値を求 める場合のその推定量の統計的な性質を考える。 1)不偏性:標本を何回も取り直して推定量を計算 すると、その平均値が真値に一致する 2)一致性:標本の数を十分大きくするとその一組の (大)標本から求めた推定量が、真値以外の値を とる確率は0に近づく 3)有効性:推定量の分散が、他の方法で計算した 推定量の分散よりも小さい 6 母平均の不偏推定量 • 母集団の確率分布に関係なく、標本値の単純平 均値は、母平均の不偏推定量である • 母集団の確率分布に関係なく、標本値の重み付 き平均値は、母平均の不偏推定量である • (2個目以降の標本を無視し)1個目の標本の値 を推定量としても、それは不偏性を持つ • 標本の中の中央値を推定量としても、それは不 偏性を持つ • 標本から両極端の同一個数の標本を取り除き、 残りの平均値を推定量とすると、それは不偏性 を持つ 7 演習:有効推定量としての単純平均 • 重み付き平均値 Y wi X i ただし wi 1 は不偏性を持つことを示せ • 母集団からの標本値 X i は母分散 2 で ばらつく。このとき、上記の重み付き平均値 の分散は、 Y 2 wi 2 2 となる この重み付き平均値の分散が最も小さくな るように重み wi を定めなさい 8 母分散の不偏推定量(母平均既知) • 母平均が既知であるなら、母分散の推定 量は標本の母平均回りの分散を用いて不 偏推定できる。 1 ˆ ( X i ) 2 n 2 ˆ 2 X n 2 i 2 9 母分散の不偏推定量(母平均未知) • 母平均が未知であるなら、標本の平均周り の分散を用いて計算する必要がある。 • E( ( X i X )2 ) (n 1) 2 n 2 • 母分散の不偏推定量(不偏分散推定量) ˆ s 2 2 (X i X) 2 n 1 10 点推定から区間推定へ 0.3 0.2 0.1 > 標本平均 <- numeric(length=10000) > for(i in 1:10000){ + 標本 <rnorm(n=100,mean=50,sd=10) + 標本平均[i]<- mean(標本) 0.0 N (50,10 / 100) N (50,1) 0.4 > curve(dnorm(x,mean=50, sd=1), from=20, to=80) > curve(dnorm(x,mean=50, sd=10), add = TRUE) > hist(標本平均, freq=FALSE, add=TRUE) dnorm(x, mean = 50, sd = 1) • 母平均μ母分散σ2の母集団 • 大きさnの標本を取り出す • 標本平均(平均の点推定量) を計算 • 「標本平均」は母集団分布よ りも中央に集まった分布に • 正規母集団 N(50,10)から n=100のサンプルをとる • 標本平均は正規分布に従う. 20 30 40 50 x 60 70 80 11 標準正規分布における確率 0.3 0.2 0.1 – Prob(X≦x)=p – pnorm((x-μ)/σ) μ-2σ までの 下側確率 0.022 0.0 • N(μ,σ2)に従うXの xに対する下側確率 dnorm(x, mean = 50, sd = 1) – ZがN(0,1)に従うとき – Z≦zとなる確率(下側確 率)を求める関数. – Prob(Z≦z)=p – pnorm(z) 0.4 • N(0,1)を標準正規分 布という > pnorm((49-50)/1) [1] 0.1586553 > pnorm((48-50)/1) [1] 0.02275013 μーσ までの 下側確率 0.158 12 46 48 50 52 54 標準正規分布における確率点 (p117) N(50,1)に従うXは,95%の確率でμ• N(0,1)を標準正規分 1.96σ<X≦μ+1.96σの間に入る. 布という – 下側確率がpとなる確 率の点zを求める関数. – Prob(Z ≦z)=p – qnorm(p) 下側確率 2.5% 下側確率 97.5% • N(μ,σ2)の下側確率p の点 – Prob(X≦x)=p – x<μ+σqnorm(p) (μ-1.96σ) (μ+1.96σ) > curve(dnorm(x,mean=50, sd=1), from=45, to=55) > abline(v=50+qnorm(0.975)) 13 > abline(v=50+qnorm(0.075)) 母平均が異なる場合の 標本平均の分布 95%の確率で標本平均が 含まれる領域 0.4 μ=47 μ=46 μ=48 0.3 0.2 0.1 母平均が標本平均値 から離れている状況は, めったに起きない(5% 以下) 0.0 母平均が標本平均 値に近い状況は 十分(5%以上) 起きる可能性がある dnorm(x, mean = 50, sd = 1) 母平均μ 46 母平均 標本平均値 母平均 標本平均値 48 50 52 54 x 14 母平均の区間推定 (95%以上で母平均が存在する範囲) 母平均が標本平均値に近い状況 母平均が標本平均値から離 は十分(5%以上)起きる可能性が れている状況は,めったに起 きない(5%以下) ある 母平均 標本平均値 5%以上の確率で起こりうる状況のうち, 最も極端な2つのケースを考える 母平均 標本平均値 母平均が存在する範囲 標本平均値 標本平均値-1.96σ<μ≦標本平均値+1.96σ15 区間推定 • ある確率(たとえば95%)で母数の真値が存在 する区間を求めたい • 母数の真値が 0 のときに、ある観測統計量の 確率分布を求め、「有意水準α以下の確率でしか 実現しない領域」を棄却域として設定することが 出来た。 • 統計量の実現値がこの棄却域に入り、かつ母数 の真値が 0 である確率は、α/2以下である。 統計量の 確率 α/2 θ0 統計量の 確率 α/2 信頼区間 統計量の実現値 16 正規母集団の母平均の区間推定 母平均の区間推定(母分散σ2既知) • (正規分布に従う)n個の標本の平均値は、平均μ 分散σ2/nの正規分布に従う。 • 平均μを引き標準偏差 / nで割れば、 統計量 Z X は標準正規分布に従い、 / n 確率1-αでZは、-z(α/2)<Z<z(α/2)を満たす。 17 Z(0.10/2)=1.645 Z(0.05/2)=1.96 Z(0.01/2)=2.575 18 信頼区間の導出(続き) • すなわち X z ( / 2) z ( / 2) / n となる確率が1-αである。変形して、 X z ( / 2) X z ( / 2) n n となる確率が1-αである。具体的には、 0.10 X 1.64 0.05 X 1.96 n n X 1.64 X 1.96 n n 90%信頼区間 95%信頼区間 19 [例題4.3] • 次の10回の引張強度の計測結果から、鉄 筋の母平均の99%信頼区間を求めよ。 • ただし、標準偏差を4.3とする。 • 52,62,54,58,65,64,60,62,59,67(X=60.3) 20 代表的な確率分布 • 母集団の性質を決める,個々の事象が発生する 確率や母集団の平均値(母数)が与えられたとき, • 標本値から計算された統計量が取りうる値とその 発生確率の組(統計量の確率分布)を計算したい • 一般にこの計算は面倒であるが,いくつかの現 象については計算式がわかっている. 母集団の性質 を決める数値 (個々の事象 の確率など) 要約値(統計量) の確率分布 法則性,計算式 21 中心極限定理(central limit theorem) 正しく作られたサイコロをn 回振り,出た目Xi の平均値 1 n Y Xi n i 1 を求める。 Y の確率分布は どのようになるか? 図1-1 に,n = 1,2, 4, 8 の時 の分布を示す。 n が大きくなると滑らかな分布 になる。 このn を無限に大きくしていく 22 中心極限定理(central limit theorem) 確率変数X1,X2,・・・,Xn が互いに独立で全て同 一の分布(平均:μ,分散:σ2)に従うとき, 統計量Y = (X1 +X2 + ・・・ + Xn)/n は,n →∞ の 時,平均μ ,分散σ2 /n の正規分布に従う。 この定理はもとの確率分布がどんな分布であっても成 立する。従っていろいろな段階で生じる相互に独立な 誤差が重なり,その和として全体の誤差が発生してい るような場合,その誤差の分布は正規分布に従うこと が期待される。実際,多くの現象は正規分布に従う。 23 正規分布(Normal Distribution) 確率密度関数 平均と分散 24 標準正規分布 (standard normal distribution) • もとの確率変数Xが正規分布N(μ,σ2)に従うとき, 新しい確率変数として,Z=(X-μ)/σを作る. • このとき,確率変数Zは正規分布N(0,12)に従う. • これを標準正規分布という. • 確率密度関数 • 確率分布関数→数表(標準正規分布表) 25 標準正規分布表 26 【問題4】正規分布 • あるクラスの英語の試験の平均点 x は 67で標準偏差 (x)は8.5.また,数学の試 験の平均点 y は53で標準偏差 ( y ) は 12.6でした. • このクラスのA君の成績は英語が75点で 数学が68点でした. • 英語と数学について,A君の成績よりも良 い生徒の割合を計算しなさい. 27 【問題5】超過確率に対応する値の計算 • 過去の記録から,ある河川流域の年間の降雨量 は,正規分布N (1500mm,(400mm)2)に従うと推定 できる. • この流域の90%確率年降雨量はいくらか. すなわち,年降雨量がその値を超えない確率が 90%であるような降雨量の値を求めよ. (これを1/10年確率降雨ともいう) 28 χ2分布 (Chi squared distribution) • 確率密度関数 自由度f のχ2 分布(カイ2乗分布) χ2 分布は正規分布と密接な関係があ る。 X1,X2 ,・・・,Xf が互いに独立な標準正 規分布N(0,12) に従うとき、2乗和Z = X21 +X22 + ・・・ +X2f の分布は自由度 f のχ2 分布となる。 正規分布に従う変数の標本値から計 算した分散(標本分散) も、χ2分布に 従う。 29 χ2分布表 (Chi squared distribution) 30 t分布 (Student’s t distribution) 自由度f のt 分布 • 確率密度関数 t分布も正規分布と関係がある。 標準正規分布N(0, 12) に従う確率変 数X と、自由度f のχ2 分布に従う確 率変数Y が独立であるとき、 ZX Y/ f は自由度f のt 分布に従う。 したがって正規分布に従う変数を、 標本分散で割った統計量は、t 分布 に従う。 31 t値,t分布の名前の由来 • t値を考え、t分布を発見したのは、ゴセット(William Sealy Gosset):ダブリンのギネスビールの統計技師 • ギネス社が従業員の研究発表を認めていなかった ため,ゴセットはスチューデント(Student)というペン ネームで論文を書いた. • フィッシャーがこの値と分布の重要性を認めた. • スチューデントの名前から文字を取り、 「t分布」 「t 値」と呼ばれるようになった • (頭文字のsは標準偏差の記号として使われていた) • t値のことを「スチューデントのt値」と呼ぶこともある 32 t分布表 (Student’s t distribution) 33 F分布 (F distribution) 自由度(f1,f2) のF 分布 • 確率密度関数 F分布もχ2分布と関係がある。 X, Y が独立でそれぞれ自由度f1, f2 の χ2 分布に従うとき、 Z X / f1 Y / f2 は自由度(f1, f2) のF 分布に従う。 したがって2 つの標本群から計算し た分散の比をとると、その統計量は F 分布に従う. 34 F分布表 (F distribution) 35 【問題6】正規分布での近似 • 硬貨を500回投げたとき,表が200~270回出る 確率を求めよ • この問題は本来二項分布B(500,1/2) の分布を 聞いている. • この二項分布B(n,p)は,独立な二項分布B(1,p) に従うn個の変数Xiを加えたものであるから,nが 十分大きければ,中心極限定理により,正規分 布N(np,np(1-p))で近似できる. • 標準正規分布表を用いて計算できる 36 正規母集団の母平均の区間推定 母平均の区間推定(母分散σ2未知) • (正規分布に従う)n個の標本の平均値 X と分散 の不偏推定量 sˆ2 ( xi X )2 /(n 1) を用いれば、 T X ( sˆ / n ) は自由度n-1のt分布に従う。 統計量 • t分布表の超過確率α/2の点を tn-1(α/2)とすれば、 確率1-αでTは、-tn-1(α/2)<T<tn-1 (α/2)を満たす。 37 たとえば n-1=9に対して t(0.10/2)=1.833 t(0.05/2)=2.262 t(0.01/2)=3.250 たとえば n-1>200に対して t(0.10/2)=1.645 t(0.05/2)=1.960 t(0.01/2)=2.576 自由度が大きくなると、t分布は標準正規分布に近づく 38 信頼区間の導出(続き) • すなわち X tn 1 ( / 2) tn 1 ( / 2) sˆ / n となる確率が1-αである。変形して、 sˆ sˆ X tn 1 ( / 2) X tn1 ( / 2) n n となる確率が1-αであるので、これを確率(1-α)の 信頼区間と出来る 0.05 X 1.96 n X 1.96 n 95%信頼区間 39 [問題4.3] • 次の10回の引張強度の計測結果から、鉄 筋の母平均の99%信頼区間を求めよ。 • ただし、標準偏差はわからないものとする。 • 52,62,54,58,65,64,60,62,59,67(X=60.3) 40 正規母集団の母分散の区間推定 母分散の区間推定(母平均μ既知) • 標本分散 Sk ( xi )2 / n から計算した統計量 S k が、自由度nのχ2分布に従う。 2 0 2 /n • χ2分布は、左右対称でないことに注意して、超過確 率(1-α/2)の左側点と超過確率(α/2)の右側点を数 表から読み取る。 Sk • 2 2 n (1 / 2) 2 n ( / 2) /n である確率が1-αである。 41 42 信頼区間の導出(続き) Sk 2 ( 1 / 2 ) • すなわち n ( / 2) 2 /n 2 n となる確率が1-αである。変形して、 nSk nSk 2 2 2 n ( / 2) n (1 / 2) となる確率が1-αである。具体的には、 10 S k 10 S k 99%信頼区間 2 0.01, n 10 25.2 2.16 43 [例題4.4] • 次の10回の引張強度の計測結果から、鉄 筋の母分散の99%信頼区間を求めよ。 • ただし、母平均をμ=65とする。 • 52,62,54,58,65,64,60,62,59,67(X=60.3) 44 正規母集団の母分散の区間推定 母分散の区間推定(母平均μ未知) 2 S ( x X ) /(n 1) から計算し • 不偏分散推定量 u i Su た統計量 2 0 2 / n が、自由度n-1のχ2分布に従う。 • χ2分布は、左右対称でないことに注意して、超過確 率(1-α/2)の左側点と超過確率(α/2)の右側点を数表 から読み取る。 Su 2 n21 ( / 2) の確率が1-α。 • n 1 (1 / 2) 2 /n 確率1-α信頼区間 nSu nSu 2 2 2 n1 ( / 2) n1 (1 / 2) 45 統計的仮説検定(5章)p109 • 標本を元に,母集団に関する何らかの仮説の真偽を 確認したい. • 1 母集団に対する帰無仮説と対立仮説を設定する • 2.検定統計量を選ぶ • 3.有意水準の値を決める • 4.データから,検定統計量の実現値を求める • 5.検定統計量の実現値を棄却域と比較する – (1)実現値⊂棄却域→帰無仮説を棄却,対立仮説を採択 – (2)実現値⊂棄却域→帰無仮説を棄却しない(判断保留) 46 帰無仮説と対立仮説 • 帰無仮説(null hypothesis) • H0:日本人の平均体重は50kgである (μ=μ0 または δ=μ-μ0=0) • 対立仮説(alternative hypothesis) • H1:日本人の平均体重は50kgではない (μ≠μ0 または δ=μ-μ0≠0) 両側検定 • H1:日本人の平均体重は50kgより大きい (μ>μ0 または δ=μ-μ0>0) 片側検定 47 検定統計量と棄却域・採択域 • 検定のために用いる標本統計量 – 帰無仮説が成り立つ場合には (母数の真値を 用いて) 標本統計量が従う確率分布が理論的 にわかり, 確率などを計算できる • 帰無仮説の下で非常に生じにくい(ある小 さな確率α以下でしか生じない)値の範囲を 「棄却域」という. • それ以外の領域を「採択域」という 採択域 棄却域(両側) 採択域 棄却域(片側) 48 第1種の誤りと第2種の誤り • 第一種の誤り(あわてものの誤り) – 帰無仮説が真のとき,これを棄却してしまう誤り – 本当は差がないのに「差がある」と判断する – この確率はα以下にできる • 第2種の誤り(のんびりものの誤り) – 帰無仮説が偽のとき,これを棄却しない誤り – 本当は差があるのに「差がない」と判断する 49 有意水準のきめかた 各自の考え方に依存するということ エピソードがあります(真偽のほどは定かではありません) フィッシャーが推計学を開発した時、有意水準を決める段にな ってハタと考えた。 彼は当時30才だったが、50才までは現役 で研究を続け、その後は釣りでもしながら悠々自適の余生を送 ろうと常々考えていた。 そこで、 「農作物が相手だから、これから毎年1回ずつ実験をするとし て、20年間に20回できることになる。 まあ、一生に一度ぐら いは間違いを犯しても、神様はお許し下さるだろう」と考え、 20回に1回間違える確率として有意水準を5%にしたという。 この話を人から聞いた当のフィッシャーいわく、 「なるほど、それはうまい話だ。 実は私も、なぜ5%をよく使 うのか説明を求められて困っていたんだ。 これからは、そう 答えることにしよう!」 有意水準5%というのは、これくらいいい加減なものです 50 正規分布に従う母集団の母数に関 する仮説検定 • 母集団が正規分布に従う場合(正規母集団)、母 平均、母分散に関する仮説を検定してみよう。 • 平均 分散 • 母分散既知の場合 正規分布 χ2分布 • 母分散未知の場合 t分布 • 母分散未知で未知の母平均の同一性の検定 t • 未知の母分散の同一性の検定:F 51 1) 母平均の検定(母分散既知) 52 53 2)母平均の検定(母分散未知) 54 55 3)母分散の検定(母平均既知) 56 4)2つのグループの分散の同一性 の検定(母平均は未知) 57
© Copyright 2025 ExpyDoc