Data Analysis and Experimental Design 1 補足資料 統計的推測 Data Analysis and Experimental Design 2 統計的推測 与えられたデータをある(未知の)確率分布に従う確率変数 の実現値(観測結果)とみなし,そのデータを基にその確率 分布についての推測を行う. 研究の主たる目的は,対象の未知の性質を明らかにすることである. ・身長とIQの間に関連はあるのか. ・地域によって身長とIQに違いはあるのか. ・音声認識の精度はどのくらいか. 研究で扱うことが出来るのは対象全体(母集団)ではなく,その一部 (標本)である. ・母集団は無限大である.例:音声 ・有限であっても,数が非常に多い.例:人類,日本人 ・日時やコストがかかる. ・全数調査は不正確な場合がある.例:熟練を要する調査,実験 ・調査によって対象が損なわれる恐れがある.例:破壊検査 1 Data Analysis and Experimental Design 3 パラメタ 研究で知りたいのは標本の性質(統計量)ではなく,母集団の性質(パ ラメタ)である. ・協力者20人のIQではなく,人類全体,日本人全体のIQ ・5回の発話音声ではなく,全ての音声 統計量から,どの程度正確に(どの程度の誤差を許容して)パラメタを 推定できるかが重要となる. 標本が同一の母集団分布から独立に抽出されると考えれば,標本の大き さnが大きくなるほど ・標本の平均は母集団の平均に近づく(大数の法則) ・統計量 の分布は正規分布 に近似される (中心極限定理) 各種統計量の確率(密度)分布(標本分布)を求め,統計量の実現値か らパラメタを推定する際の誤りの程度を確率で表す(後述). Data Analysis and Experimental Design 4 例 新しい睡眠薬の効果の有無を n 人の被験者による実験で判定したい.薬の 服用による各被験者の睡眠時間の増加量 を測定する. は独立で同一の分布 に従うと仮定する.この場合, y 睡眠薬の効果がない … y 〃 ある … ということになる.では,標本 ような を観測すれば,効果がある(つまり, ZZ 睡眠時間 の増加量 Z x1時間 ZZ … x2時間 平均(厳密には標本平均 xn の観測値としてどの )と言えるか? xn時間 の実現値) > 0 でもそれほど大きくなければ偶然変動かも? 2 Data Analysis and Experimental Design 5 統計量からの推定 標本の平均 の値から 計量 を用いる: は平均 仮説の下で, であるか判定する.そのために、以下の統 のt分布に従うことが分かっている.そこで, という の実現値 がt分布の中の非常にまれな(生起確率 が非常に小さい)範囲に位置していれば,仮説がおかしいと考えて, と判定する(統計的検定). 非常にまれな確率(ex. 5%) Data Analysis and Experimental Design 6 統計的検定 標本分布の知識と統計量の実現値を基に,パラメタ値について判定をする. 例.統計量 において, という仮説の下で,実現値 が自由度n‐1のt分布に おいて非常にまれな範囲に位置していれば,仮説が誤りであると考えて と判定する. これを形式化したのが仮説検定 統計的検定(正式には統計的仮説検定、あるいは単に仮説検定): 標本Xの統計モデル{Pθ; θ∈Θ}において,Θ0とΘ1を互いに排反で Θ0∪Θ1= Θとなるパラメタ空間Θの部分集合とするとき,標本或いはそ の統計量の値を基にパラメタがΘ0とΘ1のどちらに属するかを決定する. 上記の例で言えば,Θは ,Θ0とΘ1はそれぞれ , となる. 3 Data Analysis and Experimental Design 7 帰無仮説 帰無仮説:パラメタθがΘ0に含まれると言う仮説 H0: θ∈Θ0 対立仮説:パラメタθがΘ1に含まれると言う仮説 • 帰無仮説の下で,例外的な(帰無仮説に矛盾する) H1: θ∈Θ1 の領域 を求める. すなわち, (有意水準 は 0.05 や 0.01 といった小さな値) ex. • 観測結果 が, ならば,帰無仮説を棄却し,対立仮説を支持. ∵ 『帰無仮説は正しいが例外的なことが起きた』 と考えるより, 『帰無仮説が誤っている』 と考えるほうが合理的. 第Ⅰ種の誤り: 帰無仮説が正しいのに,帰無仮説を棄却してしまう 第Ⅱ種の誤り: 帰無仮説が正しくないのに,帰無仮説を棄却できない 第1種の誤りを犯す(ような標本を得る)確率: α • は第1種の誤りがα以下で,第2種の誤りが極力小さくなるように設定する. 4
© Copyright 2024 ExpyDoc