15/10/20 4.統計的推測 ① 心理学と統計学 ② 推測統計学の基礎 ③ 母集団の推定 ④ 有意差検定の基礎 ⑤ 平均値の検定の実際の手続き ④ 有意差検定の基礎 (a) 2つのサンプル平均間の比較 (b) 平均の差の分布と検定 (c) 有意差検定の論証ステップ (d) 検定における2種類の過誤 (a) 2つのサンプル平均間の比較 • 同じ母集団から一度に2つのサンプルを取っ てくることを考える。これを何度も繰り返す。 • それぞれに対して2つの平均の分布と標準誤 差を考えることができる。 • 2つの平均(平均の分布の平均)と標準誤差 (平均の分布の標準偏差)は、同じ母集団な らばきわめて近くなるはずである。 (a) 2つのサンプル平均間の比較 • 答え: サンプルの分布はダブっているが、9 9%の信頼区間、つまり母集団の平均が9 9%の確率で含まれる範囲は、全くダブって いない。 • これはあやしい。 • 違う母集団と考えるべきである。 (a) 2つのサンプル平均間の比較 • 例:男子50人、女子50人のサンプルで、血圧を測定。 サンプル平均 標準偏差 平均の標準誤差 99%信頼 区間(2.58SE) 男子 120 11.3 1.6 116-‐124 女子 110 11.3 1.6 106-‐114 • 知りたいこと:男子と女子は同じ母集団から来ている と考えてもいいか? (b) 平均の差の分布と検定 • 以上のような2つの平均値の差を吟味する事を 「有意差検定」という。心理学の基本中の基本で ある。 • 平均の差の検定は、実際には「平均値の差の分 布」を使って行う。 • 2つのサンプルが同じ母集団から来ていると仮 定しているのだから、平均の差の分布の平均は ゼロになる。 • この分布も正規分布で、平均の差の標準誤差は √SE1^2+SE2^2となる。 1 15/10/20 (b) 平均の差の分布と検定 (b) 平均の差の分布と検定 • 血圧の例では、平均の差= 10 平均の差の標 準誤差=2.26である。 • これを使うと、2つのサンプルの比較ができる。 • 平均の差は10で、これは平均の差の標準誤 差の約4倍である。 • つまり、もしこれが同じ母集団からのサンプル ならば、このようなサンプル平均の差が起き る確率は0.03%(3SE)よりずっと低い。 • 心理学で多用される95%(1.96SE)の信頼区間を 使うと、1.96 x 2.26=4.4296で、平均の差は-‐4.43 から+4.43の間に95%の確率で入るはずである。 • 実際の平均の差は10であり、この範囲より外に ある。つまり、これら2つのサンプルが同じ母集 団から来ているならば、10という平均の差が単な るサンプルの変動のみで生じている可能性は 5%以下ということが言える。 • つまり同じ母集団から来ている可能性は5%以 下である。 (c) 有意差検定の論証ステップ (c) 有意差検定の論証ステップ • 「背理法」のような論証をする。 • まず2つのサンプルは同じ母集団から来てい ると仮定する。 • そしてそれを否定する事によって、2つの平 均値には差があると結論する。 ① 帰無仮説 Null Hypothesis H0:μ1=μ2 (2つのサンプルは同じ母集団から来ている) (d) 検定における2種類の過誤 • 第1種の過誤(TypeⅠerror):正しい帰無仮説を否定する (実際は差がないのに差があると結論する。ゴミを拾ってし まう) • 第2種の過誤(Type Ⅱ error):誤った帰無仮説を受け入れ る(実際は差があるのに差がないと結論する。宝物を見つ けそこねる) • 第1種の過誤を減らすと第2種の過誤が増加する。逆も成 り立つ。 • 科学では第1種の過誤を減らすのが望ましいとされる。実 際に差がないのに差があるとする間違いをするよりは、差 を見つけそこなったほうがましだ、と考える。 • 無罪の人を有罪にするよりも有罪の人を無罪にするほう がまだましだ、と同じ。 ② 帰無仮説が真なら、平均の差の分布は平均ゼロ、 平均の差のSE=2.26の分布に従うはずである。 ③ 実際の平均の差は10である。 ④ これは95%信頼区間(-‐4.43~+4.43)より外にある。 ⑤ 同じ母集団から来ている可能性は95%ありえない と いうことを(5%の危険率でもって)宣言できる。 ⑥ 帰無仮説を棄却する。すなわちμ1=μ2ではない。 ⑦ 平均の差は「5%水準で有意である」と結論する。 (d) 検定における2種類の過誤 帰無仮説 真 偽 決定 棄却 誤(Ⅰ) 正 受容 正 誤(Ⅱ) False Alarm(FA) Correct RejecIon(CR) Hit Miss 2 15/10/20 4.統計的推測 ⑤ 平均値の検定の実際の手続き ① 心理学と統計学 ② 推測統計学の基礎 ③ 母集団の推定 ④ 有意差検定の基礎 ⑤ 平均値の検定の実際の手続き • これだけで、zが-‐1.96から+1.96の範囲に分布 の95%が含まれ、この範囲外が5%であるこ とがわかる。つまりこの範囲は「95%の信頼 区間」を意味する。信頼区間の外の範囲を帰 無仮説の「棄却域」という。 ⑤ 平均値の検定の実際の手続き ⑤ 平均値の検定の実際の手続き • 自分のデータから、2群の平均値と標準誤差 を計算。 男:平均=120, SE=1.6 女: 平均=110, SE=1.6 • それらから平均の差と平均の差の標準誤差 を計算。 平均の差=10, 平均の差のSE=2.26 • 危険率(p値ともいう)を決める 。 心理学では 伝統的に5% • p値(小さい方!)に対応するzの値を表で参 照する :z=1.96 • この値は決めた危険率における信頼区間(-‐z ~+z)を表す :-‐1.96~+1.96 • zの値に自分のデータの平均の差の標準誤 差をかける :2.26x1.96=4.4296 ⑤ 平均値の検定の実際の手続き ⑤ 平均値の検定の実際の手続き • 自分の平均値の差がこの範囲からはみ出せ ば、「5%水準で差は有意」:はみ出ている。 • 従って平均の差は5%水準で有意であり、帰 無仮説は棄却される。終了。 • 現代では数表でなく統計ソフトを使う。 • 直接に危険率を計算する。昔は5%と決める と有意か有意でないかだけであったが、今で はp=.0023のように正確に書く。 3 15/10/20 ⑤ 平均値の検定の実際の手続き (b) t検定 • しかしこのz検定は実際にはほとんど使われ ない。z検定はサンプルの大きさ(データ数) が非常に大きいときのみに正確だから。 • サンプルに含まれるデータが30個以下だと、 正規分布による検定は不正確になるというこ とをStudent(1908)が証明した。これが現代推 計学のあけぼのである。 ⑤ 平均値の検定の実際の手続き • 30以下の小さなサンプルの場合には Studentのt分布というものを使う。 • これを用いて行うのがt検定である。 • t検定は、心理学におけるもっともポピュラー な技法である。 ⑤ 平均値の検定の実際の手続き ⑤ 平均値の検定の実際の手続き • t分布は自由度が増大するほど「裾野」が狭く なり、df→∞でt→zとなる。 • 従って、t分布表は自由度にしたがって参照 する。 • 基本的なやり方はz検定と同じだが、まずtの 値を計算する必要がある。 • 自由度を求め、tの値を計算する(平均の差を 平均の差の標準誤差で割る) • 5%水準のt分布表から、自分のデータの自 由度に該当するtの値を参照する。 • これは帰無仮説が真の時のtの値、つまり9 5%の信頼区間(-‐t~+t)である。 • 自分のtの値がこの表の値より大きければ有 意となる。 ⑤ 平均値の検定の実際の手続き ⑤ 平均値の検定の実際の手続き • 血圧のデータをt検定しよう。 • 自由度はdf=(n1+n2-‐2)で、98となる。 • tの値の計算は簡単で、平均の差を平均の差 の標準誤差で割る。t=10/2.26=4.425。 • t分布表で両側5%, df=98のところを見る。 • しかしdfは80と120しかない。 • しかし、t(80)=1.99, t(120)=1.98で、t(98)はこの 間に入るから、明らかに自分のt値の方が大 きい。 • つまり平均の差は5%水準で有意である。 • これでt検定終了。 4
© Copyright 2024 ExpyDoc