統計学入門2 統計的検定: 平均値の検定 今日の内容 検定 仮説 帰無仮説・対立仮説 第1種の過誤、第2種の過誤 有意水準 平均値の検定 練習問題 問題1 一世帯あたりの一ヶ月あたりの平均支出 金額が20万円であるかどうかを調べたい と思った。いまある母集団が設定してあり、 その母集団から大きさ1600の標本を抽出 したところ、平均が22万円で、標準偏差が 5万円だったとする。このとき、平均支出金 額が20万円でないと結論付けられるか。 問題2 ある番組の視聴率調査を行うことになった。 無作為に抽出された400人に調査を行った とき、200人がその番組を見ていた。母集 団の視聴率が、40%以上であると結論付 けられるか。 仮説 統計的に調べたいと思っている命題 平均が×××である 視聴率が○○○である A薬とB薬は同じ有効率である 2種類の過誤 第1種の過誤 仮説が正しいときに仮説が正しくないという結 論を出すこと 第2種の過誤 仮説が正しくないときに仮説が正しいという結 論を出すこと 2種類の過誤 検定結果 仮 説 仮説は真 仮説は偽 真 ○ 第1種の過誤 偽 第2種の過誤 ○ 2種類の過誤 過誤の可能性は小さい方が望ましい 2種類の過誤を(ある限界を超えて)同時に 小さくすることは不可能 過誤を一定水準まで認める立場をとる 有意水準 第1種の過誤の確率を 一定水準に設定する 有意水準 慣例では、5% や 1% 問題1 一世帯あたりの一ヶ月あたりの平均支出 金額が20万円であるかどうかを調べたい と思った。いまある母集団が設定してあり、 その母集団から大きさ1600の標本を抽出 したところ、平均が22万円で、標準偏差が 5万円だったとする。このとき、平均支出金 額が20万円でないと結論付けられるか。 帰無仮説と対立仮説 帰無仮説 母平均 = 20万円 対立仮説 母平均 ≠ 20万円 検定統計量と有意水準 検定統計量 検定を行う場合に使用する統計量 帰無仮説の下での(標本)分布を基に、有 意水準に対応する棄却域を設定 検定統計量の実現値に対応する p値を求 め、有意水準と比較 平均の標本分布 (1) (2) x の平均は、母集団の平均m 2 x の分散は、 / n (3a) n が大きいとき、 x の分布は正規分布 (3b) 母集団分布が正規分布であれば、x の 分布は正規分布 帰無仮説と対立仮説 帰無仮説 母平均 = 20万円 対立仮説 母平均 ≠ 20万円 平均の標本分布 (1) (2) x の平均は、母集団の平均20万 2 x の分散は、 / n (3a) n が大きいとき、 x の分布は正規分布 (3b) 母集団分布が正規分布であれば、x の 分布は正規分布 検定統計量 平均の検定の場合 x m0 Z s/ n m0 は帰無仮説での母平均 検定統計量 平均の検定の場合(大きな標本の場合) x m0 Z s/ n 帰無仮説の下で、 平均0、分散1の正規分布 検定統計量 平均の検定の場合(大きな標本の場合) x m0 Z s/ n 帰無仮説が正しくなければ、 平均が0でなく、分散1の正規分布 検定統計量の分布 対立仮説の 下での分布 帰無仮説の 下での分布 -3 -2 -1 0 1 2 3 4 5 6 検定統計量の分布 帰無仮説の下での分布が母集団の分散 に依存しない 母集団の平均が帰無仮説と異なれば、 違った分布となる 棄却域の設定 有意水準(α%)と整合する棄却域を設定 する 帰無仮説の下での分布の両側α%点を棄 却域とする 検定統計量 平均の検定の場合(大きな標本の場合) x m0 Z s/ n 帰無仮説の下で、 平均0、分散1の正規分布 棄却域 有意水準が5%の場合 平均0, 分散1の正規分布の両側5%点 ±1.96 検定統計量の分布 対立仮説の 下での分布 帰無仮説の 下での分布 -3 -2 -1 0 1 2 3 4 5 6 検定の手順 仮説の設定 検定方法(統計量)の決定 有意水準の設定 検定統計量の計算 棄却域との比較(p値の算出) 問題1 一世帯あたりの一ヶ月あたりの平均支出 金額が20万円であるかどうかを調べたい と思った。いまある母集団が設定してあり、 その母集団から大きさ1600の標本を抽出 したところ、平均が22万円で、標準偏差が 5万円だったとする。このとき、平均支出金 額が20万円でないと結論付けられるか。 検定統計量 平均の検定の場合(大きな標本の場合) x m0 22 20 Z 16 s / n 5 / 1600 この値が1.96より大きいので、 帰無仮説を棄却する t 検定 母集団の分布が正規分布であれば… (標本の大きさに関係なく) x m0 Z s/ n は帰無仮説の下で自由度(n -1)の t 分布 棄却域 有意水準が5%の場合 自由度(n-1)の t 分布の両側5%点 分析ツールの出力 t-検定 : 等分散を仮定した2標本による検定 検定統計量の値 両側検定の場合のp値 平均 分散 観測数 プールされた分散 仮説平均との差異 自由度 t P(T<=t) 片側 t 境界値 片側 P(T<=t) 両側 t 境界値 両側 変数 1 変数 2 1.857143 3.571429 0.809524 2.952381 7 7 1.880952 0 12 -2.33845 0.018745 1.782287 0.037491 2.178813 p 値( p - value ; 有意確率) 帰無仮説の下での分布における、検定統計量の 実現値のパーセント点 p値の簡単な考え方 帰無仮説の下で、現在得られたデータか、それより極 端な(帰無仮説から離れる方向)データが得られる確 率 p値が小さい: 帰無仮説の下ではめったにおこらないことがおこった ということになる 正規検定 平均の検定の場合(大きな標本の場合) x m0 Z s/ n 帰無仮説の下で、 平均0、分散1の正規分布 t 検定 母集団の分布が正規分布であれば… (標本の大きさに関係なく) x m0 Z s/ n は帰無仮説の下で自由度(n -1)の t 分布 検定の選択 標本が大きいとき 分布が正規分布であるとき 正規検定 t 検定 どちらでもない場合 ノンパラメトリック検定(省略) 複数のグループの比較 2つの場合 2標本検定 t 検定(正規検定) 3つ以上の場合 分散分析 帰無仮説と対立仮説 2グループの場合 帰無仮説:2つの母集団の平均が同じ 対立仮説:2つの母集団の平均が異なる 3グループ以上の場合 帰無仮説:すべての母集団の平均が同じ 対立仮説:いずれかの母集団の平均が 他の母集団の平均と異なる Excelにおける検定の実践方法 1標本 2標本 t 検定、 3標本以上 分析ツールの分散分析 分析ツール:t 検定 分析ツール:t 検定 第1標本の データ 第2標本の データ 有意水準 分析ツールの出力 t-検定 : 等分散を仮定した2標本による検定 検定統計量の値 両側検定の場合のp値 平均 分散 観測数 プールされた分散 仮説平均との差異 自由度 t P(T<=t) 片側 t 境界値 片側 P(T<=t) 両側 t 境界値 両側 変数 1 変数 2 1.857143 3.571429 0.809524 2.952381 7 7 1.880952 0 12 -2.33845 0.018745 1.782287 0.037491 2.178813 分析ツール:分散分析 分析ツール:分散分析 行列形式で データを入力し その範囲を指定 列方向に 1グループの データが並ん でいる場合 例:分散分析 例:分散分析 例:分散分析 分散分析表 分散分析表 変動要因 変動 グループ間 20750.07 グループ内 9733.8 合計 30483.87 p値 自由度 分散観測された分散比P-値 2 10375.03 28.77868 2.03E-07 27 360.5111 29 検定統計量
© Copyright 2024 ExpyDoc