統計 1 木下 知奈美 廣安 知之 2015 年 9 月 16 日 IS Report No. Report Medical Information System Laboratory Abstract t 検定を用いることができるようになることを目標とする. キーワード: 統計, 仮説検定, t 検定 目次 第 1 章 統計の分類 . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 第 2 章 仮説検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1 二重否定法と直接法 . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 片側検定と両側検定 . . . . . . . . . . . . . . . . . . . . . . . . 3 2.3 質的データと量的データ . . . . . . . . . . . . . . . . . . . . . . 3 2.4 量的データの規則性 . . . . . . . . . . . . . . . . . . . . . . . . 4 2.4.1 標本分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.4.2 平均値の分布 . . . . . . . . . . . . . . . . . . . . . . . . . . 5 第 3 章 t 検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3.1 t 検定とは . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3.2 エラーバー付き棒グラフ . . . . . . . . . . . . . . . . . . . . . . 6 3.3 P値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3.4 t 検定の種類 . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 第 1 章 統計の分類 記述統計とは観測データの特徴を捉える統計方法であり,度数分布表やヒストグラムなどを用いてグ ラフ的に表現したり,平均や標準偏差・分散を用いて数値的に表現する.この数値的に表現したもの を統計量ともいう.しかし,もっと多くのデータを集めたり,別の時間や場所で観測したデータを使 えば値が違ってくる可能性がある.その場合には予想統計(推測統計)を用いる.予想統計とは手元 のデータから背後にある未知の全体特性を推測する統計方法であり,ここでは仮説検定を行う. 2 第 2 章 仮説検定 2.1 二重否定法と直接法 仮説検定では通常,帰無仮説と対立仮説を立てる.例えば,帰無仮説を「この薬は効かない」とす ると,対立仮説は「この薬は効かないことはない」つまり「この薬は効く」となる.測定の結果,測 定値が基準値を超えれば,帰無仮説を棄却し,対立仮説を採択する.測定値が基準値を超えなければ, 帰無仮説を採択する.これは二重否定法であり,まわりくどい説明になってしまう. そこで 1 つの問題に対して 1 個の仮説を立てる直説法を紹介する.ここでは仮の答えを仮説とする. 例えば「この薬は効く」と仮説を立てる.測定値が基準値を超えれば仮説は正しいと判断し,測定値 が基準値を超えなければ仮説は間違っていると判断する.仮説が○か×か二者択一のしくみで行われ るためシンプルでわかりやすい. 直接法では対照群とテスト群の 2 個のグループを用意する.対照群を比較の基準とし,仮説に従っ た操作を対照群に加えたテスト群との差を調べる.これは対照群に対するテスト群の一方向の差を調 べているため,統計法の片側検定に対応している. ここでは基準をどのように設定するかが重要となる. 2.2 片側検定と両側検定 片側検定では否定域と肯定域の 2 個のカテゴリに分けるのに対して,両側検定では否定域 1 個とそ の両側に肯定域 2 個を設ける.対照群とテスト群に差があるかどうか,テスト群が対照群より高くて も低くても構わない場合は両側検定で判定して良い. 2.3 質的データと量的データ 基準を設定する際,データについて理解しておく必要がある. 質的データとは,質の違うデータのことであり,万能細胞を作成する場合を考える.仮説は「皮膚 細胞に特定の遺伝子をいれると万能細胞になる」とする.テスト群の細胞が皮膚細胞のままならば仮 説は間違っていると判断し,テスト群の細胞が万能細胞になっていれば仮説は正しいと判断する (Fig. 2.1). 量的データとは,血圧値のように量は変化するが質は変わらないデータである.そのため,境界線 を引き 2 個のカテゴリに分ける必要がある.仮説を「薬は血圧を上げる分ける」とした場合,2 個の カテゴリを正常血圧域と高血圧域に分けることで質的データと同様に判断を行うことが可能となる (Fig. 2.2). しかし,連続的な量を人為的に境界線で分けることが誤判定の原因をつくることになるため,どこ に境界線を引くかが仮説検定の信頼性を左右することとなる. 3 2.4 量的データの規則性 第 2 章 仮説検定 Fig. 2.1 質的データ (参考文献 1) より自作) Fig. 2.2 量的データ (参考文献 1) より自作) 2.4 量的データの規則性 境界線を引く場合はデータのバラツキに注目する.統計法は,規則性の中心に正規分布を見出し, それに基づいて境界線を引く. 仮説検定では対照群とテスト群の平均値の差を比較するため,標本分布から平均値の分布をつくる. 2.4.1 標本分布 データの全体集合を母集団,母集団から抽出したデータを標本と呼び,区間ごとの数をプロット すると標本分布ができる.そして区間幅を 0 にする極限をとると,Fig. 2.3 のような連続的な確率密 度曲線を得ることができる.曲線の下の面積を-∞から∞まで X について積分した全体の確率は 1 と なる. Fig. 2.3 確率密度曲線 (参考文献 1) より自作) 4 2.4 量的データの規則性 2.4.2 第 2 章 仮説検定 平均値の分布 標準偏差をデータ数の平方根で割ると標準誤差を得ることができる.この標準誤差と確率密度曲線 で得た平均値から Fig. 2.4 のような平均値の分布を求めることができる.データ数が大きい場合これ は正規分布に収束する. Fig. 2.4 平均値の分布 (参考文献 1) より自作) 5 第 3 章 t 検定 3.1 t 検定とは データ数が小さい場合(10 20)は t 検定という検定方法を用いる. データ数が大きい場合は母集団の分布に関わらず,標準データの平均値の分布は平均値 0,標準偏 差 1 の標準正規分布になる.しかし,データ数が小さい場合は母集団が正規分布している時に限り, その平均値の分布を標準化したものが t 分布になる.データ数が増えると t 分布も正規分布に近づく. t 検定ではこの t 分布を用いて仮説が正しいか間違っているかを判定する. 3.2 エラーバー付き棒グラフ t 検定は母集団が正規分布している時にしか使用できないが,実際には母集団が正規分布でないデー タも存在する.エラーバー付き棒グラフを用いることで,Fig. 3.1 のように平均値や標準偏差,標準 誤差を用いてデータの分布を示すことができる.仮説が正しい場合,求めた P 値に応じて*(アスタ リスク)を使って表現する.P 値については次の章で説明する. Fig. 3.1 エラーバー (参考文献 1) より自作) 3.3 P値 P 値とは, 「テスト群のバラツキを加えた対照群の平均値の t 分布」において,テスト群の平均値よ り右側の面積の確率のことである.この確率が 0.01 の場合,P > 0.01 のときテスト群の平均値が小 6 3.4t 検定の種類 第 3 章 t 検定 さいと P 値は大きくなるため(Fig. 3.2)仮説は間違っていると判定し,P < 0.01 のときテスト群の 平均値が大きいと P 値は小さくなるため(Fig. 3.3)仮説は正しいと判定する. また,先に述べたエラーバー付き棒グラフを用いて表現する際は,P < 0.05 ならば*(アスタリス ク 1 個),P < 0.01 ならば**(アスタリスク 2 個),P < 0.001 ならば***(アスタリスク 3 個)など と表す例がよくある. Fig. 3.2 求めた P 値> 0.01 のとき (参考文献 1) より自作) Fig. 3.3 求めた P 値< 0.01 のとき (参考文献 1) より自作) 3.4 t 検定の種類 t 検定は 2 群の平均値を比較するものであるが,この 2 群が独立している場合と対応している場合 とで P 値の求め方が異なる.また,2 群が独立している場合は,その 2 群のバラツキが等しければ, スチューデントの t 検定を行い,バラツキが等しくなければ,ウェルチの t 検定を行う. 対応している 2 群で比較する場合は個体差によるバラツキをなくすことができるため,少ないデー タでも差を見つけやすいという利点がある. 7 参考文献 1) 小林茂夫, 杉山磨人, 生命科学研究に成功するための統計法ノート, 初版, 講談社, 2009. 8
© Copyright 2025 ExpyDoc