独立性の検定

生物統計学・第8回
違いを調べる(4)
-その他の分析-
2015年11月24日
生命環境科学域 応用生命科学類
尾形 善之
本日の内容
★カイ二乗検定(実習付き)
★分散分析
検定の実際の流れ
★𝒕検定の場合
𝒕分布
𝒕値:元のデータの違い
によって計算される
𝒑値: 𝒕値以上の範囲の
面積として計算される
元のデータの分
布
統計量の分布
検定と分布
検定方法
データの分布
(得意なデータ)
𝒕検定
正規分布
パラメトリック
𝑼検定
カイ(c)二乗検定
統計量と
分布
判定す
る値
𝒕値と
𝒕分布
𝒑値
非正規分布
ノンパラメトリッ
リック
𝑼値と
正規分布
𝒑値
二項分布
𝟐 × 𝟐分割表
c𝟐 値と
c𝟐 分布
𝒑値
カイ二乗検定とは
★独立性の検定
★適合度の検定
★カイ二乗分布で検定する
★𝟐 × 𝟐の分割表で活躍
独立性の検定
★ふたつのデータの傾向に違いがあるかを
検定
A
B
合計
1
2
3
4
5
合計
250
58
62
86
54
510
40
20
21
24
19
124
290
78
83
110
73
634
独立性の検定の手順
★仮説(対立仮説)を立てる
♦ ふたつの遺伝子の発現傾向には違いがある
★帰無仮説を立てる
♦ ふたつの遺伝子の発現傾向には違いがない
★カイ二乗検定して帰無仮説を捨てる
♦ 𝒑 < 𝟎. 𝟎𝟓ならば、「発現傾向には違いがある」
• どこが、とは言えない
♦ 𝒑 ≥ 𝟎. 𝟎𝟓ならば、「発現傾向に違いがあるとは言
えない」
エクセルでの独立性の検定・1
★期待値を計算する
A
B
C(合計)
D(A’)
E(B’)
56.7
15.3
16.2
21.5
14.3
124
1
250
40
290
𝟓𝟏𝟎
𝟐𝟗𝟎 ×
= 𝟐𝟑𝟑. 𝟑
𝟔𝟑𝟒
2
58
62
86
54
510
20
21
24
19
124
78
83
110
73
634
62.7
66.8
88.5
58.7
510
3
4
5
合計
エクセルでの独立性の検定・2
★A、B列とD、E列から𝒑値を計算する
♦ =CHITEST(A1:B5,D1,E5)
♦ 𝑝 = 0.017となり、帰無仮説は棄却できる
♦ 両遺伝子の発現量の傾向に違いがあると言える
こんなデータだったら……
★期待値を計算する
A
B
C(合計)
D(A’)
E(B’)
56.7
15.3
16.2
21.5
14.3
124
1
200
40
240
𝟓𝟏𝟎
𝟐𝟒𝟎 ×
= 𝟏𝟗𝟑. 𝟏
𝟔𝟑𝟒
2
58
62
136
54
510
20
21
24
19
124
78
83
160
73
634
62.7
66.8
128.7
58.7
510
3
4
5
合計
こんなデータだったら……
★A、B列とD、E列から𝒑値を計算する
♦ =CHITEST(A1:B5,D1,E5)
♦ 𝑝 = 0.064となり、帰無仮説は棄却されない
♦ 両遺伝子の発現量の傾向に違いがあるとは言えな
い
カイ二乗検定と相関係数
★傾向が違う
♦ カイ二乗検定(独立性の検定)
★傾向が似ている
♦ 相関係数
適合度の検定
★実測値と期待値を比較する点では独立
性の検定と同じ
♦ これらの遺伝子は特異的に発現していると言える
か?
A: 遺伝子A B: 遺伝子B C: Aの平均 D: Bの平均
1
200
40
102
24.8
2
58
20
102
24.8
3
62
21
102
24.8
4
136
24
102
24.8
5
54
19
102
24.8
合計
510
124
510
124
適合度の検定
★遺伝子Aの場合
♦ 「=CHITEST(A1:A5,C1:C5)」
♦ 𝑝 = 3.7 × 10−34 となり、帰無仮説は棄却できる
★遺伝子Bの場合
♦ 𝑝 = 0.016となり、帰無仮説は棄却できる
𝟐 × 𝟐分割表の検定
★検査結果と罹病性との関係を調べる
♦ 独立性の検定をする。
♦ 𝒑 = 𝟐. 𝟓 × 𝟏𝟎−𝟏𝟒 となり、検査の陽性と陰性は実
際の罹病性に違いがある。
• 検査が有効とまでは言っていない。
チェックポイント・I
1. 独立性の検定の手順は?
2. 適合度の検定の手順は?
3. カイ二乗検定は分かりましたか?
分散分析(ANOVA)
★複数の遺伝子間での発現量の差を検
定する
♦ 𝑡検定は2遺伝子間でしか検定できない
♦ ただし、どこかに違いがあるとわかるだけ……
♦ 結局、どこに違いがあるか知りたくなる……
分散分析の実際
★3つ以上のデータセットの違いを示す
★パラメトリックなデータセットのみ
♦ 平均と分散(標準偏差)を利用しているため
★作業はエクセルのデータ分析でできる
★統計量は𝒇値(𝒇分布)となる
★最終的に𝒑値を読み取る
★言えることは「データセットのどこかに違
いがある」というだけ
分散分析の答案例
★どの遺伝子のどの実験を使ったか
★一元配置か二元配置か
♦ 79組織からひとつずつ選んでいれば「一元配置」
♦ 79 組織 x 3繰り返し実験の場合は「二元配置」
★𝒇値(統計量、なくても構いません)
★𝒑値(𝑡検定と同様に解釈)
♦ 「有意なので、遺伝子間のどこかの発現量が違う」
♦ 「有意でないので、違いがあるとは言えない」
一元配置と二元配置
一元配置
二元配置
実験
At1g56650
At3g43660
実験
繰り返し
At1g56650
At3g43660
1
308.5
27.5
1
1
318.8
36.8
2
77.2
18.0
1
2
280.2
5.4
3
69.7
20.5
1
3
326.6
40.4
4
96.2
13.3
2
1
113.3
8.7
5
40.3
16.8
2
2
58.4
25.5
6
53.1
17.7
2
3
59.9
19.7
⋮
⋮
⋮
⋮
⋮
⋮
⋮
79
77.7
99.4
79
3
103.7
131.1
自由度について・1
★検定に使うデータセットについて、いく
つのデータを決めれば、残りの数値が自
動的に決まるか?
♦ 「自由に決められるデータがいくつか」という意味
★分析の種類によって違ってくるのが厄
介…
★検定によっては、小数で出てくるものも
自由度について・2
★右の4実験のデータの場合
♦ 自由度は「𝟒 − 𝟏 = 𝟑」となる
♦ なぜ実験数から1を引くのか?
♦ 標準化したデータを使っている
• 分散や平均を利用するため
♦ 3つのデータが決まると、
• 残りのひとつが自動的に決まる
• この場合「0.5」に決まる
標準化した発現量
(二乗和が1)
0.5
0.5
0.5
?
判別分析
★2つ以上のデータをグループ分けする
♦ 実際にはクラスタリングの方が便利
♦ 統計的にグループ分けの有意を言いたいときに
使う
★予め分類しておくことが必要
♦ 一部のデータで予測し、全体を分類する
♦ 予め分類できないときは、主成分分析が有利
★エクセルの分析ツールには含まれない
♦ Rや統計ソフトを使う
チェックポイント・2
4. 分散分析でできることは?
5. 一元配置と二元配置の違いは?
6. 自由度についての疑問点を書いてくだ
さい。
本日の実習
★独立性の検定
♦ 注目遺伝子と発現量の近い別の遺伝子について、
実験群を𝟑 × 𝟑実験選んで、独立性の検定をしな
さい。
♦ 異なる組織をなるべく混ぜること。
• 例えば、葉・花・根の3組織など
★適合度の検定
♦ 独立性の検定で選んだ遺伝子と実験群を使い、
発現量の平均値に対する適合度の検定を行いな
さい。
本日の課題
★注目遺伝子と比較する遺伝子について、
独立性の検定の結果から、両遺伝子の
発現傾向に違いがあるかを考察しなさい。
★両遺伝子の適合度の検定の結果から、
それぞれの遺伝子が特異的な発現を示
しているかを考察しなさい。