スライド 1 - Ow.ly

PCAを用いた2群の有意差検定
中央大学理工学部
物理学科田口善弘
1. 2群(X群vsY群)の差の検定の問題点
X群4サンプル Y群4サンプル X群 vs Y群 ×
X X X3 X Y Y Y Y
1 2
4 1 2 3 4
XA-XB +
観
測
量
8
種
Q1
Q2
Q3
Q4
Q5
Q6
Q7
Q8
-
条件
A A B B B B A
A群 vs B群 ×
vs ○
YA-YB
+
ー
すべての実験条件
の組み合わせを考
えると数が発散
↓
多重比較の補正を
考えなくてはなら
なくなり...
A
(XA + XB) – (YA + YB)
2群の平均の差
[判別 X]
0
変数選択
Q1,Q2
Q3,Q4
Q9,Q10
Q11,Q12,
.....
QN
Q5,Q6
Q7,Q8
2(群内部分群間差)の差
[判別 ○]
0
(XA – XB) – (YA - YB)
評価軸の構成
機械学習でできるか?
線形判別 ×
multiplicative
(Q1,Q2,...,Q7,Q8) × (A,B)
additive
変数選択
カーネルトリック+SVM
×
(Q1,Q2,...,QN,[A,B]) → f(Q1,Q2,...,QN,[A,B])
変数選択ができない
多分、できないわけじゃない。
なんらかの尤度を導入し、
誤差(判別ミス)を最小にする
最小限の変数選択(AIC的に)
ができるはず。僕にはわかりません。
→
もっとシンプルな事を考える
発想を変える →
PCA
YN
PC1
Q1,Q2,.
.,QN
サンプル(X,Y)の組
み合わせとして主成
分だけしか考えない
心:X群とY群に「差
」があるならそれは
特徴量として現れる
はず
X2
PC2
X1
具体例:
SLE:全身性エリテマトーデス
RA:関節リウマチ
DM:皮膚筋炎
→ 遺伝子のプロモーター領域のメチル化(=Q)
に有意の差があるか?(Javierre 2010)
サンプル:(X:発症、Y:非発症)
[発症(X)/非発症(Y)双子+非発症(Y)同年齢・
同性コントロール2=4]×5=20
部分群[A , B]
結果:
SLE でしか有意の差が見つからなかった。
DMの場合
Q=プロモーターのメチル
化
PC3
PC2
発症双子
非発症双子
非発症コントロール1
非発症コントロール2
PC2 発症vs非発症
同年齢
同性
グループ
X 男性vs女性
○
PC3 発症vs非発症 ○
(but only within twins)
男女でメチル化が逆転
非発症コントロール1
非発症コントロール2
非発症双子
発症双子
発症双子vs非発症双子
男性 発症↑
非発症双子
P=3×10-13
P=2×10-7
P=2×10-11
P=2<10-16
女性 発症↓
発症双子
男女でメチ
ル化が逆転
P=4×10-10
SLE,RA,DMの三種はい
ずれも自己免疫疾患で共
通の遺伝子に異常が生じ
ていることが期待される
↓
まさにそうなっている!
またSLEの場合は原著と
共通の遺伝子が選ばれて
いた。
まとめ
2群の差の検定を行う場合、各群がサブグルー
プに別れている場合に、教師無し学習(PCA)
を用いて差が検出できる変数の選択、及び、変
数の線形結合による差を検定する新たな合成指
数を構成する事を提案した。
SLE,RA,DMの3種の自己免疫疾患において共
通の遺伝子がプロモーター領域のメチル化に異
常を引き起こしていることを検出した。