PCAを用いた2群の有意差検定 中央大学理工学部 物理学科田口善弘 1. 2群(X群vsY群)の差の検定の問題点 X群4サンプル Y群4サンプル X群 vs Y群 × X X X3 X Y Y Y Y 1 2 4 1 2 3 4 XA-XB + 観 測 量 8 種 Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 - 条件 A A B B B B A A群 vs B群 × vs ○ YA-YB + ー すべての実験条件 の組み合わせを考 えると数が発散 ↓ 多重比較の補正を 考えなくてはなら なくなり... A (XA + XB) – (YA + YB) 2群の平均の差 [判別 X] 0 変数選択 Q1,Q2 Q3,Q4 Q9,Q10 Q11,Q12, ..... QN Q5,Q6 Q7,Q8 2(群内部分群間差)の差 [判別 ○] 0 (XA – XB) – (YA - YB) 評価軸の構成 機械学習でできるか? 線形判別 × multiplicative (Q1,Q2,...,Q7,Q8) × (A,B) additive 変数選択 カーネルトリック+SVM × (Q1,Q2,...,QN,[A,B]) → f(Q1,Q2,...,QN,[A,B]) 変数選択ができない 多分、できないわけじゃない。 なんらかの尤度を導入し、 誤差(判別ミス)を最小にする 最小限の変数選択(AIC的に) ができるはず。僕にはわかりません。 → もっとシンプルな事を考える 発想を変える → PCA YN PC1 Q1,Q2,. .,QN サンプル(X,Y)の組 み合わせとして主成 分だけしか考えない 心:X群とY群に「差 」があるならそれは 特徴量として現れる はず X2 PC2 X1 具体例: SLE:全身性エリテマトーデス RA:関節リウマチ DM:皮膚筋炎 → 遺伝子のプロモーター領域のメチル化(=Q) に有意の差があるか?(Javierre 2010) サンプル:(X:発症、Y:非発症) [発症(X)/非発症(Y)双子+非発症(Y)同年齢・ 同性コントロール2=4]×5=20 部分群[A , B] 結果: SLE でしか有意の差が見つからなかった。 DMの場合 Q=プロモーターのメチル 化 PC3 PC2 発症双子 非発症双子 非発症コントロール1 非発症コントロール2 PC2 発症vs非発症 同年齢 同性 グループ X 男性vs女性 ○ PC3 発症vs非発症 ○ (but only within twins) 男女でメチル化が逆転 非発症コントロール1 非発症コントロール2 非発症双子 発症双子 発症双子vs非発症双子 男性 発症↑ 非発症双子 P=3×10-13 P=2×10-7 P=2×10-11 P=2<10-16 女性 発症↓ 発症双子 男女でメチ ル化が逆転 P=4×10-10 SLE,RA,DMの三種はい ずれも自己免疫疾患で共 通の遺伝子に異常が生じ ていることが期待される ↓ まさにそうなっている! またSLEの場合は原著と 共通の遺伝子が選ばれて いた。 まとめ 2群の差の検定を行う場合、各群がサブグルー プに別れている場合に、教師無し学習(PCA) を用いて差が検出できる変数の選択、及び、変 数の線形結合による差を検定する新たな合成指 数を構成する事を提案した。 SLE,RA,DMの3種の自己免疫疾患において共 通の遺伝子がプロモーター領域のメチル化に異 常を引き起こしていることを検出した。
© Copyright 2024 ExpyDoc