バイオインフォマティクスII 遺伝子発現データの

バイオインフォマティクスII
遺伝子発現データの
AdaBoostによる判別
自然言語処理学講座
小町守
mamoru-k@naist.jp
2015/10/1
背景
• 細胞の状態と遺伝子の発現量には相関
がある
• 遺伝子発現データから細胞の状態が分
かる
2015/10/1
目的
• リンパ腫の遺伝子発現データを用いて
細胞の状態を判別する
• 瀰漫(びまん)性大 B 細胞リンパ腫
(DLBCL) と濾胞(ろほう)性リンパ腫
(FL) を分類
• AdaBoost を用いて学習し、判別性能を
調べる
2015/10/1
AdaBoost
• 弱学習機を1つずつ足していって分類
1つの遺伝子
• 1ステップごとに判別精度が更新
しか見ない
発現遺伝子
データ
弱学習機
学習
ステップ1
ステップ2
ステップ3
2015/10/1
有用な遺伝子が
判別器
なにか分かる
AdaBoostのデモ
• 人工データで分類してみた様子
2015/10/1
訓練データとテスト
過学習
データが同じ場合、
ステップ数を増やす
ほど性能は上がる
訓
練
後
の
性
能
最初はステップの増
訓練データとテストデータ
加に応じて同じくらい
が違う場合、ステップ数
の判別性能を示す
が増えると性能は下がる
赤:訓練データとテストデータが同じ
青:訓練データとテストデータは違う
Cross validationにより過学習しない最適なステップ数を見つける
2015/10/1
ステップ数
Cross validation(CV)
• データを訓練用とテスト用に2分割して
訓練時には見ないデータを作り、過学
習しない最適なステップを決定
テストデータ
5分割(5-fold)
学習
訓練データ
データ
分割
訓練データとテストデータの取り方を変えてk回実行し、平均
特にk=N(データのサイズ)のときはleave-one-outという
2015/10/1
CV で最適な遺伝子数選択
• 5-fold の cross validation と leave-one-out
の AdaBoost で最適な遺伝子数の比較
• 遺伝子発現データ77事例から評価用の
17事例を除いておく
• 訓練データとテストデータの精度の平
均により性能を評価
2015/10/1
遺伝子数ごとの精度
分
類
の
精
度
2015/10/1
遺伝子数24のとき
5-fold CVの性能が最
leave-one-outの性
大になるのは遺伝子数
能が最大
44のとき
赤:5-fold CVの訓練時の精度
青:leave-one-outの訓練時の精度
紫:評価データのテスト時の精度
選択した遺伝子数
5-foldとleave one outの比較
• Leave-one-out のほうが最大の性能にな
るまでに選択する遺伝子数は少ない
5-fold CV
Leave-one-out
2015/10/1
最大性能のときの
選択遺伝子数
多い
少ない
計算コスト
少ない
多い
弱学習機を使った時の問題点
• CV の各試行ごとに選択される遺伝子が
一定ではない
 分類に効く遺伝子に揺れがあるというのは
生物学的に説明がつかない
2015/10/1
まとめ
• 遺伝子発現データからリンパ腫分類の
ための判別機を構成した
• 過学習を避けるため cross validation によ
り最適な遺伝子数を選択
• 弱学習機を使った AdaBoost を単純に用
いると一意に遺伝子選択が決まらない
2015/10/1