バイオインフォマティクスII 遺伝子発現データの AdaBoostによる判別 自然言語処理学講座 小町守 mamoru-k@naist.jp 2015/10/1 背景 • 細胞の状態と遺伝子の発現量には相関 がある • 遺伝子発現データから細胞の状態が分 かる 2015/10/1 目的 • リンパ腫の遺伝子発現データを用いて 細胞の状態を判別する • 瀰漫(びまん)性大 B 細胞リンパ腫 (DLBCL) と濾胞(ろほう)性リンパ腫 (FL) を分類 • AdaBoost を用いて学習し、判別性能を 調べる 2015/10/1 AdaBoost • 弱学習機を1つずつ足していって分類 1つの遺伝子 • 1ステップごとに判別精度が更新 しか見ない 発現遺伝子 データ 弱学習機 学習 ステップ1 ステップ2 ステップ3 2015/10/1 有用な遺伝子が 判別器 なにか分かる AdaBoostのデモ • 人工データで分類してみた様子 2015/10/1 訓練データとテスト 過学習 データが同じ場合、 ステップ数を増やす ほど性能は上がる 訓 練 後 の 性 能 最初はステップの増 訓練データとテストデータ 加に応じて同じくらい が違う場合、ステップ数 の判別性能を示す が増えると性能は下がる 赤:訓練データとテストデータが同じ 青:訓練データとテストデータは違う Cross validationにより過学習しない最適なステップ数を見つける 2015/10/1 ステップ数 Cross validation(CV) • データを訓練用とテスト用に2分割して 訓練時には見ないデータを作り、過学 習しない最適なステップを決定 テストデータ 5分割(5-fold) 学習 訓練データ データ 分割 訓練データとテストデータの取り方を変えてk回実行し、平均 特にk=N(データのサイズ)のときはleave-one-outという 2015/10/1 CV で最適な遺伝子数選択 • 5-fold の cross validation と leave-one-out の AdaBoost で最適な遺伝子数の比較 • 遺伝子発現データ77事例から評価用の 17事例を除いておく • 訓練データとテストデータの精度の平 均により性能を評価 2015/10/1 遺伝子数ごとの精度 分 類 の 精 度 2015/10/1 遺伝子数24のとき 5-fold CVの性能が最 leave-one-outの性 大になるのは遺伝子数 能が最大 44のとき 赤:5-fold CVの訓練時の精度 青:leave-one-outの訓練時の精度 紫:評価データのテスト時の精度 選択した遺伝子数 5-foldとleave one outの比較 • Leave-one-out のほうが最大の性能にな るまでに選択する遺伝子数は少ない 5-fold CV Leave-one-out 2015/10/1 最大性能のときの 選択遺伝子数 多い 少ない 計算コスト 少ない 多い 弱学習機を使った時の問題点 • CV の各試行ごとに選択される遺伝子が 一定ではない 分類に効く遺伝子に揺れがあるというのは 生物学的に説明がつかない 2015/10/1 まとめ • 遺伝子発現データからリンパ腫分類の ための判別機を構成した • 過学習を避けるため cross validation によ り最適な遺伝子数を選択 • 弱学習機を使った AdaBoost を単純に用 いると一意に遺伝子選択が決まらない 2015/10/1
© Copyright 2024 ExpyDoc