0 マイクロアレイデータによる 予後予測モデル構築における .632+推定量によるエラー率の補正と ROC曲線解析 2011年7月29日 北海道大学 大学院医学研究科 臨床統計学分野 准教授 伊藤 陽一 SASユーザー総会2011 @ 神戸国際会議場 はじめに マイクロアレイとは 遺伝子発現データによる再発予測 オーバーフィッティングバイアスと クロスバリデーション法 Efronの.632+推定量 ROC曲線解析 SASユーザー総会2011 @ 神戸国際会議場 1 マイクロアレイとは タンパク質の発現量の代替指標であるmRNAの測定系 SASユーザー総会2011 @ 神戸国際会議場 2 マイクロアレイとは cDNAマイクロアレイの種類 – DNA Chip (アフィメトリックス社) 半導体技術を応用した測定系 – cDNAマイクロアレイ (イルミナ社、アジレント社など) 高密度なアレイ(遺伝子数:数千から数万) SASユーザー総会2011 @ 神戸国際会議場 3 DNA Chip 4 菅野純夫編 ゲノム医科学がわかる 羊土社 p.60 SASユーザー総会2011 @ 神戸国際会議場 DNA Chip 光化学合成によるオリゴヌクレオチド合成法 SASユーザー総会2011 @ 神戸国際会議場 5 cDNAマイクロアレイ 二蛍光標識法 SASユーザー総会2011 @ 神戸国際会議場 6 7 二蛍光標識法 Cy3 Cy3 Cy3 Cy5 Cy5 Cy5 SASユーザー総会2011 @ 神戸国際会議場 8 遺伝子発現データ x11 x12 ・・・ PtID2 x21 x22 ・・・ x1m x2 m ・・・ xnm PtIDn x1m x2 m PtID i の遺伝子発現プロファイル 遺伝子m ・・・ ・・・ PtID1 ・・・ 遺伝子2 ・・・ 遺伝子1 xi xi1 , xi 2 ,...,xim 再発の有無の予測 SASユーザー総会2011 @ 神戸国際会議場 遺伝子発現データによる再発予測の問題点 9 オーバーフィッティング 遺伝子数>>患者数なので、遺伝子に再発を予測する 能力がなくても、100%予測できるモデルができてしまう 補正の必要性 構築した予測モデルが、新たな対象集団において、 どの程度の予測能力を持つのかを評価する必要がある 補正方法 様々なクロスバリデーション法 SASユーザー総会2011 @ 神戸国際会議場 クロスバリデーション法 Leave-One-Out Cross Validation; LOOCV 対象者を1名除き、残りの対象者でモデルを構築 構築したモデルで、除いた対象者の再発を予測 この操作を全ての対象者に対して行い、平均を取る Leave-One-Out Bootstrap Estimate 復元抽出で対象者数と同数のサンプルでモデル構築 (重複を許したサンプリング; Bootstrap Sampling) 構築したモデルで、未抽出の対象者の再発を予測 この操作を繰り返して、平均を取る SASユーザー総会2011 @ 神戸国際会議場 10 11 予測モデルの構築方法 Cross Validation Level Feature Selection 重回帰モデルを構築する ための候補遺伝子を選択 する(t検定、単回帰など) Model Construction 予測のための重回帰 モデルを構築する (重回帰、変数選択法) Prediction 構築したモデルで再発 予測を行い、性能を評価 する SASユーザー総会2011 @ 神戸国際会議場 in-sample error None After Gene Selection All Process オーバーフィッティングバイアス 12 遺伝子数6000 患者数20 で ランダムに データを発生 患者を2群に 分けて、群を 予測する 期待される 誤分類患者 数は10 Cross Validation Levelによる 比較 (Simon R. et. al. J Natl Cancer I. 2003;95(1):14-8.) SASユーザー総会2011 @ 神戸国際会議場 .632+推定量 13 Leave-One-Out Bootstrap Estimate (Err(1))では、一人 以上の対象者が重複し、重複した対象者を重視した モデルとなるため、LOOCVと比較してエラー率は高め になる Efronの.632推定量 そこで、Efron(1983)はin-sample error (err)と 組み合わせる推定量を提案した Err(.632) = .368×err + .632×Err(1) SASユーザー総会2011 @ 神戸国際会議場 14 .632の理由 復元抽出の際に、ある対象者が少なくとも1回以上抽出 される確率は、サンプルサイズnが大きいとき以下の ようになる。 1 1− 1− 𝑛 SASユーザー総会2011 @ 神戸国際会議場 𝑛 ≅ 1 − 𝑒 −1 = 1 − .368 = .632 15 .632+推定量 .632推定量は、極めてオーバーフィットが強いときに、エラー率を 過少評価するという問題がある Efron(1997)は、この過少評価を補正する.632+推定量を提案した サンプルにおける観測再発割合を𝑝、予測モデルにおける予測再発 割合を𝑞とすると、無情報エラー率𝛾は以下のようになる 𝛾 =𝑝 1−𝑞 +𝑞 1−𝑝 相対オーバーフィッティング率𝑅を以下のように定義する 𝐸𝑟𝑟 (1) − 𝑒𝑟𝑟 𝑅= 𝛾 − 𝑒𝑟𝑟 この𝑅を用いて.632+推定量は以下のように定義される 𝐸𝑟𝑟 (.632+) = 1 − 𝑤 ⋅ 𝑒𝑟𝑟 + 𝑤 ⋅ 𝐸𝑟𝑟 SASユーザー総会2011 @ 神戸国際会議場 1 𝑤= .632 1−.368⋅𝑅 16 予測モデルの.632+推定量による評価 Cross Validation Level Bootstrap Sampling 復元抽出によるサンプリング Feature Selection 重回帰モデルを構築するための 候補遺伝子を選択する Model Construction 予測のための重回帰モデルを 構築する 繰り返し 50回 in-sample Error (err) Prediction Evaluation 構築したモデルで復元抽出され なかった対象者の再発を予測 エラー率を推定 繰り返しに関して平均をとる(Err(1)) .632+推定量の推定 SASユーザー総会2011 @ 神戸国際会議場 None All Process 適用事例 17 子宮体癌60例における癌細胞の遺伝子発現データ 遺伝子数 : 18,401 再発割合 : 22/60 = 36.67% Feature selection ロジスティック単回帰 (p<0.001) Model Construction ロジスティック重回帰 (ステップワイズ変数選択p<0.05) Prediction & Evaluation ROC曲線を描くために、再発症例(感度)、非再発症例 (特異度)を分けて集計 SASユーザー総会2011 @ 神戸国際会議場 18 In-sample errorにおけるROC曲線 1.0 0.9 0.8 Sensitivity 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 1-Specificity SASユーザー総会2011 @ 神戸国際会議場 0.7 0.8 0.9 1.0 AUC= 0.953 Leave-One-Out Bootstrap Estimate におけるROC曲線 19 1.0 0.9 0.8 Sensitivity 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 1-Specificity SASユーザー総会2011 @ 神戸国際会議場 0.7 0.8 0.9 1.0 AUC= 0.648 20 .632推定量におけるROC曲線 1.0 0.9 0.8 sens_dot632 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 one_spec_dot632 SASユーザー総会2011 @ 神戸国際会議場 0.7 0.8 0.9 1.0 AUC= 0.758 21 .632+推定量におけるROC曲線 1.0 0.9 0.8 sens_dot632P 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 one_spec_dot632P SASユーザー総会2011 @ 神戸国際会議場 0.7 0.8 0.9 1.0 AUC= 0.700 22 解析プログラムにおける工夫 Bootstrapサンプルは、対象者IDの乱数発生による 選択されなかった対象者の結果変数を欠測にして、 モデル構築から除外、エラー率評価用に別名に変更 ロジスティック単回帰(18401回)の実行を早くするため、 ログの出力を抑制 proc printto log=_dummy_;run; 1 1 構築したモデルによって、再発確率を予測。 0 1 In-sample errorと各Bootstrapサンプル 0 0 を連結し、予測再発確率で並べ替え。 1 0 0 0 ROC曲線を引くための閾値とする。 SASユーザー総会2011 @ 神戸国際会議場 1 1 1 1 Leave-One-Out Bootstrapにおける 予後予測モデル 23 Bootstrapサンプルごとに、構築される予後予測モデルが 変わることがあり得る その場合、どの予後予測モデルを採用するかは諸説あり Simonら(2003)は、In-sample errorのモデルを採用 Michielsら(2005)は、Bootstrapサンプルでより多く選ばれ た遺伝子によるモデルを採用 SASユーザー総会2011 @ 神戸国際会議場 他のデータへの適用 24 本解析プログラムを適用するための、データ構造は、 マイクロアレイデータに典型的なデータ構造 生存時間など他の形式の結果変数にも、解析プログラム のプロシジャを変更すれば適用可能 感度、特異度を計算するため、再発と非再発で分けて 集計していることで精度が落ちている可能性あり、 ブートストラップサンプルの回数を増した方が良いかも しれない SASユーザー総会2011 @ 神戸国際会議場 参考文献 25 1 Simon R. Radmacher MD. Dobbin K. McShane LM. Pitfalls in the use of DNA microarray data for diagnostic and prognostic classification. Journal of the National Cancer Institute. 95(1):14-8, 2003. 2 Efron B. Estimating the error rate for a prediction rule: Improvement on cross-validation. Journal of the American Statistical Association. 78(382):316-31, 1983. 3 Efron B. Tibshirani R. Improvements on cross-validation: The .632+ bootstrap method. Journal of the American Statistical Association. 92(438):548-60, 1997. 4 Breiman L. Friedman J. Olshen R. Stone C. Classification and Regression Trees, Pacific Grove, CA: Wadsworth, 1984. 5 Michiels S. Koscielny S. Hill C. Prediction of cancer outcome with microarrays: a multiple random validation strategy. Lancet. 365(9458):488-92, 2005. SASユーザー総会2011 @ 神戸国際会議場
© Copyright 2024 ExpyDoc