SASユーザー総会2011 - Mac OS X Server

0
マイクロアレイデータによる
予後予測モデル構築における
.632+推定量によるエラー率の補正と
ROC曲線解析
2011年7月29日
北海道大学 大学院医学研究科
臨床統計学分野
准教授 伊藤 陽一
SASユーザー総会2011 @ 神戸国際会議場
はじめに
 マイクロアレイとは
 遺伝子発現データによる再発予測
 オーバーフィッティングバイアスと
クロスバリデーション法
 Efronの.632+推定量
 ROC曲線解析
SASユーザー総会2011 @ 神戸国際会議場
1
マイクロアレイとは
タンパク質の発現量の代替指標であるmRNAの測定系
SASユーザー総会2011 @ 神戸国際会議場
2
マイクロアレイとは
cDNAマイクロアレイの種類
– DNA Chip (アフィメトリックス社)
半導体技術を応用した測定系
– cDNAマイクロアレイ (イルミナ社、アジレント社など)
高密度なアレイ(遺伝子数:数千から数万)
SASユーザー総会2011 @ 神戸国際会議場
3
DNA Chip
4
菅野純夫編 ゲノム医科学がわかる 羊土社 p.60
SASユーザー総会2011 @ 神戸国際会議場
DNA Chip
光化学合成によるオリゴヌクレオチド合成法
SASユーザー総会2011 @ 神戸国際会議場
5
cDNAマイクロアレイ
二蛍光標識法
SASユーザー総会2011 @ 神戸国際会議場
6
7
二蛍光標識法
Cy3
Cy3
Cy3
Cy5
Cy5
Cy5
SASユーザー総会2011 @ 神戸国際会議場
8
遺伝子発現データ
x11
x12
・・・
PtID2
x21
x22
・・・
x1m
x2 m
・・・
xnm
PtIDn
x1m
x2 m
PtID i の遺伝子発現プロファイル
遺伝子m
・・・
・・・
PtID1
・・・
遺伝子2
・・・
遺伝子1
xi  xi1 , xi 2 ,...,xim 
再発の有無の予測
SASユーザー総会2011 @ 神戸国際会議場
遺伝子発現データによる再発予測の問題点
9
オーバーフィッティング
遺伝子数>>患者数なので、遺伝子に再発を予測する
能力がなくても、100%予測できるモデルができてしまう
補正の必要性
構築した予測モデルが、新たな対象集団において、
どの程度の予測能力を持つのかを評価する必要がある
補正方法
様々なクロスバリデーション法
SASユーザー総会2011 @ 神戸国際会議場
クロスバリデーション法
Leave-One-Out Cross Validation; LOOCV
対象者を1名除き、残りの対象者でモデルを構築
構築したモデルで、除いた対象者の再発を予測
この操作を全ての対象者に対して行い、平均を取る
Leave-One-Out Bootstrap Estimate
復元抽出で対象者数と同数のサンプルでモデル構築
(重複を許したサンプリング; Bootstrap Sampling)
構築したモデルで、未抽出の対象者の再発を予測
この操作を繰り返して、平均を取る
SASユーザー総会2011 @ 神戸国際会議場
10
11
予測モデルの構築方法
Cross Validation Level
Feature Selection
重回帰モデルを構築する
ための候補遺伝子を選択
する(t検定、単回帰など)
Model Construction
予測のための重回帰
モデルを構築する
(重回帰、変数選択法)
Prediction
構築したモデルで再発
予測を行い、性能を評価
する
SASユーザー総会2011 @ 神戸国際会議場
in-sample
error
None
After Gene
Selection
All
Process
オーバーフィッティングバイアス
12
遺伝子数6000
患者数20 で
ランダムに
データを発生
患者を2群に
分けて、群を
予測する
期待される
誤分類患者
数は10
Cross
Validation
Levelによる
比較
(Simon R. et. al. J Natl Cancer I. 2003;95(1):14-8.)
SASユーザー総会2011 @ 神戸国際会議場
.632+推定量
13
Leave-One-Out Bootstrap Estimate (Err(1))では、一人
以上の対象者が重複し、重複した対象者を重視した
モデルとなるため、LOOCVと比較してエラー率は高め
になる
Efronの.632推定量
そこで、Efron(1983)はin-sample error (err)と
組み合わせる推定量を提案した
Err(.632) = .368×err + .632×Err(1)
SASユーザー総会2011 @ 神戸国際会議場
14
.632の理由
復元抽出の際に、ある対象者が少なくとも1回以上抽出
される確率は、サンプルサイズnが大きいとき以下の
ようになる。
1
1− 1−
𝑛
SASユーザー総会2011 @ 神戸国際会議場
𝑛
≅ 1 − 𝑒 −1 = 1 − .368 = .632
15
.632+推定量
.632推定量は、極めてオーバーフィットが強いときに、エラー率を
過少評価するという問題がある
Efron(1997)は、この過少評価を補正する.632+推定量を提案した
サンプルにおける観測再発割合を𝑝、予測モデルにおける予測再発
割合を𝑞とすると、無情報エラー率𝛾は以下のようになる
𝛾 =𝑝 1−𝑞 +𝑞 1−𝑝
相対オーバーフィッティング率𝑅を以下のように定義する
𝐸𝑟𝑟 (1) − 𝑒𝑟𝑟
𝑅=
𝛾 − 𝑒𝑟𝑟
この𝑅を用いて.632+推定量は以下のように定義される
𝐸𝑟𝑟 (.632+) = 1 − 𝑤 ⋅ 𝑒𝑟𝑟 + 𝑤 ⋅ 𝐸𝑟𝑟
SASユーザー総会2011 @ 神戸国際会議場
1
𝑤=
.632
1−.368⋅𝑅
16
予測モデルの.632+推定量による評価
Cross Validation Level
Bootstrap Sampling
復元抽出によるサンプリング
Feature Selection
重回帰モデルを構築するための
候補遺伝子を選択する
Model Construction
予測のための重回帰モデルを
構築する
繰り返し
50回
in-sample
Error (err)
Prediction
Evaluation
構築したモデルで復元抽出され
なかった対象者の再発を予測
エラー率を推定
繰り返しに関して平均をとる(Err(1))
.632+推定量の推定
SASユーザー総会2011 @ 神戸国際会議場
None
All
Process
適用事例
17
子宮体癌60例における癌細胞の遺伝子発現データ
遺伝子数 : 18,401
再発割合 : 22/60 = 36.67%
Feature selection
ロジスティック単回帰 (p<0.001)
Model Construction
ロジスティック重回帰 (ステップワイズ変数選択p<0.05)
Prediction & Evaluation
ROC曲線を描くために、再発症例(感度)、非再発症例
(特異度)を分けて集計
SASユーザー総会2011 @ 神戸国際会議場
18
In-sample errorにおけるROC曲線
1.0
0.9
0.8
Sensitivity
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
1-Specificity
SASユーザー総会2011 @ 神戸国際会議場
0.7
0.8
0.9
1.0
AUC=
0.953
Leave-One-Out Bootstrap Estimate
におけるROC曲線
19
1.0
0.9
0.8
Sensitivity
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
1-Specificity
SASユーザー総会2011 @ 神戸国際会議場
0.7
0.8
0.9
1.0
AUC=
0.648
20
.632推定量におけるROC曲線
1.0
0.9
0.8
sens_dot632
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
one_spec_dot632
SASユーザー総会2011 @ 神戸国際会議場
0.7
0.8
0.9
1.0
AUC=
0.758
21
.632+推定量におけるROC曲線
1.0
0.9
0.8
sens_dot632P
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
one_spec_dot632P
SASユーザー総会2011 @ 神戸国際会議場
0.7
0.8
0.9
1.0
AUC=
0.700
22
解析プログラムにおける工夫
Bootstrapサンプルは、対象者IDの乱数発生による
選択されなかった対象者の結果変数を欠測にして、
モデル構築から除外、エラー率評価用に別名に変更
ロジスティック単回帰(18401回)の実行を早くするため、
ログの出力を抑制
proc printto log=_dummy_;run;
1 1  
構築したモデルによって、再発確率を予測。  0 1  
In-sample errorと各Bootstrapサンプル  0 0  

を連結し、予測再発確率で並べ替え。
   1
0 0  0
ROC曲線を引くための閾値とする。

SASユーザー総会2011 @ 神戸国際会議場
1

1


1
1
Leave-One-Out Bootstrapにおける
予後予測モデル
23
Bootstrapサンプルごとに、構築される予後予測モデルが
変わることがあり得る
その場合、どの予後予測モデルを採用するかは諸説あり
Simonら(2003)は、In-sample errorのモデルを採用
Michielsら(2005)は、Bootstrapサンプルでより多く選ばれ
た遺伝子によるモデルを採用
SASユーザー総会2011 @ 神戸国際会議場
他のデータへの適用
24
本解析プログラムを適用するための、データ構造は、
マイクロアレイデータに典型的なデータ構造
生存時間など他の形式の結果変数にも、解析プログラム
のプロシジャを変更すれば適用可能
感度、特異度を計算するため、再発と非再発で分けて
集計していることで精度が落ちている可能性あり、
ブートストラップサンプルの回数を増した方が良いかも
しれない
SASユーザー総会2011 @ 神戸国際会議場
参考文献
25
1 Simon R. Radmacher MD. Dobbin K. McShane LM. Pitfalls in the use of
DNA microarray data for diagnostic and prognostic classification. Journal
of the National Cancer Institute. 95(1):14-8, 2003.
2 Efron B. Estimating the error rate for a prediction rule: Improvement on
cross-validation. Journal of the American Statistical Association.
78(382):316-31, 1983.
3 Efron B. Tibshirani R. Improvements on cross-validation: The .632+
bootstrap method. Journal of the American Statistical Association.
92(438):548-60, 1997.
4 Breiman L. Friedman J. Olshen R. Stone C. Classification and Regression
Trees, Pacific Grove, CA: Wadsworth, 1984.
5 Michiels S. Koscielny S. Hill C. Prediction of cancer outcome with
microarrays: a multiple random validation strategy. Lancet.
365(9458):488-92, 2005.
SASユーザー総会2011 @ 神戸国際会議場