Nestedケース・コントロールデザインにおける擬似尤度

Nestedケース・コントロールデザインにおける
擬似尤度によるパラメータ推定
口羽 文1,2 吉村 健一1,2,3
東京大学大学院医学系研究科疫学・予防保健学1
国立がんセンターがん予防・検診研究センター情報研究部2
日本臨床腫瘍研究グループ(JCOG)データセンター3
疫学研究(非介入研究)のデザイン
コホート研究デザイン
ケース・コントロール研究デザイン
研究ベース(コホート)
ケース
コントロール
時間
:イベント
研究開始
:打ち切り
研究開始
疫学研究デザインの分類
コホート研究
ケース・コントロール研究
・Nested ケース・コントロール研
前向き 一般的なコホート研究 究
・ケース・コホート研究
・がん患者に対する
新たな予後因子の検討
後向き
一般的なケース・コントロール研究
・希少疾患に対する
全例調査
Nested ケース・コントロール研究
ID
1
2
ケース
発症時点でのリスク集団
3
4
5
:イベント
6
:打ち切り
7
8
9
10
時間
1:1-matchedコントロール
各リスク集団からサンプリング
▪ Risk set sampling
▪ Density sampling
利点
サンプリングにより曝露測定にかかるコストの削減
▪ Ex. 遺伝子多型(SNP)と疾患発症の関連を評価
▪ 全対象者の血液サンプルを収集した前向きコホート研究
▪ SNPタイピング(曝露の測定)は高コスト
▪ ゲノムワイドのタイピング:約15万円/1人
▪ 1,000人測定すると 1億5000万円
▪ 10,000人
15億円
▪ Nestedケース・コントロール研究ではサンプリング集団のみの測定
▪ 100ケース:100コントロール測定しても 3,000万円
Risk set サンプリングをしていることから
ハザード比を推定可能
コホート研究におけるハザード比の推定
比例ハザードモデル
i (t )  0 (t ) exp[ X i ]
0 (t ) : 時点t でのベースラインハザード
X i : 対象者i の共変量(曝露)ベクトル
 : パラメータベクトル
ハザード比(HR)
各ケースの尤度への寄与
HR ケース
 HR j
ケース
発症時点でのリスク集団
j リスク集団
時間
Nestedケース・コントロール研究における
ハザード比の推定
Thomas推定量
▪ イベント発症時点での1:mマッチングデザイン
▪ 各ケースの尤度への寄与
HR ケース

j 分子のケースに対してサンプリングされたリスク 集団
HR j
▪ 時間依存性共変量へも容易に対応
▪ 情報の損失
▪ “マッチングされたコントロール”のみの情報を使用
▪ 曝露の分布に依存して大きく効率低下する可能性
▪ 曝露情報が一致するmatchedペアは情報なし
Samuelsenの提案
コホート研究として考える
▪ サンプリングされなかった対象者の共変量の欠測(missing
covariate)の問題
サンプリング確率の逆数による重み付き推定量
ID
共
変
量
の
欠
測
1
2
3
4
5
6
7
8
9
10
時間
Samuelsen推定量
各ケースの尤度への寄与
HRケース

j サンプリングされた全リスク 集団
(1 / p j )HR j
“サンプリング時点でのケース”以外のケースに対しても
コントロールとして再利用
▪ 曝露情報が一致するmatchedペアの情報も利用
▪ Thomas推定量より効率が良くなる
各対象者のサンプリング確率
ケースは強制的に全員がサンプリング
nested ケース・コントロール研究の対象者として
サンプリングされる確率
1
pj  
p 0 j
(イベント発症の場合)
(打ち切りの場合)
各コントロールのサンプリング確率
ID
1
2
3
4
5
6
7
8
9
10
p 0 j  コントロールとしてサンプリングされる確率
1

T i jの観察期間中のイ ベン ト時点
1  サンプリングされる確率 
Ti
時間 T
(1-1/9)(1-1/8)
1-1/9
(1-1/9)(1-1/8)(1-1/7)
(1-1/9)(1-1/8)(1-1/7)(1-1/6)
カプラン・マイヤー推定量
▪イベント:コントロールとしてサンプリングされること
▪打ち切り:興味のあるイベント発症あるいは観察打ち切り
より複雑なサンプリングでもデザイン通りに対応可能
疫学研究デザインの分類
コホート研究
ケース・コントロール研究
・Nested ケース・コントロール研究
前向き 一般的なコホート研究
・ケース・コホート研究
・がん患者に対する
新たな予後因子の検討
後向き
一般的なケース・コントロール研究
・ 希少疾患に対する
全例調査
ケース・コホート研究
ID
共
変
量
の
欠
測
1
2
3
4
5
6
7
8
9
10
:イベント
:打ち切り
時間
コントロール(サブコホート) :研究開始時点のリスク集団からのサンプル
サンプリングされなかった対象の
共変量の欠測(missing covariate)の問題
サブコホート(あるいはケース)にサンプリングされる確率で調整し
た擬似尤度に基づくハザード比の推定
Samuelsenマクロの作成
Thomas推定量
▪SAS/STAT PHREGプロシジャ STRATAステートメント
Samuelsen推定量
▪SASではプロシジャレベルで現在未提供
比例ハザード性を仮定した下
Nested ケース・コントロール研究において
Samuelsen推定量を得るためのマクロを作成
Thomas推定量と効率の比較
SAS 9 によるSamuelsen推定
各対象者のサンプリング確率(pj )を推定
▪ DATAステップによりpjのカプラン・マイヤー推定量を算出
SAS/STAT PHREGプロシジャの
WEIGHTステートメントで1/pj を指定
▪ 重みを推定しているためCOVSオプションよりロバスト分散
プログラム
%MACRO Samuelsen(
/*
data=_last_,
/*
time=,
/*
censor=,
/*
c_values=,
/*
match=,
/*
x=
);
解析データセット名 */
生存時間を示す変数名 */
打ち切りを示す変数名 */
“打ち切り”を表す値 */
matching人数を示す変数名 */
曝露変数名 */
解析データセット:SURV
仮想的な35人からなるコホートのデータSURVの一部
ID
1
TIME
4.79
CENSOR
0
EXP
.
MATCH
.
2
5.25
1
1
1
3
4
5
3.47
3.94
4.48
1
0
0
0
1
.
2
.
.
・
・
・
%MACROSamuelsen(data=SURV,time=TIME,censor=CENSOR,
c_values=0, match=MATCH, x=EXP);
SASアウトプット例
-------------------------- Samuelsen estimator -------------------------PHREG プロシジャ
モデルの詳細
データセット
WORK.SURV
従属変数
TIME
打ち切り変数
censor
打ち切り値の数
2
Weight Variable
w
タイデータの処理
EFRON
Number of Observations Read
Number of Observations Used
20
20
収束状態
収束基準 (GCONV=1E-8) は満たされました。
モデルの適合度統計量
基準
-2 LOG L
AIC
SBC
共変量
なし
14.265
14.265
14.265
共変量
あり
13.135
15.135
15.437
SASアウトプット例:続き
グローバルな帰無仮説 H0: BETA=0
検定
カイ 2 乗
自由度
Pr > ChiSq
1.1304
1.0736
2.3006
0.9336
2.2321
1
1
1
1
1
0.2877
0.3001
0.1293
0.3339
0.1352
尤度比
Score (Model-Based)
Score (Sandwich)
Wald (Model-Based)
Wald (Sandwich)
最尤推定量の分析
パラメータ
変数 自由度
推定
EXP
1
1.32501
標準 標準誤差
ハザード 95% ハザード比信頼
誤差
比 カイ 2 乗 Pr > ChiSq
比
限界
0.88687
0.647
2.2321
0.1352
3.762
0.662
21.397
シミュレーションによる確認
Samuelsen推定量とThomas推定量それぞれについて
▪ 推定されたハザード比[HR=exp()]の平均
▪ 推定値の分散の平均
▪ ハザード比の平均95%信頼区間全幅
▪ 95%信頼区間の被覆確率
繰り返し数10,000回
シナリオ設定
コホートサイズ n =1,000
ケース:matchedコントロール=1:1
1つの曝露変数
▪ 2値(曝露あり or なし)
▪ 曝露割合:0.3, 0.5
▪ 打ち切りとは独立
帰無仮説の下でのイベント期待発症割合:10%
ハザード比:1(帰無仮説), 2, 3
結果:曝露割合30%
真のHR=1
HR
Samuelsen 1.00
の分散
HRの95%CI全幅
95%CIの被覆確率
0.089
1.29
0.944
Thomas
1.00
0.100
1.39
0.951
真のHR=2
HR
の分散
HRの95%CI全幅
95%CIの被覆確率
0.063
2.15
0.946
0.079
2.51
0.952
Samuelsen 2.03
Thomas
2.04
シミュレーション回数:10,000回
Samuelson推定量はThomas推定量よりも効率に優れる
相対効率
(Samuelsen分散)/(Thomas分散)
1.1
HR
1.0
1
相 0.9
対
効
率 0.8
2
3
曝露割合0.5
曝露割合0.3
0.7
0.6
シミュレーション回数:10,000回
Samuelson推定量はThomas推定量よりも効率に優れる
まとめ
Samuelsen推定量を得るためのマクロを作成
今回検討した状況においては
Thomas推定量より常に効率が良くなることを確認
プログラムと本発表資料は一般公開予定
▪ 日本臨床腫瘍研究グループ(JCOG)公式HP
http://www.jcog.jp/