プロトコルの作成と試験デザイン

2005FEB02
臨床試験のデザインと論文への記載法
-臨床試験登録を念頭において-
NPO日本臨床研究支援ユニット(J-CRSU)理事長
東京大学医学系研究科 生物統計学/疫学・予防保健学
大橋靖雄
臨床(試験)研究の目標
 バラツキを小さくすること(精度を高くすること)
Clarity Minimizing bias (random error)
 偏り(バイアス)を小さくすること
Comparability Minimizing bias, Internal validity
 広い対象に適用できる結論を得ること
Generalizability External validity
ある臨床研究
目的:骨粗しょう症に対するI薬のビタミンDとの併用効果を調べる。
方法:…の患者のうち、I薬単独と併用の患者合わせて48例を対象。
観察期間は3年まで。骨量の変化はMD法で評価。
結果:骨量に関しては併用効果有意。骨折は両群とも2例で有意差なし。
・ランダム化されているのか? 時代効果は?
・評価の際のマスキングは?
・骨折の差を見出しうる検出力は? (研究の感度)
・そもそもI薬の骨量増加効果、骨折予防効果はあるのか?
(研究の前提、rationale)
Garbage in, Garbage out
内容



臨床試験の進め方と相の概念
CONSORT
デザインの基本
エンドポイントの設定
対照の選択とランダム化・割り付け
盲検
症例数の決定
非劣性試験
中間解析
臨床試験に必要なもの







研究計画書(プロトコル)
実施システム
統計家のインプットと解析計画書
CRF(調査票)とその標準化
データマネージメントのシステム
モニタリングと監査
評価基準(有効性と毒性)
Planning
Designing
Conducting
Validation

品質保証システム
Publishing
臨床試験の進め方
通常の薬剤
第I相
健常人対象(専門施設)
単回、連投試験
安全性検討、薬物動態
第II相 患者対象、通常並行群
有効性の検討、用法用量の決定
安全性の検討
第III相 患者対象、通常並行群
標準治療との非劣性(優越性)
プラセボとの優越性の検証
抗癌剤
通常は患者対象
複数スケジュール、増量
MTD・推奨用量決定
患者対象、通常単群
腫瘍縮小による有効性の確認
安全性(毒性)の検討
日本では市販後
標準治療との比較
(通常組み合わせで)
MTD: Maximum tolerated dose
第 I 相試験
一般薬

目的
安全性の検討
薬物動態

がん
MTD or 推奨用量決定
薬物動態
デザイン
健常人ボランティア
経口では単回から連投
群毎に増量/並行群ランダム化
普通は単盲検
クロスオーヴァーもあり
連投ではプラセボ入れること多い
十数例-40例
普通は患者(進行がん、普通は既治療)
スケジュールは薬物による
(注射は3週おき単回or5連投, 週1など
経口は連日(休みいれることもあり))
盲検はしない、プラセボもなし
普通は群毎(3-6例)に増量
十数例-40例
第 II 相試験
一般薬

目的
有効性の確認
用量の決定
安全性の検討

がん
有効性の確認
(抗腫瘍効果)
安全性の検討
デザイン
ランダム化並行群
(3群以上)
普通はプラセボ含む2重盲検
100-500例
普通は1群
ランダム化II相
盲検なし
20-100例
第Ⅲ相試験
一般薬

目的
有効性の検証
安全性の検討

がん
有効性の確認
(…Survival)
安全性の検討
デザイン
ランダム化並行群
ランダム化並行群
(2群が多い)
プラセボ対照優越性
実薬対照優越性or非劣性
実薬対照優越性or非劣性
安全性高ければ上乗せで
普通は2重盲検
プラセボ対照もあり
100例以上 1000例以上のことも
Clinical Trial: Design Types
Piantadosi A(1997), Clinical Trials, Wiley
Clinical Pharmacology Study
Phase I
Phase II
Phase I/II
Phase III
Treatment/Mechanism
Dose-finding
Safety and Efficacy
Comparative
Treatment Efficacy
Phase IV
Expanded safety
Statistical Approach in Drug Development
explanatory
Treatment Mechanism*
Dose-finding
Safety and Efficacy
Clinical Pharmacology Study
Phase I
Phase II
Phase I/II
exploratory, decision making
Phase III
Comparative
Treatment Efficacy
Phase IV
confirmatory, regulatory
Expanded safety
Proof of Concept (POC) trial*
プロトコル開発:参考

臨床試験の一般的なテキスト
Pocock(著)・コントローラ委員会訳: クリニカル・トライアル、篠原出版, 1989.
Meinert C : Clinical Trials, Oxford Univ. Press,1986. (大規模試験)
Buyse ME, Staquet MJ and Silvester RJ: Cancer Clinical Trials, Oxford, 1984.
Green S, Benedetti J and Crowley J: Oncology Clinical Trials, 2nd Ed.,
Chapman & Hall, 2003. (福田治彦他訳「がん臨床試験の実際」、医学書院)

プロトコルの構成・デザインのガイドライン
ICH-E3ガイドライン(総括報告書)E9ガイドライン(統計解析)
http://www.nihs.go.jp/ich/ichindex.html
JCOGプロトコルマニュアル

CBI 臨床試験方法論セミナー
http://www.jcog.jp/ (改訂前)
http://cbi.umin.ne.jp/
完全なプロトコルなど存在しない
常に存在するgray zone
常に行われる改正amendment改定revision
完璧な研究など存在しない。
存在するのは不完全さの程度の違いである。
(C.Meinert)
臨床研究報告のガイドライン



Uniform requirements for manuscripts submitted to biomedical journals
(http://www.icmje.org)
The CONSORT statement (http://www.consort-statement.org)
Good publication practice for pharmaceutical companies (http://www.gppguidelines.org)
Reporting of Statistics
 Lang TA and Secic M: How to Report Statistics in Medicine -Annotated
Guidelines for Authors, Editors and Reviewers, American College of
Physicians, 1997.
 Fukuda H and Ohashi Y: A guideline for reporting results of statistical
analysis in JJCO, Japan. J. Clinical Oncology 27, 121-127, 1997
(http://www.jjco.org/ 英文・日本語とも)
CONSORT
CONSORT statement
Consolidated Standards of Reporting Trials







臨床疫学者、統計学者、主要医学雑誌編集者グループICMJEの活動成果
1996年発表、2001年改訂
150を超える医学雑誌が採用
ランダム化臨床試験(2群)の標準報告様式、しかし概念は共通
フロー図、チェックリスト
他の標準報告様式も
QUOROM(ランダム化試験メタアナリシス)、
MOOSE(観察研究メタアナリシス)、STARD(診断技術)
記載ないものの強く望まれる項目
倫理委員会による承認
資金源
臨床試験登録番号(ISRCTN)
CONSORT
CONSORT statement
1996年版
Begg C, Cho M, Eastwood S et al. : Improving the quality of reporting of randomized
controlled trials, JAMA 1996; 276: 637-9.
2001年版
Moher D, Schulz KF, Altman D for the CONSORT Group, The CONSORT Statement:
Revised recommendations for the improving the quality of reports of parallel-group
randomized trials, JAMA 2001; 285: 1987-91 Lancet 2001; 357: 1197-4. Annals Int.
Medicine 2001; 134: 657-62.(JAMAの日本語版 2002年6月号:118-24)
http://www.consort-statement.org/
(日本語版http://homepage3.nifty.com/cont/consort_statement/menu.html)
詳細な説明もホームページにあり ( Annals Int. Medicine 2001; 134: 663-94)
CONSORT Statement
CONSORT
CONSORT
CONSORT Statement
チェックリスト
CONSORT Statement



タイトルと抄録
参加者はどのように割り付けられたか
はじめに
背景 科学的背景とrationale
方法
参加者
介入
目的
アウトカム
症例数
ランダム化
記号列の作成
Concealment
実施
CONSORT
CONSORT Statement



方法(続き)
盲検化/マスキング
統計的手法
結果
参加者の流れ
募集
ベースラインデータ
解析された人数
アウトカムと効果の推定
補助的解析
有害事象
考察
解釈
一般化可能性
全体としてのエビデンス
CONSORT
内容



臨床試験の進め方と相の概念
CONSORT
デザインの基本
エンドポイントの設定
対照の選択とランダム化・割り付け
盲検
症例数の決定
非劣性試験
中間解析
エンドポイント
臨床試験で何を評価するのか?
 有効性
efficacy
何を指標(エンドポイント)に?
 安全性
safety
 経済性
cost-minimization, cost-effectiveness,
cost-benefit
エンドポイント
Long term endpoints & surrogate(代替) ones
Short-term
Middle-term
Long-term
糖尿病
Blood sugar
HbA1c
Complication
高脂血症
TCH, LDL
Arteriosclerosis
MI/CHD Death
骨粗鬆症
Bone marker
Bone density
Bone Fracture
エンドポイント
エンドポイントの設定


真のエンドポイントかsurrogateか
検証すべき特性
信頼性 (評価者間、評価者内(再現性)) reliability, reproducibility
妥当性
validity
感度
sensitivity
実施可能性
feasibility

複数のエンドポイント
事前に一つのprimaryを選択
事前に検定順序を規定
統計的に総合化 (O’Brien法)
エンドポイント
良いエンドポイントとは?

信頼性(再現性)

妥当性
感度
実施可能性


reproducibility
他者の評価なら inter-rater reliability
validity 測りたいことを測っているか
sensitivity, responsiveness
feasibility
エンドポイント
DCCT研究(血糖コントロールと網膜症)
エンドポイント
DCCT研究(血糖コントロールと網膜症)
DCCT研究(血糖コントロールと網膜症)
エンドポイント
網膜症の判定は信頼できるか?
エンドポイント
エンドポイント
網膜症の判定は信頼できるか?
網膜症の判定は信頼できるか?
エンドポイント
対照の選択とランダム化
臨床試験の基本は「比較」である
クロスオーヴァー試験
クロスオーヴァー試験
クロスオーヴァー試験


個人差を消す試験方法
応用場面
軽い慢性的な疾患、あるいは「もとに戻る疾患」
軽い喘息、安定した糖尿病、睡眠薬
皮膚疾患の貼付剤、眼科領域
生物学的同等性(ジェネリックとブランド品の血中動態の比較)





並行群に比べ症例数少なくてすむ
持ち越し効果が存在すると結果にバイアス(2剤2期)
多剤多期
N-of-1試験
割付けにはバランスをとりバイアスを除去する方法:「ラテン方格法」など
対照の選択とランダム化
どうやって「等質」な対照を選ぶのか?


同一対象に異なる介入 (クロスオーヴァー):使えるのは稀
過去の類似対照 historical control:がんの臨床試験(第II相)
診断同じか?
併用治療同じか?
観察・測定方法同じか?

同時対照
選択の恣意性

ランダム化 randomization
患者さんも医師の判断にもよらない、確率的なメカニズムで
未知の要因についても平均的には等質に
平均的には正確な比較
確率的な評価が可能 p値の根拠 厳密にはp値を使えるのは
ランダム化をしたときのみ

盲検化 blinding, masking
割り付け
割り付け allocation
割り付け:複数の介入の
いずれかを被験者に割り当てる
ランダム化(無作為化):
被験者およびその登録状況(施設・
(順序))を固定したとき、複数治療
のいずれにも割り付けられる可能性
がある割り付け
正しいランダム化(無作為化)
さらに望ましいランダム化(無作為化)
品質管理と品質保証
ランダム化手法が不適切であった例
割り付け
割り付け
割り付け (続き)

ランダムでない割り付けとは
恣意的割り付け (医師あるいは患者による選択)
擬似ランダム化
カルテの番号の偶数・奇数
外来診察日
・・・・・・

正しいランダム化とは
各群に割り付けられる確率が事前に設定した値に正確に等しい(通常
は1:1)

より望ましいランダム化とは
ランダム化の方法

完全ランダム化 complete randomization
小規模ではアンバランスの可能性

random allocation
登録例数が定まらないと実施不可能

置換ブロック法 permuted blocks
組み入れ時期によるバイアス避けられる
ブロックサイズ一定か可変か
予見性からはサイズ大きく、バランスからは小さく
ブロックサイズはプロトコルには書かない(ICHガイドライン)

確率を変化させる方法
予見性小さくできる
バイアスコインbiased coin
壷のモデルurn model

不均等割り付け
根拠:プラセボとの大きな差が想定、対照に関する情報豊富、…
2:1はよく用いられる
割り付け
割り付け
ランダム化の方法(続き)
4例をA、Bに均等に割り付け
完全ランダム化
1例毎にA、Bを1/2で割り付ける AAAAからBBBBまで16通り
Random allocation
同数2例・2例の割り付け6通りから一つを選択
AABB ABAB ABBA BBAA BABA BAAB
置換ブロック
2例づつのブロックに分け、その中でrandom allocation
(AB BA) × (AB BA)
バイアスコイン
まず1例目を1:1。もしAなら次にBに割り付ける確率を増やす(例えば2/3)。同様に、
それまでの割り付け例数の差に応じて確率を変える
(確率の偏りを最初は大きく、次第に1:1に近づけるのが壷モデル)
割り付け
ランダム化の方法(続き)

実際に用いられている方法
盲検可能な場合
施設毎の置換ブロック法 permuted-block
2群ブロックの大きさ4の場合、AAPP,… PPAAの6通りを
施設毎にランダムに順次発生
ブロックの大きさはプロトコルに通常記載しない
盲検を行わないがん臨床試験の場合
層別を行うこともあり
通常は2-4程度の因子を用いた動的割り付け法
どの時点でもバランス取れるように割り付け確率変化させる
施設は因子に含める場合とアンバランス程度の制約を与える
場合あり(Zelenの方法)
割り付け
最小化法 minimization
(Pocock and Simon(1975))
それまでの割り付け結果(背景の分布)に応じて割り付け確率を変える動的
割り付け法の代表
性
年齢
重症度
男
女
<50
>=50
III
IV
群A
20
10
11
19
5
25
群B
19
11
10
20
3
27
次患者 (男 <50 III) どちらに割り振ればバランスとれるか
A:20+11+5=36 B:19+10+3=32
Bに割り振る確率大とする
確率を0、1にする決定論的方法は避けるのが賢明
因子の重みを変える等、さまざまな変形
盲検
盲検化(ブラインド)




マスキングともいう
投与法変更・試験中止、併用治療、評価(有効性・安全性)の偏
りを防止
単盲検、2重盲検(実は3重、4重)
キーは第三者が管理
日本ではかつてはコントローラ、最近はCRO管理も
海外では会社の統計・品質保証部門、CROなど

担当医の判断で緊急開票は可能
センターで24時間管理することもあり
開票前にデータを仮固定することが勧められる


治療を盲検化できない試験でも評価のマスキングが勧められる
実薬 プラセボ プラセボ 実薬
プラセボあるいはダブルダミー
割付け(多因子要因実験)
N-SAS BC02
研究代表者 渡辺亨


ホルモン療法低感受性、n+ 症例に対する術後補助療法
エンドポイント
無病生存期間
神経毒性を中心としたHRQOL


ACの有無、Taxaneの種類に関する2×2要因実験
AC有無に関する非劣性non-inferiority試験、1200例
Randomize
n個数
HER2
腫瘍径
術式
施設
動的割付
AC×4 Paclitaxel×4
AC×4 Docetaxel×4
Paclitaxel×8
Docetaxel×8
割付け(多因子要因実験)
多因子要因実験
Factorial experiments
2×2
A noA
B
noB
Bの効果effect of B
Aの効果 effect of A
AとBの間に交互作用無ければ、2つの実験分の情報量
割付け(多因子要因実験)
2×2要因実験:NSAS BC02
ACなし
PAC
無病生存
0.9
ACあり
0.9×0.8
交互作用無ければ
DOC
0.9×0.85
0.9×0.8×0.85
ACの有無?(非劣性)
ACは0.8
(20%リスク減少)
Taxane
の比較
Dは0.85
(15%リスク減少)
割付け(多因子要因実験)
2×2要因実験:NSAS BC02
正確には
無病生存率の対数
無
病
生
存
率
AC優、T差無
P
P
差なし
D
AC無、T差
P
D
D
Tの効果
AC優、T差
ACなし
ACの効果
交互作用無し
P
ACあり
D
量的交互作用
P
D
質的交互作用
P
D
割付け(多因子要因実験)
多因子要因実験の応用
Application of Factorial experiments
完全実施と一部実施
complete/fractional
工業・農業実験では常識化 線点図と直交表
臨床研究ではこれまでは稀
異なるメカニズムの薬剤、とくに予防研究
Blotによる中国臨県のがん予防研究 cancer prevention trial
a,b,c,d 4薬剤群 0,ab,ac,ad,bc,bd,cd,abcdの1/2実施
異なる疾患(エンドポイント)
Physicians’ Health Study
Aspirin(心筋梗塞MI予防)×β-carotene(癌予防)
推進派と慎重派
割付け(多因子要因実験)
1988Jan27 New York Times
Physicians Health Study
心筋梗塞予防のアスピリン
× 癌予防のβカロテン
22000名の医師が参加
中間解析によって
アスピリン部分の中止
Steering Committee of PHS,
NEJM 1987;321:129-35
割付け(多因子要因実験)
2×2要因実験


交互作用ある場合(量的交互作用)には「平均」した効果を推定
交互作用の存在はエンドポイントをどう取るかに依存
生存時間をエンドポイントにした場合、通常は
無病生存率の対数 ~ 対数ハザード

慎重派と積極派
「交互作用が存在すると厄介、その検出は困難」
「要因実験を行わなければそもそも交互作用判らない」

乳がん補助療法領域では要因実験好まれる
CALGB、NSABP
仮説検定と2種類の過誤
α(第1種)とβ(第2種)
事実 新薬は効く
意思決定
承認
(仮説を捨てる)
承認しない
(仮説を捨てない)
p値と検定・症例数の決定
効かない
1-β
検出力power
sensitivity
α
false-positive
β
false-negative
1-α
specificity
行政側: αの維持
スポンサー:資源の制約下でβを小さく (症例数増やす、誤差的バラツキ小さく)
検定の繰り返し(多重性:多エンドポイント、多サブグループ、多時点での検定、複数の
検定手法)、症例の除外:αの増加
症例数の決定
仮説検定と2種類の過誤
必要サンプルサイズの計算


薬効評価ではαは一定(両側5%が標準)
βを減らすには?
効く薬を
精密なエンドポイントを
サンプルサイズを増やす
必要サンプルサイズの計算 (2群 :α=0.05, β=0.10)
連続量なら
各群 21×(群内SD/群平均差)2
割合なら
各群 21×(平均p(1-p))/差2
症例数の決定
仮説検定と2種類の過誤
必要サンプルサイズの計算
Time-to-eventの場合、情報量はイベント数
ハザード(発生率) 半減することを証明するために必要な
イベント数 = 95
(α=0.05 両側、β=0.10)
(累積)発生率
各群に必要 Number-Needed-to-Treat
コントロール群 治療群
な症例数
(1件のイベント減に対して)
1%
0.5%
6330
200
5%
2.5%
1260
40
20%
10.6% 310
10.6
100% 100%
48
---
症例数の決定
仮説検定と2種類の過誤
必要サンプルサイズの計算

差とは何か?
非劣性の場合はホットな問題

優越性の場合:

期待したい差
(新薬開発の場合)
臨床的に意味のある(最小)差
(標準治療確立の場合)
可能な症例数である程度の検出力が保証される差
慣習による設定
臨床的な有意差と統計的な有意差
症例数の決定・非劣性試験
優越性試験と非劣性試験
治療効果の差と信頼区間: 試験治療と標準治療の効果の差 をδ
優越性:Superior
信頼区間
(通常95%)
これが0を含まなければ
「統計的に(5%)有意」
非劣性:Non-inferior
同等:Equivalent
判断できず: Indeterminate
Lower δ
(upper:通常0)
試験治療優れる
δをどう選択するか?
臨床的に無視できる治療効果の違い
領域の違い、標準治療の特性(毒性・コスト)、・・
誰もが認める決定方式は無い
中間解析
中間解析

試験管理のための中間モニタリング
治験の場合はスポンサー+医学専門家(委員会)
医師主導なら実行委員会
症例登録状況・データ収集状況と質・プロトコル遵守状況検討
毒性(オープンのがん臨床試験)監視と必要なら対策

安全性・倫理確保のためのキーをあけた、独立データモニタリング委
員会による中間解析 interim analysis
治験の場合はスポンサーとは独立な事務局・統計解析チーム
医師主導ならデータセンターによる解析
目的: 安全性の監視
有効性に関する判断
新治療が有効なことが明らか
これ以上続けても優越性・非劣性が検証できそうもない
(futility)あるいは劣っていることが明らか
中間解析
JCOG9511: CPT11+CDDP vs Etpo+CDDP for SCLC
Noda et al., NEJM 2002; 346: 85-91
entry 1995-1998, n=230, 2 interim analyses (O’Brien and Fleming type)
2nd analysis was significant and enrollment was stopped
中間解析
中間解析

有効中止の場合の統計解析
通常は、数回検定を行う群逐次法 group sequential
情報量あるいは時期で実施時期設定
癌補助療法では情報量は通常はイベント数
多重性の調整法
通常は柔軟なLan-DeMets法 α消費関数
回数・時期と検定方法はプロトコル(遅くとも解析計画書)に規定

Futiltyの解析
確率打ち切り stochastic curtailment
ベイズ流の予測検出力
中間解析
中間解析の現実



データ固定の遅れ、どこまで固定するか
中止後の集積データの扱い
公表をどうするか
がん補助療法で治療が終わった場合は? 実態は公表

独立な統計家は必要か
治験はともかく研究者主導研究では?
デザイン上の工夫は? 最近の試み



多因子要因実験
クラスターランダム化
事例:施設×月を単位としたランダム化
ベイズ流アプローチの応用
がんI相試験のCRM Continual Reassessment Method

adaptive design
第II相からIII相への移行、アームの削減
中間解析と症例数の途中見直し
条件付き検出力計算等による症例数増加・期間延長
・・・・・・・・・・・