診断法に関する研究 - 日本医療機能評価機構

「クリニカルクエスチョン単位の
医学文献評価選定」
森實敏夫
Toshio Morizane, MD
2004.10.16
クリニカルクエスチョン
クリニカルクエスチョン
•患者
•介護者
ペイシェントクエスチョン
•Informationist
(ライブラリアン、
サーチャー)
医療従事者
•医師
•看護師
•薬剤師
•放射線技師
•理学療法士
•他
クリニカルクエスチョンとは
• 臨床上生じた疑問。
– 医師あるいは保険供給者がいだく疑問=クリニカルクエ
スチョン
– 患者あるいは介護者がいだく疑問=ペイシェントクエス
チョン
• 解答が得られると患者のアウトカムが改善する可能
性がある。
• 新しい診断法、新しい治療法の導入、新しい医学知
識に伴い変化する可能性がある。
CQの生成と対処の状況
家庭医の場合
家庭医によるCQ (USA)
•
•
•
•
•
•
•
•
1996年4月から1997年12月
ランダム抽出103名の家庭医
2日半、調査者が立会い、CQを収集
1,101個のCQが生成され、69のカテゴリーに分類
可能であった。
64%のCQはすぐに追求されなかった。
追求されたCQの80%は解答が得られた。
医師が解答を得るのに費やした時間は平均2分以
下であった。
文献検索が行われたのは2件のみで、印刷物ある
いは他の医療従事者に聞くことによって解答を得て
いた。
(Ely et al:Analysis of questions asked by family doctors regarding patient care.
BMJ 2004;319:358)
家庭医によるCQ分類トップ10
(Ely et al:BMJ 2004;319:358)
CQ
%
追求%
解答%
症状Xの原因は何か?
9
9
50
薬剤Xの用量はいくつか?
8
85
97
疾患Xあるいは症状Xをどのようにマネージメントしたらい
いか?
7
29
83
疾患Xあるいは症状Xをどのように治療したらいいか?
7
33
72
診察所見Xの原因は何か?
7
18
46
検査Xの結果の原因は何か?
4
40
72
この患者は疾患Xあるいは病態Xか?
4
14
67
Yの状況で検査Xは適応があるか?
4
29
83
病態Xに対してどの薬剤を選択すべきか?
3
47
76
病態Yにおいて薬剤Xは適応があるか?
3
25
78
Taxonomy of generic clinical
questions.
• http://bmj.bmjjournals.com/cgi/content/full/
321/7258/429/DC1
用いられた情報源、時間、成功率
(Ely et al:BMJ 2004;319:358)
情報源
割合(%) 平均(SD)(秒) 成功率(%) *
人(医師、薬剤師など)
36
109 (104)
79
添付文書以外の印刷物
32
100 (89)
52
添付文書
25
70 (66)
85
壁に貼られている文書
4
42 (34)
82
PC (CD-ROMやイン
ターネット)
2
395 (552)
20
100
102 (137)
71
計
*回数に対する割合
レジデントの場合
CQの頻度と処理:レジデントの場合
(Am J Med 2000;109:218.)
• 米国 大学病院 64名のレジデント
• 1人の患者診察後に調査
– 患者3人に対し2つのCQ (0.7/pt)
• 治療 38%
• 診断 27%
– CQの29%が追求された
• 教科書
• 原著
• 指導医
31%
21%
17%
– CQを追求した理由
• 患者が期待している
• 医療訴訟を恐れて
OR 2.3 (1.0-4.0)
OR 2.1 (1.0-4.3)
– CQを追求しなかった理由
• 時間がない
• 忘れてしまった
60%
29%
CQの頻度と処理:レジデントの場合
(Fam Med 2003;35:257.)
• 米国 大学病院
• 観察と自己報告
• CQ 1.3/encounter
– レジデント
– スタッフ
•
•
•
•
1.5/encounter
0.8/encounter
CQの66%は直ちに解答を追及した。
残りの6%のみが、後ほど追及された。
66%の場合、使った時間は2分以下であった。
大部分が、人に聞く、あるいは、ポケットレフェレンス
の参照がなされていた。
コンサルタント医師の場合
Consultant Physicianの場合1
(Aust N Z J Med 2000;30:319)
• オーストラリア 質問票による調査 109/545名(回収率20%)
• 88%の医師が1週間に5個までのCQを生成。
• 62%の医師が5回以上のエビデンス検索を行う。
– 大部分がMDELINEを検索
– 大部分が治療に関するCQ
• 検索の障害
– 74%
– 41%
– 43%
時間がない
検索のスキルが不十分
情報源へのアクセスに制限
• 論文の評価
– 37%
– 22%
全体的印象により評価
明確な批判的吟味を施行
Consultant Physicianの場合2
(Aust N Z J Med 2000;30:319)
• 文献検索の効率
– 18%
– 52%
– 30%
good
fair
poor
• EBMの実行の効果
– 47%
– 39%
– 5%
検索前の確信が強化された
知識が向上した
臨床決断を変更した
• 診療の変更を妨げる因子
– 40%
– 40%
– 39%
個人の保守性
施設の制限
異なる診療科の間の緊張
• EBMの弱点と感じている点
– 26%
– 25%
– 13%
個別患者への適用の限界
エビデンスが無い
時間がかかりすぎる
• 3分の1が信頼できる情報源を、ケアの現場に希望している
クリニカルクエスチョンの収集法によ
る違い
出口調査 VS 自己報告
(J Med Libr Assoc 2003;91:364.)
• 卒後平均15から19年の家庭医を中心とした調査
– 1人の患者の診療後インタビュー VS 保持したカードに医師
が記入
• 患者1人あたりのCQ数=0.43 VS 0.16
診断
薬物療法
28.7%
34.2
23.1%
50.0
治療 (薬物以外あるいは一般的)
14.0
7.7
マネージメント (診断と治療)
9.4
5.7
疫学
7.5
5.7
非臨床
6.3
7.7
P<0.01
CQの重要度の自己評価
非常に重要
31.6%
12.3%
重要
40.2
32.0
どちらでもない
13.8
38.1
あまり重要でない
12.3
13.1
重要でない
2.0
4.4
P<0.01
CQの取り扱い
追求した
解答が得られた
68.2% 81.1%
50.6
54.5
P<0.01
P=0.27
解答を得た情報源
コンサルタント
14.2%
18.7%
パートナー
10.6
9.5
教科書
10.0
12.2
卓上資料
13.3
22.6
MEDLINE以外のWebサイト
3.4
2.2
薬剤の添付文書
1.9
0.5
雑誌
2.7
3.0
MEDLINE
5.8
0.7
CQの形成枠組みと検索効率
EBM-structured VS Minimally
structured CQ
(Bull Med Libr Assoc 2000;88:239)
• EBM-structured CQ n=185
– Patients/Exposure or
Intervention/Control/Outcome [PE(I)CO]
• Minimally structured CQ n=195
前者は、
• 検索式の複雑さと相関 P=0.002 r=0.1549
• より少数の検索結果と相関 P=0.028 r=0.1614
• より少数の関連文献とは相関なし
EBM-structured CQに関する意見
• 20%のライブラリアン(4/20)が依頼者が否定
的な反応を示したと報告。
• 10%が良いと答えたのに対し、70%は単純
なCQの方が使用が容易と報告。
• 5%が作成が容易、55%が単純なCQの方が
作成が容易と報告。
• 60%が依頼者のニーズに関する情報量が多
いと報告。
CQ形成の改善
簡単な注意書きによる改善
Centre for Clinical Effectivenessの試み
Instruction
結果
• 4つの要素を持ったCQがInstruction後に有
意に増加。
• Instructionのない群と有意差あり。
CQに対する解答の獲得を阻害する
因子
•
59の阻害因子を同定
1.
2.
3.
4.
5.
必要情報の認識
CQ形成
情報検索
解答の形成
患者への解答の適用
2
8
41
5
3
情報検索をしない理由1
• 患者に特異的な疑問に一般的な情報源で答えるこ
とが難しい。
• 患者からの情報が不十分で検索の焦点が絞れない。
• CQの関連領域が適切か良くわからない。補助的な
CQも含むべきか良く分からない。
• 専門用語を用いた検索がうまく行かない。
• クリニカルクエスチョンの改変が検索を施行後必要
なことが分かることがある。
• PI(E)CO形式にCQを合わせるのが難しい。
• サーチャーとのコミュニケーションがうまく行かず、
不要なCQの改変が行われることがある。
情報検索をしない理由2
•
•
•
•
関連した情報の存在に疑問を持っている。
CQの重要性が情報検索を正当化するほど高くない。
検索を行う時間がない。
コンサルテーションで容易に情報が得られるので、
検索の必要が無い。
• どこに必要な情報があるかよく分からない。
• 情報検索のスキルが不十分で適切な検索ができな
い。
• どういう順に情報源を見るべきか良く分からない。
情報検索をしない理由3
• 必要な情報を失わないで、検索を絞込む方法が良く
分からない。
• どの文献を熟読すべきか、どのように熟読すべきか
良く分からない。検索をどこでストップして良いかよく
分からない。
• 検索結果がゼロの場合、どこがいけないのか良く分
からない。
• データベースのインデクシングが不適切で、目的の
語句がMeSHに無い。
• 情報源へのアクセスが不便。
• 知りたい情報がデータベースに含まれていない。
• etc.
CQに対する解答の獲得を促進する
には
CQ作成法の改善による文献検索活
動の促進
• 大学病院のレジデント
• 介入なし VS 1時間の講義
(J Gen Intern Med 2001;16:838.)
– クリニカルクエスチョンカードの使用法
– 実際のクリニカルクエスチョンの作成
• 1週間あたりのMEDLINEログオンの回数
– 2.1 VS 4.4
P<0.001
• 検索の回数
– 24.0 VS 74.2
P<0.001
• 読まれたアブストラクト数
– 5.8 VS 17.7
P=0.001
• 読まれた論文数
– 1.0 VS 2.6
P=0.005
• 文献検索に費やした時間
– 0.8 VS 2.4時間
P<0.001
医学生、看護学生に対する教育効果
(J Am Med Inform Assoc 2002;9:283.)
• 対象:医学生81名、看護学生52名
• 介入:1)大教室での講義
– MEDLINEの基礎:MeSH、Text words, Explosions,
Combinations, Limits, Scope notes.
– EBMの原理: CQの枠組み、適切なエビデンス、それぞれ
のエビデンス検索に最適な戦略
2)2-4週後の実習
• 与えられた324個のCQに対する適切な解答が得ら
れるかどうかを前後でテスト。
• 適切な検索と関連した因子を解析。
結果
• 適切な解答が得られた率
– 医学生:
– 看護学生:
前 32.3%
前 31.7%
後 51.6%
後 34.7%
• 適切な検索と有意な関連があった因子。
– 検索前の想定した解答が正しい。
– MEDLINEの使用経験があり特徴を知っている。
– CQのタイプ(予後>治療>害>診断)
– 空間認識スコア
MEDLINE検索
MEDLINE検索のバリアー
(Int J Technol Assess Health Care 1999;15:281.)
1. 適切に形成されたCQから始めないこと。
2. MeSH (Medical Subject Headings)の使用
に失敗すること。
3. 想起と精度の関係のてこ入れに失敗するこ
と。(自分の考えとMEDLINEのロジックとの
齟齬を解決できない)。
4. 検索に適切なLimits(制限)をかけることに
失敗すること。
Minds Abstractの取り組み
MA作成手順
1. クリニカルクエスチョンの作成
2. 検索式の作成
3. 試験検索
4. 検索式の確定
5. 検索結果の確定
6. Minds基準によるふるいわけ
7. Meaningfulnessのチェック
8. 全文コピーの入手
9. EBMデータテーブル(EDT)の作成
10. Main clinical data (MCD)の作成
11. EDTに基づきMindsアブストラクト(MA)作成
12. 効果指標の算出
13. 文献レビュアー(EBM)コメントの追加
14. クエスチョンとアンサーの作成
15. 疾患専門コメントの追加
16. Validityスコア
17. Reliabilityスコア
18. Clinical Relevanceスコア
Mindsの基準(一部改定)
•
•
•
•
日本語または英語
人を対象とした研究:文献検索の段階で選定済み
PE(I)CO(D)の各項目がCQと一致
研究目的ごとの基準に合致
–
–
–
–
–
–
–
予防・治療に関する研究
診断に関する研究
予後に関する研究
病因に関する研究
医療の質の向上あるいは持続的教育に関する研究
医療保健プログラムあるいは介入の経済に関する研究
システマティックレビューまたはメタアナリシス
予防・治療に関する研究
A) ランダム割付が行なわれている
• 無かった場合は以下も採用
B) 非ランダム化比較試験
C) 単一群試験
診断に関する研究
A) 対象疾患だけでなく対照疾患を含む
B) sensitivity, specificity, likelihood ratio,
positive rate, positivity, odds ratioなどの
語句を含む
予後に関する研究
A) コホート研究(なお、曝露による群分けをし
ていない研究も含める。前向き、後ろ向きは
問わない)
• 無かった場合は症例対照研究、症例集積
研究も含める。
病因に関する研究
A) 曝露と推定されるアウトカムの関係を探求している
B) アウトカムに対するリスクがある明確に定義された
群で前向きにデータ収集が行なわれている:次の
順で望ましい、ランダム化比較試験、準ランダム化
比較試験、非ランダム化比較試験、症例ごとに
マッチングが行われたか比較する群を生成するの
に統計学的調整が行なわれたコホート研究、ネス
ティッド症例対照研究(なお、症例対照研究も研究
デザインの分類は行う。まれな疾患や病態がアウ
トカムの場合には症例対照研究も採用する)
医療の質の向上あるいは持続的教育
に関する研究
A) ランダム割付が行なわれている
医療保健プログラムあるいは介入の
経済に関する研究
A) 日本を対象にしている
B) 研究対象の経済的な問題は実際の患者に
おける選択肢の比較に基づいている
システマティックレビューまたはメタア
ナリシス
A) 特に条件を設定せず、すべて採用する。
注)
• 臨床予測ガイドに関する研究はMindsアブ
ストラクトの作成は行わず、文献の存在を
紹介するのみにとどめる。
• 鑑別診断に関する研究は診断に関する研
究と同様に取り扱う。
論文の質の評価
論文の質に関する4つの概念
1.
2.
3.
4.
Meaningfulness 意味をなすか?
Validity 妥当か?
Reliability 信頼できるか?
Relevance 臨床的意義があるか?
Meaningfulness
スコア
基準
4
すべて理解できる
3
おおよそ理解できる
2
一部理解できる
1
ごく一部は理解できる
0
全く理解できない
Reliability
• High(高)
– 当該研究を含め2つ以上の研究が同じ結果である
– 大規模臨床研究である(αエラー、βエラーが小さい)
• Moderate(中)
– 当該研究が1つだけであるが、サンプルサイズが十分大
きい
– 選択バイアスが小さい
• Low(低)
– サンプルサイズが小さくαエラーまたはβエラーの可能性
がある、95%信頼区間が広い
– 選択バイアスが大きい
Reliability
スコ
ア
基準
4
異なる対象で行なわれた2つ以上の研究で同じ結果が得られている
3
同一の研究の中で異なる対象で同じ結果が得られている
2
同一の研究の中で1つの群を2つにランダムに分割して別の時点で
研究が行なわれ同じ結果が得られている
1
同一の研究の中で同じ対象で同じ結果が得られている
0
異なる対象者で行なわれた2つ以上の研究で相反する結果が得られ
ている
ND
判定保留(Undefined)
Relevance
スコア 基準
4
患者にベネフィットのあることが直接証明されている
3
患者にベネフィットのあることが間接的に証明されてい
る
2
今後ベネフィットが証明される可能性がある
1
今後ベネフィットが証明される可能性はほとんどないま
たはない
0
患者にベネフィットはない
Clinical Relevance
標準治療
過去の研究
研究の対照
有効性
安全性
(害)
判定
(-)
(-)
プラセボ
優
不定
A
(-)
(+)
プラセボ
優
不定
A, B, C,
D
(+)
(+)
現在の標準治療
優
不定
A
(+)
(+)
現在の標準治療
同等または非劣性
不定
B
(+)
(+)
プラセボ
優
不定
A, B, C,
D
A 現状の介入より優れてい
る
B 現状の介入と同等
C 現状の介入より劣る
D 不明
介入/治療に関する研究のチェックリスト
評価項目
スコア
A. 介入以外の条件がまったく同じ群が比
較されている
B. 各群のすべての被験者の受けた介入は
均質である
C. データの記録、管理が厳密である
D.エンドポイントの測定が比較される群
で同じように正確に行われている
E. 解析方法が適切である
4 3 2 1 0
4 3 2 1 0
4 3 2 1 0
4 3 2 1 0
4 3 2 1 0
スコアの基準:4: 強く同意、3: 同意、2: どちらでもない、
1: 反対、0: 強く反対
*Delphi法に準じコンセンサスとしてスコアを付ける。
診断法に関する研究:横断研究のValidityスコア
評価項目
スコア
A.病態/疾患以外の条件がまったく同じ群が
比較されている
B.診断の至適基準は正確ですべての患者を
含む
C.データの記録、管理が厳密である
D.新しい診断法は比較される群で同じように
正確に行われている
E.解析方法が適切である
4 3 2 1 0
4 3 2 1 0
4 3 2 1 0
4 3 2 1 0
4 3 2 1 0
スコアの基準:4: 強く同意、3: 同意、2: どちらでもない、1: 反対、
0: 強く反対
危険因子/病因に関する研究:症例対照研究の
Validityスコア
評価項目
スコア
A. 病態/疾患以外の条件がまったく同じ群が
比較されている
B. 病態/疾患の診断法は正確である
C. データの記録、管理が厳密である
D. 危険因子の測定が比較される群で同じよ
うに正確に行われている
E. 解析方法が適切である
4 3 2 1 0
4 3 2 1 0
4 3 2 1 0
4 3 2 1 0
4 3 2 1 0
スコアの基準:4: 強く同意、3: 同意、2: どちらでもない、1: 反対、
0: 強く反対
Backup Slides
医療情報データベースの適切性
• 2名の家庭医が20個のCQに対する解答を求めて14のデー
タベースの検索を実行。
• アウトカム:適切な解答が得られる
• 次の5つのDBのいずれかで、CQの50%に対する解答が得
られた。組み合わせると75%に対する解答が得られた。
• かかった時間は2.4-6.5分であった。
–
–
–
–
–
STAT!Ref
MDConsult
DynaMed
MAXX
MDChoice.com
CQを追求する動機
(Med Decis Making 1995;15:113.)
• 約30%のCQしか解答を追及しない。なぜ
か?
• 49名のプライマリケア医の調査。
• 12因子の多変量解析の結果、2因子がCQの
追及と有意に関連していた。
– 確実な解答が存在すると信じられる
– 患者の問題の緊急性が高い