BMC Boot Camp Vol.3 Evidences (エビデンスに関する基礎知識のまとめ) Evidences: Menu 第1日 エビデンス総論 第2日 研究デザイン 第3日 バイアスとRAMBO 第4日 データの基本 第1日 エビデンス総論 エビデンスとは? 仮説に対する統計学的根拠 エビデンスとしての研究論文の扱い方 • 仮説の理解:「何を調べているのか」 – PECO(またはPICO)に基づく定式化 • 研究計画の理解:「何がどの程度確実か」 – 研究の設計(対象、研究デザイン、測定手法) – RAMBOに基づく批判的吟味→妥当性の評価 – 統計の解析(p値の算出 etc)→信頼性の評価 PECO(PICO)に基づく定式化 Patient(患者) ※Participants(参加者)とも – 何に、どういう状態の人に Exposure(曝露)/ Intervention(介入) – どういう条件がある(加わる)と Comparison(比較) – 何と比べて Outcome(アウトカム) – 何に影響が出るのか Time(時間)を加えて ‘PECOT’とすることも • いつの時点で • どの程度の期間で PECOTに基づく定式化の例 P 糖尿病患者に E スタチンを予防投与すると C 投与しない場合と比べて O 脂質異常症の発生率に影響が出るか T 5年以内に 一般的な統計の取り方 日本(世界)中のB病患者全員 理想的な母集団 A病院のB病患者全員 実際の母集団 そのうち研究に同意した100名 標本 50名ずつの2群に 群 抽出 測定・解析 割り付け 群 エンドポイントを基にして行われる 評価・報告 「割り付け」とは? 対象をそれぞれの群に振り分ける作業 割り付けに関する3つのキーワード • ランダム化(randomization) – 乱数表などに基づいて無作為に割り付けを行う • 隠蔽(concealment) – 割り付け作業を非関係者が行う • 盲検化(blinding, masking) – 割り付けの結果を関係者に隠す 研究の「エンドポイント」 統計処理の対象となるアウトカム 一次エンドポイント Primary endpoint – 研究目的に沿って測る指標(PECOのOにあたる) 二次エンドポイント Secondary endpoint – 研究のついでに測る指標 真のエンドポイント True endpoint – アウトカムを直接反映する指標(発症、死亡など) 代用エンドポイント Surrogate endpoint – アウトカムを間接的に評価する指標(検査値など) 統計の「解析」とは • 真の値・誤差の推定 – 標本のデータから全体の平均値や割合を予測 – 予測値の信頼区間(第4日参照)を算出 • 差の検定 – 2群の差が確実(有意、Statistically significant)な ものであるかどうかを判定 – 判定用の指標としてp値(第4日参照)を算出 – 信頼区間からも判定が可能 解析から導き出されるもの • 相関関係 correlation 回帰直線と呼ばれる – 関数(狭義では1次関数=直線)に近似できる関係 – 右上がりなら「正の相関」、右下がりなら「負の相関」 • 因果関係 causality 相関関係に加えて以下のような要素が必要 – 必要性(‘結果’のある人物が必ず‘原因’を伴っている) – 時間的前後関係(必ず‘原因’が‘結果’に先行する) – 整合性(既存の事実や他の研究結果と矛盾しない) – 真の相関性(交絡因子(第3日参照)が間に存在しない) 妥当性と信頼性(再現性) • 妥当性 validity:「ずれ」の無さ – 測りたいものを正確に測れているか – 妥当性を下げる要素:バイアス bias • 信頼性 reliability:「ぶれ」の無さ – 繰り返し測定しても同じ値が得られるか どちらも高い 妥当性が低い 信頼性が低い 第2日 研究デザイン 研究デザインの大枠 記述(非実験的)研究 日本における 糖尿病患者は~人 比較を 行わない 人為的に 手を加えない 比較を 行う 人為的に 条件を調整 観察(準実験的)研究 糖尿病患者は 健常者に比べて~ 実験的研究 糖尿病患者に~した群は ~しない群に比べて… 観察研究の分類 現在のOから 過去のEを分析 ケースコントロール研究 過去のEから 現在のOを追跡 コホート研究 病因・危険因子の探索 病因、危険因子の検証 現在のEから 将来のOを追跡 経時的な予後の解析 現在のEとOを 同時に分析 横断研究 検査の性能・精度の評価 それぞれの長所、短所 • ケースコントロール(症例対照)研究 – 因果関係の探索・発見に適している – 時間と費用が少なくて済むがバイアスが入りやすい • コホート研究 – 因果関係の検証に適している – バイアスをある程度減らせるが時間と費用がかかる • 横断研究 – ある一時点における相関関係の探索に適している – 因果関係が不明瞭(どちらが原因でどちらが結果?) 介入研究の基本形 母集団 ランダム化の完全度を基に 大きく3つに分類される 対象者 ランダム化比較試験 Randomized Controlled Trial 介入群 対照群 介入 アウトカム – 乱数表、業者に委託 etc 準ランダム化比較試験 Controlled Clinical Trial – サイコロの目、くじ引き etc アウトカム 非ランダム化比較試験 介入研究の盲検化 対象者の割り付け結果を関係者に伏せる • ‘誰に対して伏せるか’に基づく分類 – 一重盲検:患者 – 二重盲検:患者、介入者 (最も一般的) – 三重盲検:患者、介入者、判定者 – 四重盲検:患者、介入者、判定者、データ解析者 ※PROBE法:結果判定者にのみ伏せる (倫理的な面から、臨床研究では最も現実的) クロスオーバー研究 • 介入研究の一種 • 一定期間後に条件を交換し、再度経過を観察 • 介入の影響が素早く出て持続しない場合のみ有効 治療A群 評価 治療B群 評価 治療B群 評価 治療A群 評価 無治療(洗い流し期間) 研究デザインと妥当性の階層 複数のRCTの結果を 1つに統合したもの メタアナリシス システマティックレビュー 実験的研究 RCT>CCT>非ランダム化 観察研究(準実験的研究) コホート>ケースコントロール>横断 記述研究(非実験的研究) 専門家の個人的意見、レビューなど 第3日 バイアスとRAMBO バイアスとは 研究手法に潜み、誤った統計評価を導く要因 どんな研究でもバイアスを完全に除くことはできない! 典型的なバイアスを理解しておくことが不可欠 主なバイアス – 選択バイアス – 情報バイアス – 交絡 – 利害バイアス – 出版バイアス 選択バイアス 標本抽出・割り付けにおけるバイアス 母集団 抽出や割り付けの際に、 対象者 「母集団」と 質の異なる「対象」 介入群 対照群 介入 アウトカム アウトカム や 臨床的特性の異なる 「介入群」と「対照群」 を設定している 代表的な選択バイアス • 入院バイアス(Berksonバイアス) 入院患者を対象とした研究に付随する見落とし – 「入院患者は重症例や他疾患の合併例が多い」 • 罹患率バイアス(Neymanバイアス) 有病者を対象とした後ろ向き研究に付随する見落とし – 「発症早期に死亡した人は対象から抜け落ちやすい」 • 協力者バイアス(自己選択バイアス) 協力者を対象とした研究や調査に付随する偏り – 「どういう結果を期待している人が研究に協力的か」 情報バイアス 情報を管理・収集する際に生じるバイアス データを取る側や 取られる側の心理が 結果に影響を与える 母集団 対象者 介入群 対照群 データを取る人間や 取り方が均一でない アウトカム データの測り間違い 介入 アウトカム 代表的な情報バイアス • 想起バイアス 聴取を基にした調査(過去の曝露歴など)の不正確性 – 記憶間違い、適当な回答などに起因する • 測定バイアス 測定手段や不十分な盲検化に伴う測定の不正確性 – 割り付けを知っている測定者が先入観で判断 – 割り付けを知っている患者の心理が反映される – 測定者の個人的な技量や判断基準が反映される – 何回も測定しているうちに測定者・患者が疲れる 交絡(=交絡因子の存在) 「虎の威を借る狐」 「虎を引き連れた狐」を見た動物たちが逃げ出した – 見た目 「動物たちは狐を見て逃げ出した」 – 真実 「動物たちは虎を見て逃げ出した」 因果関係があるように見える=交絡 動物逃げ出す 狐 関連性あり (因果関係はなし) 関連性あり (因果関係) 虎 こういう因子を 交絡因子と呼ぶ 交絡の例 コーヒーをよく飲んでいる人は、飲まない人より 肺癌になる割合が有意に高かった。 ↑実はコーヒー好きには喫煙者が多い 本当は因果関係なし コーヒー 関連性あり (因果関係はなし) 関連性あり (因果関係) 喫煙 肺癌 交絡因子:喫煙 その他のバイアス • 利害バイアス 資金援助を受けている研究に生じるバイアス – スポンサーの企業や個人に有利な結果を誇張 – スポンサーの企業や個人に不利な結果を隠蔽 • 出版バイアス 成果を世間に報告する際に生じるバイアス 仮説を否定する研究(Negative study)は売れないため… – 出版社が出版しない、研究者が論文の形にしない – 有意差が生じるように研究者が結果をこじつける バイアスへの対策 • 選択バイアス対策 – 参加適格・除外を明確な基準で判断 – 対象のランダム割り付けと追跡 • 情報バイアス対策 – 盲検化の維持、機械による測定手法の均質化 • 交絡対策 – 両群で比較条件以外の因子を揃える(matching) これらを基にエビデンスの妥当性を系統的に評価 臨床試験の妥当性評価:RAMBO Recruitment Allocation 母集団 Blind Objective 対象者 Maintenance 介入群 対照群 脱落者 アウトカム アウトカム RAMBO(1) Recruitment(募集) 研究論文のここに注目 Introduction Methods Results Discussion 読み取りポイント • 集めた人数は? 参加拒否者の人数と理由は? • 参加への適格性(eligibility)を判断する基準は? • 参加からの除外(exclusion)を判断する基準は? 評価ポイント 参加者が母集団に対して代表的(等質)であるか? RAMBO(2) Allocation(割り付け) 研究論文のここに注目 Introduction Methods Results Discussion 読み取りポイント • (観察的研究の場合)何を基準に割り付けたか? • (実験的研究の場合)ランダム化を行ったか? • 実際の各群の人数と構成要員の臨床的特性は? 評価ポイント 2つの群の比較したい条件以外が揃っているか? RAMBO(3) Maintenance(維持) 研究論文のここに注目 Introduction Methods Results Discussion 読み取りポイント • 途中で何人が脱落・中止し、何人が残ったか? • 脱落・中止の原因は何か? 評価ポイント 参加者の追跡に不備が無かったか? RAMBO(4) Blind(盲検) 研究論文のここに注目 Introduction Methods Results Discussion 読み取りポイント • 誰に対して割り付けが隠されているか? • 盲検化が維持されていたか?(それをどう評価?) 評価ポイント 盲検化が適切に実施されていたか? RAMBO(5) Objective(客観性) 研究論文のここに注目 Introduction Methods Results Discussion 読み取りポイント • 介入の内容は? 実際の実施状況は? • エンドポイントは?(一次/二次、True/Surrogate) • 測定者や測定機器の測定精度に変化はないか? 評価ポイント 等質かつ客観的な手法で介入・測定が行われたか? 第4日 データの基本 標本数、平均、中央値 • 標本数(標本の総数)は n で表される • 平均 mean(算術平均 arithmetic mean) – データ値の総和÷データの総数(n) – 10, 10, 20, 30, 50, 60なら180÷6=30 • 中央値 median – データを小さい順に並べた時に中央にくる値 – 10, 10, 20, 30, 50, 60なら20と30の平均(=25) 標準偏差(SD)と標準誤差(SEM) • 標準偏差 standard deviation(SD) – {(各データ値-平均)2の総和÷(n-1)}の平方根 – 10, 10, 20, 30, 50, 60 (n=6, 平均=30) なら 2200÷5(=440)の平方根(≒21) • 標準誤差 standard error of the mean(SEM) – n個の標本のSDから母集団のSDを推測した値 – nの平方根に反比例し、母集団の数≫nなら SEM=(標本のSD)÷(nの平方根) 四分位数と四分位範囲 • n個のデータを小さい順に並べた時に – – – – 1+{(n-1)x(1/4)}番目に来る値=第1四分位数 1+{(n-1)x(2/4)}番目に来る値=第2四分位数(=中央値) 1+{(n-1)x(3/4)}番目に来る値=第3四分位数 第1四分位数~第3四分位数:四分位範囲(IQR) と定義 • 10, 10, 20, 30, 50, 60なら、 – 第1四分位数(2.25番目):10+(20-10)x0.25=12.5 – 第3四分位数(4.75番目):30+(50-30)x0.75=45 – 四分位範囲(IQR):12.5~45 正規分布 中心から両端に向かって 均等に下がっていく分布 2xSD(SEM) 平均 正規分布を対象とした検定は パラメトリック検定と呼ばれる • 平均±SD に約70% • 平均±2xSD に約95% の対象者が含まれる 正規分布のデータはn・平均・SD(SEM)で表記 エラーバーグラフ 平均±SEM(SD)で正規分布を表現するグラフ SEM(またはSD)は上側しか表示しないことも多い 標準誤差 (SEM) 平均 (Mean) 非正規分布 四分位範囲 正規分布以外の分布 左右非対称、山が2つある、… 非正規分布を対象とした検定は ノンパラメトリック検定と呼ばれる 範囲 中央値 非正規分布のデータは平均値で表現できない 中央値、四分位範囲などを用いて実測値で表現 箱ひげグラフ 中央値・範囲で非正規分布を表現するグラフ 外れ値(1つ1つoなどで表記) 最大値(≦第3四分位数+1.5xIQR) 第3四分位数 中央値 四分位区間(IQR) 第1四分位数 最小値(≧第1四分位数-1.5xIQR) p値(有意確率) 偶然その結果が生じる確率(信頼性の指標) • 「p=0.125」の意味とは? – その結果は12.5%の確率で「偶然の産物」 – その結果は87.5%の確率で意味のあるもの(有意) • p<有意水準(通常は0.05)→有意差あり • p値に関する注意点 – p値の大きさと差の大きさは無関係 – p値が十分小さくても実は差が無い可能性もある ●%信頼区間(Confidential Interval) 全ての値の●%を含む範囲(信頼性の指標) • 結論が逆転する可能性がある=差は有意でない – 「差」の95%信頼区間が0を含む→p≧0.05と同義 – 「比」の95%信頼区間が1を含む→p≧0.05と同義 • 信頼区間の広さはぶれ幅を表す – 信頼区間が狭い→信頼性が高い – 信頼区間が広い→正しく測定できているか怪しい • 差や比の実質的な大きさが評価できる p値と信頼区間の例 p = 0.08 * Hazard Ratio: 0.90 [95%CI: (0.69-1.24)] *p < 0.05 有意差なし 有意差あり 第Ⅰ種の誤りと第Ⅱ種の誤り • 第Ⅰ種の誤り(αエラー)≒偽陽性 – 差が無いのに「差がある」と判断 – 第Ⅰ種の誤りの発生率はα(=p値)で表される – 通常はα < 0.05(p<0.05)が必要 ※許容されるαの上限(通常は0.05)を有意水準と呼ぶ • 第Ⅱ種の誤り(βエラー)≒偽陰性 – 差があるのに「差が無い」と判断(≒見落とし) – 第Ⅱ種の誤りの発生率はβで表される – 検出力(1-β):通常は > 0.8(β<0.2)が必要
© Copyright 2025 ExpyDoc