2012/04/07 第5回 心理・医学系研究者のためのデータ 解析環境Rによる統計学の研究会 「重回帰分析」の書き方 土屋政雄 1 本日の内容 • • • • 用語について Reporting Guidelineと適正報告調査 項目詳細 論文での示し方 2 用語について • multiple regression • linear regression • (multiple OR multivariate OR multivariable) linear regression 従来の重回帰分析,が指しているのは, 線形の回帰で説明変数が複数ある場合の ことを言うので,multivariable linear regression (画像) (多変数線形回帰)がより正確なはず 『ロスマン カッツ (2008):p1,25; Babyak (2004):p412 (画像)STROBEのロゴ の疫学』 の表紙 3 用語について PubMedで各年でそれぞれのフレーズを検索した該当件数 (2012/03/07 現在) 6000 "linear regression" 4912 5000 4000 3000 2188 2000 1277 1000 429 2010 2009 2008 2007 2006 2005 2004 2003 2002 2001 2011 209 0 "multiple regression" "multiple linear regression" "multivariate linear regression" "multivariable linear regression" 4 重回帰分析の有用な使われ方イメージ • t検定やANOVAの進化版 – – – – 平均値差の推定 回帰係数が即,効果量として解釈できる 95%信頼区間も簡単に出せる 交絡要因,ベースラインの値が調整できる preの値の違いを差し引 いたうえでpostの 平均値差をみたい 介入 幸 福 感 コントロール pre postの幸福感=切片 + b1*treatment + b2*pre post 5 Reporting Guidelineと適正報告調査 • Reporting Guideline(単なるおすすめも含む) – Kelley & Maxwell (2010) Multiple Regression. In G. R. Hancock & R. O. Mueller (Eds.), The reviewer’s guide to quantitative methods in the social sciences (pp. 281-298). New York: Routledge – Vandenbroucke et al. (2007) Strengthening the Reporting of Observational Studies in Epidemiology (STROBE): explanation and elaboration. Ann Intern Med. 147:W163-94 (画像)STROBEのロゴ – カッツ MH (2008) 医学的研究のための多変量解析:一般回帰モデ ルからマルチレベル解析まで 木原雅子・木原正博(監訳),メディカ ル・サイエンス・インターナショナル (p197~) (画像)『医 • p197~の章が「論文を書く」であり,記載するべき18の情報を 一覧にしている(ロジスティックと比例ハザードも一緒になって いるが) 学的研究の ための多変 量解析』の 表紙 6 Reporting Guidelineと適正報告調査 • 適正報告調査 – Freedland, Reese and Steinmeyer. (2009) Multivariable models in biobehavioral research. Psychosom Med. 71:205-16 7 (参考)Ken Kelley • Welcome to Ken Kelley’s Web Site – http://www.nd.edu/~kkelley/site/Welcome.html • パッケージ"MBESS"の作者 – Methods for the Behavioral, Educational, and Social Sciences (画像)Ken Kelly の写真 8 (画像) Ken Kellyの 写真 Reporting Guidelineと適正報告調査 • Kelley & Maxwell (2010)のGuideline (おすすめレベル) 1. 研究の目標と重回帰分析がどのように有用なのかが明 示されている I 2. 各説明変数は理論的,または実践的な観点に沿って含 められるかどうか判断されるべき I 3. どのように重回帰モデルが解釈されるかを伝えるため に,基準変数と回帰する変数は詳細に説明されるべき である。具体的には,測定尺度,コーディング方法,信 頼性等である M 4. 効果量の計算と解釈における特定の手続きが説明され ている M 5. 重回帰分析の仮定条件および結果となる推測が明示 的に述べられている M 9 I:Introduction, M:Methods (画像) Ken Kellyの 写真 Reporting Guidelineと適正報告調査 • Kelley & Mazwell (2010)のGuideline (続き) 6. 変数選択法が正当であることが説明されている M 7. 検定力,正確度,結果の再現性に関して全ての分析に おけるサンプルサイズが正当であることが説明されてい る M 8. 欠損値の扱い方が説明されている M 9. 交互作用(moderation)を検討したモデルについて,解 釈上の問題,センタリングの役割,視覚化が説明されて いる R 10. 媒介(mediation)を検討したモデルについて,解釈上の 問題,横断デザインの限界が説明されている R M:Methods, R:Results 10 (画像) Ken Kellyの 写真 Reporting Guidelineと適正報告調査 • Kelley & Mazwell (2010)のGuideline (続き) 11. モデルの適切さと前提を確かめるためにデータの視覚 的検討が行われている R 12. 説明因子またはアウトカム変数の測定誤差が説明され ている D 13. 現在の応用研究の文脈における重回帰分析の想定さ れる限界が明示されている D 14. 重回帰モデルの他の選択肢となるものが考えられてい る D R:Results, D:Disucussion 11 Reporting Guidelineと適正報告調査 (画像)STROBEのロゴ • STROBE (抜粋):Methodsの部分 7. 全てのアウトカム,ばく露,説明因子,想定される交絡因 子,交互作用を明確に定義せよ。もしあれば診断基準 を書け 10. 研究の人数がどうやって決定されたか説明せよ 11. 量的変数が解析でどう扱われたか説明せよ。もしあれ ば,なぜどのようにグループ化したか述べよ。 Box 4 12(a). 全ての統計的な方法を述べよ。交絡の調整も含む Box 5 12(b). サブグループ解析や交互作用をみるのに用いた方 法を述べよ Box 8 12(c). 欠損値をどのように扱ったか説明せよ 12(e). 感度分析について述べよ Box 6 12 Reporting Guidelineと適正報告調査 (画像)STROBEのロゴ • STROBE (抜粋):Resultsの部分 16(a). 調整されてない推定値を示し,もし該当する場合, 交絡を調整した推定値とその精度(例,95%信頼区間) を示せ。どの交絡因子が調整されたのか,またなぜ投 入されたのか明確に説明せよ 16(b). 連続量の変数がカテゴリ化された場合は,その範囲 を報告せよ 17. 他の解析を行った場合は報告せよ。ー例:サブグルー プ,交互作用,感度分析 Box 8 13 項目詳細(Kelley & Maxwell,2010) • レグレッサー(独立 or 予測)変数: X • 基準(従属 or アウトカム)変数: Y Yi 0 1 X1i k X ki i 0 k (1) 切片 k番目の回帰係数(k=1,...,K) X ki i番目の個人のk番目のレグレッサー変数(i=1,...,N) 2 i番目の個人の誤差(通常は平均0,分散 で正規分布が仮定される) i Kelley & Maxwell (2010) 14 項目詳細(Kelley & Maxwell,2010) 1. 研究の目標 – – 予測(prediction)か説明(explanation)か explanationはX→Yの因果関係の検討 2. レグレッサーの正当化 – 検証(confirmatory)と探索(exploratory) • 項目6と関連して,ステップワイズの時は探索的であることを明 示すべき。検証としたら× 15 多変量モデルの使い方 A) 交絡因子を調整してリスクファクターと アウトカムの関係を分析する B) ベースラインにおける特定の違いを 調整する C) 診断を推定する D) 予後を推定する (画像)『医 学的研究の ための多変 量解析』の 表紙 カッツ (2008) 説明モデル 予測モデル 例: 耳たぶのしわ有り→冠動脈疾患のリスク高い ※おそらく未知の交絡因子のせいだが,臨床上有用 16 項目詳細(Kelley & Maxwell,2010) 3. 基準変数とレグレッサー変数の説明 – 用いる変数の平均(と標準偏差),共分散行列,相関行 列が提供されるべき 変数のタイプ(カテゴリか連続量か)と範囲について限界 を議論 カテゴリ変数のコーディング説明 – – • – "Sex" : 女性を0,男性を1 など 連続量の中央値分割のような2区分化は× 17 項目詳細(Kelley & Maxwell,2010) 4. 効果量 – ほとんど常に示されるべき 第3回の資料 土屋政雄,初心 者による初心者のための「量 的データの二変量」参照 (Wilkinson & the APA Task Force on Statistical Inference, 1999 ) – – 2つのタイプ :omnibus とtargeted omnibus • – R2:重相関係数の二乗→一般的にはadjustedなRA2 も示すべき targeted • 回帰係数,unstandardized と standardized – – 普通はunstandardized,または両方示されるべき 信頼区間(CI)も示すべき。standardizedのCIは算出が難しい sX k unstandardized * s =standardized Y sY standardized * s X =unstandardized k s:添え字の変数の標準偏差 18 項目詳細(Kelley & Maxwell,2010) 5. 仮定の言及 – 回帰係数自体はパラメトリックな仮定を要しないが,p値 と信頼区間は4つの仮定が必要 a. b. c. d. – 誤差( ei Yi Yˆi )が正規分布に従う レグレッサーの全ての値で誤差分散が等質(等分散性: homoscedasticity) オブザベーションが相互に独立 Yとレグレッサーの関係が線形 dの線形の仮定が最も重要で,仮定が成り立たない場 合の3つの方略 • • • XkまたはYの変換(例: X k or X k2 ) 2 理論的に正当化した変数の追加(例: X k ) 非線形回帰モデル(negative exponential, Gompertz, logistic ) 19 項目詳細(Kelley & Maxwell,2010) 6. 変数選択法が正当である – 4つの方法 • • • • – 理論に沿う(→theory-driven) モデル比較(例:階層的重回帰) ステップワイズ(→data-driven) 色んな探索的モデルを試す 理想は"理論に沿う"方法 • • data-drivenの時は,変数選択方法(forward or backward etc... )やソフト名,プログラム名を示すべき 交絡因子だったら含めるべき ステップワイズはなるべく使わない! 20 抑制因子(suppresser) • 交絡因子の一種 マッチ (リスクファクター) – 交絡因子 • XとYの間に一見関連が「ある」 かのように見せる 肺がん (アウトカム) 喫煙 (交絡因子) – 抑制因子 • XとYの間に一見関連が「ない」 かのように見せる (画像) 『医学的 研究の ための 多変量 解析』の 表紙 • 事故の程度を調整したら 関連が強くみられた 2変量で有意にならなくても 多変数だと有意になる! AZT(抗HIV薬) (リスクファクター) 感染(HIV抗体の陽転) (アウトカム) 針刺し事故の程度 (抑制因子) カッツ (2008):p9~ 図は改変; Babyak (2004):p417; 21 項目詳細(Kelley & Maxwell,2010) 7. サンプルサイズが正当である – – – 検定力分析とパラメータ推定の正確性(AIPE)の検討 主要な関心がomnibus effect(重相関係数の二乗)なの かtargeted effects(回帰係数)なのかについて言及 一般的にprediction→omnibusでexplanation→targeted 22 項目詳細(Kelley & Maxwell,2010) 8. 欠損値 – 第2回の資料 奥村泰之,中級 者による初心者のための「線 形混合モデル」にも解説あり 3種類の欠損値 • • • – missing completely at random (MCAR) missing at random (MAR) missing not at random (MNAR) 最小限に防ぐのが原則だが,生じたらどのように扱った か明確にし,何らかのパターンがあったら報告する 平均値代入やペアワイズ削除は使うべきでない,使う場 合は明確な理由を リストワイズはMCARの仮定が強くある時のみ unbiased 以下が推奨 – – – • • 代入 or 多重代入 完全情報最尤法(FIML),制限付き最尤法(REML) 23 項目詳細(Kelley & Maxwell,2010) 9. 修飾(交互作用)の検討 – – – moderator = interaction (1)の式はX1とYの関係がX2の全ての値で同じであり,逆もまた同様 現実は他の要因の影響により関連の強さや方向は異なること多い 基本的な方法は,積項を加えること Yi 0 1 X1i 2 X 2i 3 X1i X 2i i – – 交互作用の検討のおすすめは,図にすること 連続量だと複雑なので,カテゴリ化する者もいるが,すすめない • • 検定力下がるし,誤った効果を導くこともある mean centering 24 項目詳細(Kelley & Maxwell,2010) 10. 媒介の検討 – X1とYの関連にX2が関与している。X1がX2の原因となり, 次にX2がYを生じさせる • 2 が0の時,X2は完全にX1とYを媒介しているという X 2i X1i * 0 * 1 * i Yi 0 2 X1i 3 X 2i i ' – 2つの方法 • • bootstrap (Shrout & Bolger, 2002) distribution of the product variable 13 (MacKinnon et al., 2004) 25 項目詳細(Kelley & Maxwell,2010) 11. 仮定を視覚的にチェック – 線形の仮定 • • • – 誤差の正規分布 • – normal quantile-empirical quantile plot (qq-plot) 正規確率プ ロット K+1変数間の2変量の関連 • – conditioning plot (coplot) 条件プロット residual versus predictor (RVP) plot 残差 vs 予測値プロット component plus residual (CPR) plot 成分プラス残差プロット matrix scatterplots (pairs plots) 図を報告することは重要だが,出版される論文は スペースの余裕がないので,web supplementalとして 出すのがおすすめ 26 項目詳細(Kelley & Maxwell,2010) 12. 測定誤差 – 2*2*2の配列で概念化される a. b. c. – 誤差のタイプ(random or nonrandom) StrobeのBox3 変数のタイプ(regressor or criterion) 係数のタイプ(unstandardized or standardized) Bias参照 random measurement error • • • 平均が0で研究内のどこにでも存在,測定された変数,真値,誤 差とは無相関 Yの場合はモデルの誤差項 誤差分散が大きくなると, unstandardized回帰係数は変わらな いがR2は低下し,回帰係数の標準誤差も大きくなる。 standardized回帰係数は小さくなる sX k unstandardized * s =standardized Y 27 項目詳細(Kelley & Maxwell,2010) 12. 測定誤差 – nonrandom measurement error • – 平均がnot 0または誤差と相関する。パラメータのバイアスを生 じさせる 測定誤差は特に目的がexplanationの場合に問題になる 。predictionの場合はそれほど問題ではない • 測定誤差が無視できない場合は,SEMを勧める 28 参考:Errorの性質 Nonrandom = Random Error Error Systematic Error サンプルサイズ Rothman (2002): p 95 を改変 29 項目詳細(Kelley & Maxwell,2010) 13. 限界の言及 – 実験的デザインではない場合の因果推論 • – 観察研究の場合は因果の言及避ける "controlled for" • レグレッサーの基準変数への線形の影響が,他のレグレッサー 変数の値が一定な状態で評価された状態 30 項目詳細(Kelley & Maxwell,2010) 14. 重回帰の代替法 – 誤差の正規性が成立しない場合 • – ノンパラメトリックな方法 アウトカム変数の性質が様々な場合 • – 一般化線形モデル(generalized linear model) 線形の仮定が適用されない場合 • • – Spline回帰,piecewise model lowess (locally weighted scatterplot smoothing) オブザベーションの独立が成り立たない場合 • – マルチレベルモデル 第2回「線形混合モデル」参照 測定誤差が深刻な場合 • 潜在変数モデル(確認的因子分析や構造方程式モデル[SEM]) 31 (参考)Package "rpsychi" • multreg(formula, data) – 例:multreg(salary~ pubs + cits, data=dat) – 標準化回帰係数の95%信頼区間も算出してくれる • HelpのExamples解析結果より 32 論文での示し方 • Kumar et al.(2010) 肺機能の予測における遺伝的 系統 N Engl J Med;363:321-30 – Table 3 http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2922981/table/T3/ 33 • Tzoulaki et al., (2008) BMJ 15;337:a258 ←アウトカム 注目しているメインの説明変数 交絡調整のパターン 別モデル (画像)Table3 注目しているメインの説明変数 交絡調整のパターン 別モデル 34 • Lee et al (2007) Arch Gen Psychiatry. 64:810-8 – Rを使用 注目しているメインの説明変数 アウトカム ↓ (画像)Table3 35 他に心理系に近そうな参考例 • Almeida et al (2010) Psychosom Med. 72:148-55 – ロジスティック回帰も一緒の表に入れてる – 交互作用の検討 – 感度分析 • Lewis et al (2009) Psychosom Med. 71:163–170 – 変数の説明が丁寧 – 交互作用の検討 • Melle et al.(2008) Arch Gen Psychiatry. 65:634-40 – 標準化回帰係数と95%信頼区間 – theory-based – モデルの仮定チェック 36 論文での示し方(おまけ) Tsuchiya et al., Impact of mental disorders on work performance in a community sample of workers in Japan: The World Mental Health Japan Survey 2002-2005. Psychiatry Res. 2012 Feb 26. [Epub ahead of print] (画像)Table2 37 (画像)Table3 38 • • • • • • • • 引用文献 Babyak (2004) What you see may not be what you get: a brief, nontechnical introduction to overfitting in regression-type models. Psychosom Med. 66:41121 Rothman (2002) Epidemiology: An Introduction. New York, Oxford University Press Kumar et al.(2010) Genetic ancestry in lung-function predictions. N Engl J Med. 2010;363:321-30. Melle et al., (2008) Prevention of negative symptom psychopathologies in firstepisode schizophrenia: two-year effects of reducing the duration of untreated psychosis. Arch Gen Psychiatry. 65:634-40 Almeida et al., (2010) Quality of parental emotional care and calculated risk for coronary heart disease. Psychosom Med. 72:148-55. Lee et al. (2007) Associations of salivary cortisol with cognitive function in the Baltimore memory study. Arch Gen Psychiatry ;64:810-8 Tzoulaki et al; International Collaborative Research Group on Macro/Micronutrients and Blood Pressure. Relation of iron and red meat intake to blood pressure: cross sectional epidemiological study. BMJ. 2008 15;337:a258. Lewis et al. (2009) Interactive effects of race and depressive symptoms on calcification in African American and white women. Psychosom Med.;71:16339 70
© Copyright 2024 ExpyDoc