土屋 - Researchmap

2012/04/07 第5回 心理・医学系研究者のためのデータ
解析環境Rによる統計学の研究会
「重回帰分析」の書き方
土屋政雄
1
本日の内容
•
•
•
•
用語について
Reporting Guidelineと適正報告調査
項目詳細
論文での示し方
2
用語について
• multiple regression
• linear regression
• (multiple OR multivariate OR
multivariable) linear regression
従来の重回帰分析,が指しているのは,
線形の回帰で説明変数が複数ある場合の
ことを言うので,multivariable linear regression
(画像)
(多変数線形回帰)がより正確なはず
『ロスマン
カッツ (2008):p1,25; Babyak (2004):p412
(画像)STROBEのロゴ
の疫学』
の表紙
3
用語について
PubMedで各年でそれぞれのフレーズを検索した該当件数
(2012/03/07 現在)
6000
"linear regression"
4912
5000
4000
3000
2188
2000
1277
1000
429
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
2011
209
0
"multiple
regression"
"multiple linear
regression"
"multivariate linear
regression"
"multivariable
linear regression"
4
重回帰分析の有用な使われ方イメージ
• t検定やANOVAの進化版
–
–
–
–
平均値差の推定
回帰係数が即,効果量として解釈できる
95%信頼区間も簡単に出せる
交絡要因,ベースラインの値が調整できる
preの値の違いを差し引
いたうえでpostの
平均値差をみたい
介入
幸
福
感
コントロール
pre
postの幸福感=切片 + b1*treatment + b2*pre
post
5
Reporting Guidelineと適正報告調査
• Reporting Guideline(単なるおすすめも含む)
– Kelley & Maxwell (2010) Multiple Regression. In G. R. Hancock
& R. O. Mueller (Eds.), The reviewer’s guide to quantitative
methods in the social sciences (pp. 281-298). New York:
Routledge
– Vandenbroucke et al. (2007) Strengthening the Reporting of
Observational Studies in Epidemiology (STROBE): explanation
and elaboration. Ann Intern Med. 147:W163-94 (画像)STROBEのロゴ
– カッツ MH (2008) 医学的研究のための多変量解析:一般回帰モデ
ルからマルチレベル解析まで 木原雅子・木原正博(監訳),メディカ
ル・サイエンス・インターナショナル (p197~)
(画像)『医
• p197~の章が「論文を書く」であり,記載するべき18の情報を
一覧にしている(ロジスティックと比例ハザードも一緒になって
いるが)
学的研究の
ための多変
量解析』の
表紙
6
Reporting Guidelineと適正報告調査
• 適正報告調査
– Freedland, Reese and Steinmeyer. (2009) Multivariable models
in biobehavioral research. Psychosom Med. 71:205-16
7
(参考)Ken Kelley
• Welcome to Ken Kelley’s Web Site
– http://www.nd.edu/~kkelley/site/Welcome.html
• パッケージ"MBESS"の作者
– Methods for the Behavioral, Educational, and Social
Sciences
(画像)Ken Kelly
の写真
8
(画像)
Ken
Kellyの
写真
Reporting Guidelineと適正報告調査
• Kelley & Maxwell (2010)のGuideline
(おすすめレベル)
1. 研究の目標と重回帰分析がどのように有用なのかが明
示されている
I
2. 各説明変数は理論的,または実践的な観点に沿って含
められるかどうか判断されるべき I
3. どのように重回帰モデルが解釈されるかを伝えるため
に,基準変数と回帰する変数は詳細に説明されるべき
である。具体的には,測定尺度,コーディング方法,信
頼性等である
M
4. 効果量の計算と解釈における特定の手続きが説明され
ている
M
5. 重回帰分析の仮定条件および結果となる推測が明示
的に述べられている M
9
I:Introduction, M:Methods
(画像)
Ken
Kellyの
写真
Reporting Guidelineと適正報告調査
• Kelley & Mazwell (2010)のGuideline (続き)
6. 変数選択法が正当であることが説明されている M
7. 検定力,正確度,結果の再現性に関して全ての分析に
おけるサンプルサイズが正当であることが説明されてい
る
M
8. 欠損値の扱い方が説明されている
M
9. 交互作用(moderation)を検討したモデルについて,解
釈上の問題,センタリングの役割,視覚化が説明されて
いる R
10. 媒介(mediation)を検討したモデルについて,解釈上の
問題,横断デザインの限界が説明されている
R
M:Methods, R:Results
10
(画像)
Ken
Kellyの
写真
Reporting Guidelineと適正報告調査
• Kelley & Mazwell (2010)のGuideline (続き)
11. モデルの適切さと前提を確かめるためにデータの視覚
的検討が行われている
R
12. 説明因子またはアウトカム変数の測定誤差が説明され
ている
D
13. 現在の応用研究の文脈における重回帰分析の想定さ
れる限界が明示されている D
14. 重回帰モデルの他の選択肢となるものが考えられてい
る
D
R:Results, D:Disucussion
11
Reporting Guidelineと適正報告調査
(画像)STROBEのロゴ
• STROBE (抜粋):Methodsの部分
7. 全てのアウトカム,ばく露,説明因子,想定される交絡因
子,交互作用を明確に定義せよ。もしあれば診断基準
を書け
10. 研究の人数がどうやって決定されたか説明せよ
11. 量的変数が解析でどう扱われたか説明せよ。もしあれ
ば,なぜどのようにグループ化したか述べよ。 Box 4
12(a). 全ての統計的な方法を述べよ。交絡の調整も含む
Box 5
12(b). サブグループ解析や交互作用をみるのに用いた方
法を述べよ Box 8
12(c). 欠損値をどのように扱ったか説明せよ
12(e). 感度分析について述べよ
Box 6
12
Reporting Guidelineと適正報告調査
(画像)STROBEのロゴ
• STROBE (抜粋):Resultsの部分
16(a). 調整されてない推定値を示し,もし該当する場合,
交絡を調整した推定値とその精度(例,95%信頼区間)
を示せ。どの交絡因子が調整されたのか,またなぜ投
入されたのか明確に説明せよ
16(b). 連続量の変数がカテゴリ化された場合は,その範囲
を報告せよ
17. 他の解析を行った場合は報告せよ。ー例:サブグルー
プ,交互作用,感度分析 Box 8
13
項目詳細(Kelley & Maxwell,2010)
• レグレッサー(独立 or 予測)変数: X
• 基準(従属 or アウトカム)変数: Y
Yi  0  1 X1i       k X ki   i
0
k
(1)
切片
k番目の回帰係数(k=1,...,K)
X ki i番目の個人のk番目のレグレッサー変数(i=1,...,N)
2

i番目の個人の誤差(通常は平均0,分散

 で正規分布が仮定される)
i
Kelley & Maxwell (2010)
14
項目詳細(Kelley & Maxwell,2010)
1. 研究の目標
–
–
予測(prediction)か説明(explanation)か
explanationはX→Yの因果関係の検討
2. レグレッサーの正当化
–
検証(confirmatory)と探索(exploratory)
•
項目6と関連して,ステップワイズの時は探索的であることを明
示すべき。検証としたら×
15
多変量モデルの使い方
A) 交絡因子を調整してリスクファクターと
アウトカムの関係を分析する
B) ベースラインにおける特定の違いを
調整する
C) 診断を推定する
D) 予後を推定する
(画像)『医
学的研究の
ための多変
量解析』の
表紙
カッツ (2008)
説明モデル
予測モデル
例:
耳たぶのしわ有り→冠動脈疾患のリスク高い
※おそらく未知の交絡因子のせいだが,臨床上有用
16
項目詳細(Kelley & Maxwell,2010)
3. 基準変数とレグレッサー変数の説明
–
用いる変数の平均(と標準偏差),共分散行列,相関行
列が提供されるべき
変数のタイプ(カテゴリか連続量か)と範囲について限界
を議論
カテゴリ変数のコーディング説明
–
–
•
–
"Sex" : 女性を0,男性を1 など
連続量の中央値分割のような2区分化は×
17
項目詳細(Kelley & Maxwell,2010)
4. 効果量
–
ほとんど常に示されるべき
第3回の資料 土屋政雄,初心
者による初心者のための「量
的データの二変量」参照
(Wilkinson & the APA Task Force on Statistical Inference, 1999 )
–
–
2つのタイプ :omnibus とtargeted
omnibus
•
–
R2:重相関係数の二乗→一般的にはadjustedなRA2 も示すべき
targeted
•
回帰係数,unstandardized と standardized
–
–
普通はunstandardized,または両方示されるべき
信頼区間(CI)も示すべき。standardizedのCIは算出が難しい
sX k
unstandardized * s =standardized
Y
sY
standardized * s X =unstandardized
k
s:添え字の変数の標準偏差
18
項目詳細(Kelley & Maxwell,2010)
5. 仮定の言及
–
回帰係数自体はパラメトリックな仮定を要しないが,p値
と信頼区間は4つの仮定が必要
a.
b.
c.
d.
–
誤差( ei  Yi  Yˆi )が正規分布に従う
レグレッサーの全ての値で誤差分散が等質(等分散性:
homoscedasticity)
オブザベーションが相互に独立
Yとレグレッサーの関係が線形
dの線形の仮定が最も重要で,仮定が成り立たない場
合の3つの方略
•
•
•
XkまたはYの変換(例: X k or X k2 )
2
理論的に正当化した変数の追加(例: X k )
非線形回帰モデル(negative exponential, Gompertz, logistic
)
19
項目詳細(Kelley & Maxwell,2010)
6. 変数選択法が正当である
–
4つの方法
•
•
•
•
–
理論に沿う(→theory-driven)
モデル比較(例:階層的重回帰)
ステップワイズ(→data-driven)
色んな探索的モデルを試す
理想は"理論に沿う"方法
•
•
data-drivenの時は,変数選択方法(forward or backward etc...
)やソフト名,プログラム名を示すべき
交絡因子だったら含めるべき
ステップワイズはなるべく使わない!
20
抑制因子(suppresser)
• 交絡因子の一種
マッチ
(リスクファクター)
– 交絡因子
• XとYの間に一見関連が「ある」
かのように見せる
肺がん
(アウトカム)
喫煙
(交絡因子)
– 抑制因子
• XとYの間に一見関連が「ない」
かのように見せる
(画像)
『医学的
研究の
ための
多変量
解析』の
表紙
• 事故の程度を調整したら
関連が強くみられた
2変量で有意にならなくても
多変数だと有意になる!
AZT(抗HIV薬)
(リスクファクター)
感染(HIV抗体の陽転)
(アウトカム)
針刺し事故の程度
(抑制因子)
カッツ (2008):p9~ 図は改変; Babyak (2004):p417;
21
項目詳細(Kelley & Maxwell,2010)
7. サンプルサイズが正当である
–
–
–
検定力分析とパラメータ推定の正確性(AIPE)の検討
主要な関心がomnibus effect(重相関係数の二乗)なの
かtargeted effects(回帰係数)なのかについて言及
一般的にprediction→omnibusでexplanation→targeted
22
項目詳細(Kelley & Maxwell,2010)
8. 欠損値
–
第2回の資料 奥村泰之,中級
者による初心者のための「線
形混合モデル」にも解説あり
3種類の欠損値
•
•
•
–
missing completely at random (MCAR)
missing at random (MAR)
missing not at random (MNAR)
最小限に防ぐのが原則だが,生じたらどのように扱った
か明確にし,何らかのパターンがあったら報告する
平均値代入やペアワイズ削除は使うべきでない,使う場
合は明確な理由を
リストワイズはMCARの仮定が強くある時のみ
unbiased
以下が推奨
–
–
–
•
•
代入 or 多重代入
完全情報最尤法(FIML),制限付き最尤法(REML)
23
項目詳細(Kelley & Maxwell,2010)
9. 修飾(交互作用)の検討
–
–
–
moderator = interaction
(1)の式はX1とYの関係がX2の全ての値で同じであり,逆もまた同様
現実は他の要因の影響により関連の強さや方向は異なること多い
基本的な方法は,積項を加えること
Yi  0  1 X1i  2 X 2i  3 X1i X 2i   i
–
–
交互作用の検討のおすすめは,図にすること
連続量だと複雑なので,カテゴリ化する者もいるが,すすめない
•
•
検定力下がるし,誤った効果を導くこともある
mean centering
24
項目詳細(Kelley & Maxwell,2010)
10. 媒介の検討
–
X1とYの関連にX2が関与している。X1がX2の原因となり,
次にX2がYを生じさせる
• 2 が0の時,X2は完全にX1とYを媒介しているという
X 2i     X1i  
*
0
*
1
*
i
Yi  0   2 X1i  3 X 2i   i '
–
2つの方法
•
•
bootstrap (Shrout & Bolger, 2002)
distribution of the product variable 13 (MacKinnon et al.,
2004)
25
項目詳細(Kelley & Maxwell,2010)
11. 仮定を視覚的にチェック
–
線形の仮定
•
•
•
–
誤差の正規分布
•
–
normal quantile-empirical quantile plot (qq-plot) 正規確率プ
ロット
K+1変数間の2変量の関連
•
–
conditioning plot (coplot) 条件プロット
residual versus predictor (RVP) plot 残差 vs 予測値プロット
component plus residual (CPR) plot 成分プラス残差プロット
matrix scatterplots (pairs plots)
図を報告することは重要だが,出版される論文は
スペースの余裕がないので,web supplementalとして
出すのがおすすめ
26
項目詳細(Kelley & Maxwell,2010)
12. 測定誤差
–
2*2*2の配列で概念化される
a.
b.
c.
–
誤差のタイプ(random or nonrandom) StrobeのBox3
変数のタイプ(regressor or criterion)
係数のタイプ(unstandardized or standardized)
Bias参照
random measurement error
•
•
•
平均が0で研究内のどこにでも存在,測定された変数,真値,誤
差とは無相関
Yの場合はモデルの誤差項
誤差分散が大きくなると, unstandardized回帰係数は変わらな
いがR2は低下し,回帰係数の標準誤差も大きくなる。
standardized回帰係数は小さくなる
sX k
unstandardized * s =standardized
Y
27
項目詳細(Kelley & Maxwell,2010)
12. 測定誤差
–
nonrandom measurement error
•
–
平均がnot 0または誤差と相関する。パラメータのバイアスを生
じさせる
測定誤差は特に目的がexplanationの場合に問題になる
。predictionの場合はそれほど問題ではない
•
測定誤差が無視できない場合は,SEMを勧める
28
参考:Errorの性質
Nonrandom
=
Random Error
Error
Systematic Error
サンプルサイズ
Rothman (2002): p 95 を改変
29
項目詳細(Kelley & Maxwell,2010)
13. 限界の言及
–
実験的デザインではない場合の因果推論
•
–
観察研究の場合は因果の言及避ける
"controlled for"
•
レグレッサーの基準変数への線形の影響が,他のレグレッサー
変数の値が一定な状態で評価された状態
30
項目詳細(Kelley & Maxwell,2010)
14. 重回帰の代替法
–
誤差の正規性が成立しない場合
•
–
ノンパラメトリックな方法
アウトカム変数の性質が様々な場合
•
–
一般化線形モデル(generalized linear model)
線形の仮定が適用されない場合
•
•
–
Spline回帰,piecewise model
lowess (locally weighted scatterplot smoothing)
オブザベーションの独立が成り立たない場合
•
–
マルチレベルモデル
第2回「線形混合モデル」参照
測定誤差が深刻な場合
•
潜在変数モデル(確認的因子分析や構造方程式モデル[SEM])
31
(参考)Package "rpsychi"
• multreg(formula, data)
– 例:multreg(salary~ pubs + cits, data=dat)
– 標準化回帰係数の95%信頼区間も算出してくれる
• HelpのExamples解析結果より
32
論文での示し方
• Kumar et al.(2010) 肺機能の予測における遺伝的
系統 N Engl J Med;363:321-30
– Table 3
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2922981/table/T3/
33
• Tzoulaki et al., (2008)
BMJ 15;337:a258
←アウトカム
注目しているメインの説明変数
交絡調整のパターン
別モデル
(画像)Table3
注目しているメインの説明変数
交絡調整のパターン
別モデル
34
• Lee et al (2007) Arch Gen Psychiatry. 64:810-8
– Rを使用
注目しているメインの説明変数
アウトカム
↓
(画像)Table3
35
他に心理系に近そうな参考例
• Almeida et al (2010) Psychosom Med. 72:148-55
– ロジスティック回帰も一緒の表に入れてる
– 交互作用の検討
– 感度分析
• Lewis et al (2009) Psychosom Med. 71:163–170
– 変数の説明が丁寧
– 交互作用の検討
• Melle et al.(2008) Arch Gen Psychiatry. 65:634-40
– 標準化回帰係数と95%信頼区間
– theory-based
– モデルの仮定チェック
36
論文での示し方(おまけ)
Tsuchiya et al., Impact of mental disorders on work performance in a
community sample of workers in Japan: The World Mental Health Japan
Survey 2002-2005. Psychiatry Res. 2012 Feb 26. [Epub ahead of print]
(画像)Table2
37
(画像)Table3
38
•
•
•
•
•
•
•
•
引用文献
Babyak (2004) What you see may not be what you get: a brief, nontechnical
introduction to overfitting in regression-type models. Psychosom Med. 66:41121
Rothman (2002) Epidemiology: An Introduction. New York, Oxford University
Press
Kumar et al.(2010) Genetic ancestry in lung-function predictions. N Engl J
Med. 2010;363:321-30.
Melle et al., (2008) Prevention of negative symptom psychopathologies in firstepisode schizophrenia: two-year effects of reducing the duration of untreated
psychosis. Arch Gen Psychiatry. 65:634-40
Almeida et al., (2010) Quality of parental emotional care and calculated risk for
coronary heart disease. Psychosom Med. 72:148-55.
Lee et al. (2007) Associations of salivary cortisol with cognitive function in the
Baltimore memory study. Arch Gen Psychiatry ;64:810-8
Tzoulaki et al; International Collaborative Research Group on Macro/Micronutrients and Blood Pressure. Relation of iron and red meat intake to
blood pressure: cross sectional epidemiological study. BMJ. 2008
15;337:a258.
Lewis et al. (2009) Interactive effects of race and depressive symptoms on
calcification in African American and white women. Psychosom Med.;71:16339
70