2015/10/8 第2回 医学統計勉強会 東北大学病院循環器内科・東北大学病院臨床研究推進センター 共催 東北大学大学院医学系研究科EBM開発学寄附講座 宮田 敏 回帰分析 回帰分析 (regression analysis) は,一つの連続数(実 数)の値を複数の変数によって説明,予測する多変量 解析 (multivariate analysis) の一つ. Y 0 1 x1 k xk Y : response variable, 従属変数,被説明変数 x1 , , xk : independent variable, 独立変数,説明変数 0 , 1 , , k : regression coefficient, 回帰係数 : error term, 撹乱項、誤差項 2015/10/8 東北大学 医学統計勉強会 2 Example 1: 親子の身長 68 child: 子の身長 parent: 両親の身長の平均 62 64 66 child 70 72 74 205組の夫婦から生まれた, 928人の成人した子供の身 長(インチ). 64 66 68 70 72 74 データは0.1インチ刻みに 丸められている.そのため データ点が重なっている. parent Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature Journal of the Anthropological Institute, 15, 246‐263 2015/10/8 東北大学 医学統計勉強会 3 データの要約 データが手に入ったら,まずデータを要約して,その 傾向,特徴を把握する. 個々の変数の数量的要約:Galtonの親子の身長 Min. parent 64 child 61.7 1st Qu. Median Mean 67.50 68.5 68.31 66.20 68.2 68.09 3rd Qu. Max. 69.5 73 70.2 73.7 SD IQR 1.79 2 2.52 4 • 平均,中央値はほぼ等しく,分布の位置は同じ. • 標準偏差(SD),四分位点間距離(IQR)は child の方が大きく,子の分布の散らばりの方が大きい. 2015/10/8 東北大学 医学統計勉強会 4 個々の変数の視覚的要約:Galtonの親子の身長 74 200 72 100 62 64 66 68 70 72 74 72 74 66 68 parent 0 62 50 64 150 Histogram of child Frequency 70 0 Frequency Histogram of parent 62 64 66 68 70 parent child child グラフを比較するときは,軸を揃えることがコツ. 2015/10/8 東北大学 医学統計勉強会 5 標本共分散 二つの変数 x と y が互いに影響し合っているとき, x と y が如何に強く関係しあっているか知りたい. このとき x と yの共分散(covariance)を以下で定義する. 1 n Cov X , Y i 1 ( X i X )(Yi Y ) n x と yの間に正の(負の)相関があるとき、Cov(X, Y)は それぞれ正(負)になる. 2015/10/8 東北大学 医学統計勉強会 6 正の相関の場合 第1象限 3 第2象限 xi x & yi y 2 xi x 0 & yi y 0 xi x & yi y -1 xi x yi y 0 -2 y y 0 1 xi x yi y 0 xi x yi y 0 -3 xi x 0 & yi y 0 正の相関の場合, データの大部分は 第1, 3象限にある。 第3象限 共分散 -2 x -1 0 1 第4象限 1 2 n x n x x y i 1 i i y は正になる。 東北大学 医学統計勉強会 2015/10/8 7 標本相関係数 二つの変数x と yの間の相関係数 (correlation coefficient) を,以下で定義する.相関係数はx と yの線形関係の強 さを測る量である.相関係数は単位に依存しない. Corr X , Y r n i 1 ( X i X )(Yi Y ) 2 ( X X ) i 1 i n 2 ( Y Y ) i 1 i n •相関係数r はx と yの線形関係の強さを測る. •-1 ≦ r ≦ 1 •r = +(-) 1 : 正(負)の完全な相関,線形関係 2015/10/8 東北大学 医学統計勉強会 8 回帰分析 二つの変数x と yの関係が線形(直線)で近似できると する.このときx と yの関係を以下の回帰式 (regression equation) でモデル化する. Y 0 1 x Y : response variable, 従属変数,被説明変数 x : independent variable, 独立変数,説明変数 0 , 1: regression coefficient, 回帰係数 : error term, 撹乱項、誤差項 2015/10/8 東北大学 医学統計勉強会 9 被説明変数yの観測値 yi 0 1 xi i (観察できる) xiにおける真の回帰関数の値 yi 0 1 xi 撹乱項 i (観察できない) 真の回帰関数 y 0 1 x (観察できない) (観察できない) xi (観察できる) 観察可能な xi , yi から、y 0 1 x を推定したい. 2015/10/8 東北大学 医学統計勉強会 10 回帰分析のモデルの仮定 • 線形性 (Linearity):Y 0 1 x 被説明変数yと説明変数xの関係は直線で近似できる. xi , Yi i 1 は互いに独立である. • 独立性 (Independence): あるサンプルの値が他のサンプルの値に影響しない. n • 正規性 (Normality): i ~ N 0, 2 , iid 撹乱項 i は正規分布に従う. • 等分散性 (homoskedasticity):σ2. 分散一定 東北大学 医学統計勉強会 2015/10/8 11 正規分布:Normal distribution f ( x; , 2 ) • 1 exp ( x ) 2 /(2 2 ) , x 2 E X ,V X 2 . • 分布の形状は と 2 によって特徴づけ (parameterized) られる。 • 標準正規分布 (standard normal distribution) f ( z;0,1) 1 z2 / 2 e , z , 2 z ( z ) P ( Z z ) f ( y;0,1)dy. • 釣り鐘型 (bell-shaped) で、左右対称な分布. 2015/10/8 東北大学 医学統計勉強会 12 0.0 0.1 0.2 0.3 0.4 Standerd Normal Distribution -3 -2 -1 0 1 2 3 東北大学 医学統計勉強会 2015/10/8 13 回帰係数の推定 最小二乗法 (ordinary least squares estimation, OLSE) min y 1 i 1 i 1 xi 2 n 0, 0 n 2 i 1 yi 0 1 xi 0 n 0 1 n xi n yi 0 i 1 i 1 n n n 2 n 2 0 i 1 xi 1 i 1 xi i 1 xi yi y x 0 0 1 i 1 i 1 i ˆ1 n xi x yi y n xi x 2 i 1 i 1 ˆ0 y ˆ1 x 推定された回帰直線: yˆ ˆ0 ˆ1 x 2015/10/8 東北大学 医学統計勉強会 14 最小二乗推定量の性質 x varˆ n ( x x ) E ˆ0 0 , E ˆ1 1 , 不偏性 2 2 ˆ 0 2 i 0 2 , i 2 ˆ 1 var ˆ1 ˆ0 ~ N 0 , 2ˆ 0 2 , ( xi x ) , ˆ1 ~ N 1 , 2ˆ , 2 1 正規性 ( yi yˆ i ) 2 SSE s ˆ , E ˆ 2 2 , n2 n2 2 2 東北大学 医学統計勉強会 2015/10/8 15 信頼区間 (Confidence Interval) : s ˆ 1 ~ t n 2 , sˆ T 1 1 2 sˆ ( ) x x i 1 C.I. of 1 : ˆ1 sˆ t / 2,n 2, ˆ1 sˆ t / 2,n 2, , 1 1 同様に, C.I. of 0 : ˆ0 sˆ t / 2,n 2, ˆ0 sˆ t / 2,n 2, 0 0 (Hypothesis Testing) : 仮説検定 H 0 : 1 10 vs. H a : 1 (or or ) 10 ˆ1 10 検定統計量 : T ~ t n 2 under H 0 sˆ 1 Ha : β1 > β10 Ha : β1 < β10 Ha : β1 ≠β10 2015/10/8 t > tα,n-2 t < -tα,,n-2 |t| > tα/2,n-2 東北大学 医学統計勉強会 16 回帰分析の結果 • • • • • 回帰係数の推定値 ˆ0 0.9183, ˆ1 0.6904 回帰係数の有意性検定のp値 決定係数(被説明変数の変動のうち回帰によって説明され た変動の割合) yの変動の40.19%が説明された Model utility test(回帰モデル全体の有意性検定。後でも う一度触れます)のp値 p=0.049 撹乱項の標準誤差 s=0.6744 検定の p‐value H 0 : j 0 vs. H1 : j 0 回帰係数の推定値 ˆ 0.9183 ̂ j の標準誤差 (CIに使う) 0 ˆ1 0.6904 決定係数 2015/10/8 s ˆ Model utility test p‐value 東北大学 医学統計勉強会 17 多変量回帰分析 Y 0 1 x1 k xk , ~ N 0, 2 Y : response variable, 従属変数,被説明変数 x1 , , xk : independent variable, 独立変数,説明変数 0 , 1 , , k : regression coefficient, 回帰係数 : error term, 撹乱項、誤差項 モデルの仮定 1. パラメターに関する線形性 (Linearity) 2. 撹乱項の独立性 (Independence) 3. 撹乱項の正規性 (Normality) 4. 撹乱項の等分散性 (homoscedasticity) 2015/10/8 東北大学 医学統計勉強会 18 最小二乗法によるパラメターの推定 0 , 1 , , k は最小二乗法で推定される: min 0 ,, k y n j 1 j 0 1 x1 j k xkj 2 ˆk 1 X ' X 1 X ' Y , where X [ xij ]n( k 1) , Y (Y1 , , Yn )' E ( ˆ j ) j , j 1, , k : unbiased. 1 V ( ˆ ) 2 X ' X . 1 ˆ ~ N , 2 X ' X 東北大学 医学統計勉強会 2015/10/8 19 パラメターの推測、信頼区間、検定 ( yi yˆ i ) 2 SSE .E ( s 2 ) 2 . s ˆ n (k 1) n (k 1) ˆ j j 1/ 2 ~ t n ( k 1) , sˆ [ s 2 ( X ' X ) 1 ] jj , j 1, , k . T j sˆ 2 2 j C.I. of j : ( ˆ j sˆ t / 2,n ( k 1) , ˆ j sˆ t / 2,n ( k 1) ) j j Hypothesis testing : H 0 : j j 0 vs. H a : j j 0 , Test statistic : T 2015/10/8 ˆ j j 0 sˆ ~ t n ( k 1) under H 0 . j 東北大学 医学統計勉強会 20 決定係数 (coefficient of determination) 回帰係数の有意性検定は個々の係数の検定.回帰モデ ル全体のパフォーマンスを測る方法が必要. SST (Total Sum of Squares): y y yの全変動 y yˆ SSE (Error Sum of Squares): 回帰で説明されなかった変動 SSR (Regression sum of Squares): yˆ y 回帰で説明された変動 2 n i 1 i 2 n i 1 i 2 n i 1 R2=決定係数= 2015/10/8 SSR SST i i =回帰によって説明された変動の割合 東北大学 医学統計勉強会 21 Model utility test 回帰モデル全体の有意性を検定するために,以下の Model Utility Test が知られている. H 0 : 1 k 0 vs. H1 : not H 0 検定統計量: R2 k SSR k ~ Fk ,n k 1 under H 0 F 2 1 R n k 1 SSE n k 1 棄却域:Reject H0 if F F ,k ,n k 1 H0は、Y 0 と同義.回帰が全く無効. 2015/10/8 東北大学 医学統計勉強会 22 回帰分析の結果のチェックポイント • • • • 回帰係数の推定値 回帰係数の有意性検定のp値 回帰係数の信頼区間 決定係数(被説明変数の変動のうち回帰によって説 明された変動の割合) 決定係数は、いくつ以上なら良いか? もちろん、R2は大きいに越したことはない。 R2が小さいということは、 yに影響する、今のモデルに含まれない変動要因が存在する、というこ と。もし、 R2が小さくてもなお有意な説明変数があれば、上記の limitationの下で、回帰は有効である。 • Model utility test(回帰モデル全体の有意性検 定)のp値 • 撹乱項の標準誤差 2015/10/8 東北大学 医学統計勉強会 23 回帰診断 回帰モデルの仮定の確認: • 線形性: Y と x の間の線形関係. Y と xの間には非線 形な関係がない. x同士の間には線形関係がない. –Multiple scatter plots. • 独立性: {(xi, Yi)}i=1n は互いに独立 –residual vs. fitted value plot • 正規性: ε~N(0, σ2) –残差のQQ-norm plot (後述する) • 等分散性: Var(ε)= σ2 –residual vs. fitted value plot 2015/10/8 東北大学 医学統計勉強会 24 回帰診断(続き) 独立性,正規性,等分散性の仮定は,いずれも撹乱項 についての仮定.撹乱項そのものは観察できないため, 残差 (residuals) : ei yi yˆ i をレプリカとして使う. residuals y 0 -6 -4 -4 -2 残差 -2 -1 0 1 2 3 x 2015/10/8 -1 0 1 2 fitted values 分散増大傾向がある • 残差が均一ならば、 等分散性の仮定は満 たされる. -2 0 2 2 4 4 Residuals vs. fitted value plot 残差も増大傾向がある • 独立性の仮定が満た される場合,残差プ ロットには特異なパ ターンがない. 東北大学 医学統計勉強会 25 分布の正規性の確認 標本分布の正規性の確認は,適切なモデルを選択する 上で重要. Definition: n個の標本を大きさ順に並べたとき,i番目に 小さな標本は [100(i-.5)/n] 標本パーセント点 (sample percentile) であるという. 例えば標本が,正規分布など特定の確率分布から抽出 されたとする.このとき,その特定の分布の理論上の [100(i-.5)/n]パーセント点は,データの[100(i-.5)/n]標本 パーセント点の近くにあるはずである. 2015/10/8 東北大学 医学統計勉強会 26 QQ‐norm plot (Normal probability plot) Definition: n 個の標本が得られたとき,標準正規分布の [100(i-.5)/n] パーセント点と,i番目に小さな観測値= [100(i-.5)/n] 標本パーセント点のプロットを,QQ‐norm plotという。 正規分布 • 元のデータが正規分布 から得られた場合, QQ‐norm plotは直線上 にプロットされる. 非正規分布 Normal Q-Q Plot 10 Sample Quantiles 0 • 元データが正規分布に 従わない場合、直線か ら外れる.(右図) -2 5 -1 Sample Quantiles 1 15 2 Normal Q-Q Plot -2 -1 0 1 -2 2 -1 0 1 2 Theoretical Quantiles Theoretical Quantiles 東北大学 医学統計勉強会 2015/10/8 209のコンピュータのCPUの持つ, 性能と各種特性値. CPUデータ 1500 0 30000 0 20 40 1000 0 500 27 1500 0 400 perf 15000 0 500 syct 30000 0 mmin 250 0 mmax 40 0 100 cach 'name' Manufacturer and model 'syct' cycle time in nanoseconds 'mmin' minimum main memory in kilobytes 'mmax' maximum main memory in kilobytes 'cach' cache size in kilobytes 'chmin' minimum number of channels 'chmax' maximum number of channels 'perf‘ published performance on a benchmark mix relative to an IBM 370/158‐3 chmax 0 400 1000 0 15000 0 100 250 0 50 0 50 150 0 20 chmin 150 P. Ein‐Dor and J. Feldmesser (1987) Attributes of the performance of central processing units: a relative performance prediction model. Comm. ACM. 30, 308–317. 2015/10/8 東北大学 医学統計勉強会 28 CPUデータ(続き) 1500 0 30000 0 20 40 1000 0 500 1500 0 400 perf 15000 0 500 syct 30000 0 mmin • yとxの間に,非線形な関係が存在しな いか? – perf と syct の間に,明らかな非 線形関係がある. • 誤差項の分散は一定か? – mmin 等に,明らかな分差増大傾 向がある. 250 0 mmax 40 0 100 cach • x同士の間に,線形な関係が存在しな いか? – 例えば,mmin と mmax の間に 明らかに線形関係がある. chmax 0 400 1000 0 15000 0 100 250 0 50 0 50 150 0 20 chmin 150 P. Ein‐Dor and J. Feldmesser (1987) Attributes of the performance of central processing units: a relative performance prediction model. Comm. ACM. 30, 308–317. 2015/10/8 予備的な視覚的要約の段階でも,線形回 帰モデルを当てはめるのは不適切である ことがわかる. でも,ともかく回帰モデルを当てはめて みる. 東北大学 医学統計勉強会 29 CPUデータ(元データの回帰分析) 100 0 Sample Quantiles 200 300 400 Normal Q-Q Plot -200 -100 非正規性 -3 -2 -1 0 1 2 3 Theoretical Quantiles 100 非線形性 0 • 決定係数:R2=0.8649 被説明変数の変動の 86.49%が説明できた. residuals 200 300 400 • 説明変数の有意性検定は,chmin を除き,ほ とんどが強く有意. -100 分散増大 -200 • Model utility test: p-value < 2.2×10-16 0 回帰分析は,成功しているとしかいいようがない. 回帰診断の結果,モデルの仮定は破綻している。 2015/10/8 東北大学 医学統計勉強会 200 400 600 800 fitted values 30 変数変換 線形回帰モデルの仮定(線形性, 正規性, 等分散性) が満たされないとき,変数に何らかの変換を施すこ とで,モデルを改善できる場合がある. 例えば,撹乱項の分散が説明変数の値とともに大き くなる場合,logarithmic/power 変換が有効であること が多い. 被説明変数の予測値を得るには,まず変換された変 数に対して線形回帰モデルを当てはめ,次にもとの モデルに逆変換する.最もよい変換を選ぶため,い くつかの変換を試してみる必要がある. 2015/10/8 東北大学 医学統計勉強会 31 Box‐Cox変換 対数変換,冪変換を組み合わせたBox‐Cox変換により, 分散の安定化と正規性の改善を同時に達成できる場 合がある. ( y 1) : 0 Box‐Cox変換: y ( ) log( y ) : 0 Box‐Cox変換は,パラメターλによって特徴付けられる. パラメターλは,モデルの適合度を最適化するように, ソフトウエアにより自動的に選択される. (統計解析ソフトRなどが, Box‐Cox変換を実装している) 2015/10/8 東北大学 医学統計勉強会 32 CPUデータ(Box‐Cox変換後) 2 0 -4 -2 Sample Quantiles 4 6 Normal Q-Q Plot -3 -2 -1 0 1 2 3 6 Theoretical Quantiles residuals 0 -4 • Model utility test: p-value < 2.2×10-16 -2 • 決定係数:R2=0.8821 被説明変数の変動の 88.21 (> 86.49) %が説明できた. 2 4 • chmin,chmax は有意ではない. 回帰分析は,成功している. 2015/10/8 5 10 15 20 25 fitted values 東北大学 医学統計勉強会 33 変数選択 多変量回帰モデルを考えるとき,多数の説明変数の 候補が考えられる場合がある.その時,被説明変数 の変動を説明する,説明変数の最適な組み合わせを 探索する必要がある. • モデル選択基準(赤池の情報量基準 (AIC), ベイズ 情報量基準 (BIC), etc.)を最小にする,説明変数の 組み合わせを求める. • 当初のモデルに新たな変数を投入もしくは除去し たとき,モデルの適合度の差が有意なものか検定 する。(ワルド検定,尤度比検定,ほか) 2015/10/8 東北大学 医学統計勉強会 34 ステップワイズ法 説明変数の候補がk個あるとき,可能な変数の組み合 わせは2k通り.総当たりの探索は無理. • 変数増加法 (forward selection):定数項のみのモデ ルから出発して,有用な変数を加えていく方法. • 変数減少法 (backward elimination):すべての変数 を用いたモデルから出発して、不要な変数を除去 していく方法. • 変数増減法 (stepwise procedure):増加法と減少法 の組み合わせ. 2015/10/8 東北大学 医学統計勉強会 35 変数選択の実際(私の場合) 医学統計の性質上,説明変数は取りこぼしなく広め に選択したい.しかし,候補の数がサンプル数より 大きければ,最初に全ての変数を用いたモデルは推 定できない.また,欠測が多いとサンプル数が減る. 1. まず単変量解析で,変数ごとのp値を出す. 2. ある程度p値が小さい変数に,候補を絞る. (p < 0.2 程度で,あまりきつく絞らない) 3. 絞った候補から,変数減少法で選択する.(割合 多めの変数が選択される)Rでは stepAIC()コマン ドを用いる(MASSパッケージが必要). 2015/10/8 東北大学 医学統計勉強会 36 変数選択の問題 • 変数選択の結果選ばれたモデルに,有意でない変 数が含まれる. 変数選択は,被説明変数の変動をもっともよく説明 する変数の組み合わせを探索する.個々の変数が有 意でなくても,組み合わせ全体として最適であると 解釈する. • 変数選択の結果,興味のある変数がモデルから除 かれてしまった. 上記に矛盾するようだが,回帰の目的は被説明変数 を説明することだけではない.変数間の関係を推測 するため,興味ある変数を強制投入してもよい. 東北大学 医学統計勉強会 2015/10/8 37 Take Home Message 1.回帰分析 2.共分散と相関係数 3.線形回帰モデル • 回帰係数の推定.最小二乗推定量の性質 4.回帰診断:回帰モデルの仮定の確認 • 散布図:線形性の確認 • QQ‐normプロット:残差の正規性の確認 • 残差プロット:等分散性,独立性の確認 5.Box‐Cox変換:分散の安定化と正規性の向上 6.変数選択 2015/10/8 東北大学 医学統計勉強会 38
© Copyright 2025 ExpyDoc