東京大学医学系研究科 特任助教 倉橋一成 1 モデル:Y = Xβ + e パラメータを推定値する公式:β-hat = (XTX)-1XTY ◦ hatは「推定値」という意味(山の形の記号) ◦ 最小二乗法 Y-hat = X(XTX)-1XTY ◦ X(XTX)-1XT:ハット行列 e = {1 - X(XTX)-1XT}Y ◦ E(e) = 0 ◦ V(e) = eTe/df(e) 残差が説明変数Xの分布に依存する ◦ 残差を標準化する ◦ 説明変数を前もって標準化しておく 2 観測値ベクトル(結果変数ベクトル) 残差 最小二乗法:残差を最小 モデルベクトル(説明変数の線形結合) モデル平面(説明変数行列が張る空間) 3 plasma ◦ 赤血球沈降速度(ESR)がリウマチ疾患、慢性的感染症、悪性疾患に関連している か ◦ 2つの血漿蛋白(fibrinogen, globulin)との関連を確認する womensrole ◦ 女性の社会的役割についての意識調査 ◦ 「女性は家庭の切り盛りの注力し、国の切り盛りは男性の委ねておくべきである」に 賛成か反対か ◦ 教育年数と性別が回答に影響するかどうか polyps ◦ 家族性大腸腺腫症(FAP)治療における非ステロイド性抗炎症薬のプラセボ対照試 験 ◦ 中間解析によって有効中止 ◦ 12ヶ月の治療後のポリープの数に関心 packpain ◦ 車の運転が椎間板ヘルニア(AHLID)の危険因子であるかどうか ◦ ケースコントロール研究(症例対照研究) ケース:AHLIDと診断された対象者 コントロール:同じ病院に来院した脊柱に関連しない疾患を持つ患者 ◦ 性、年齢でのマッチングデータ 4 2値の結果変数を予測したい ◦ 2値変数に線形回帰をしたら0,1の範囲外の予測値が計算される 結果変数に適当な変数変換を行う ◦ ロジット変換 オッズの対数 log{p/(1-p)} logit(P) = β0 + β1x1 + … logit(p) p ◦ exp(β1)はx1が1単位変化したときのオッズ比 ◦ x1が1単位変化すると、y=1となる確率がexp(β1)倍大きくなる 5 マッチングされたケースコントロール研究 モデル:logit(pi) = αi + βx ◦ 各マッチング層で切片が異なるというモデル αの数はマッチングの数だけ存在する 推定しきれない ◦ αiは推定する必要のないパラメータ(局外パラメータ) ◦ αiで条件付けた条件付き尤度を最大化する 6 一般線形モデル(general linear model; GLM、じーえるえむ) ◦ 5章の分散分析、6章の重回帰は全く同じモデル ◦ lm()関数 一般化線形モデル(generalized linear model; GLIM、ぐりむ) ◦ ロジスティック回帰も「結果変数を変数変換している」点以外は同じ ◦ 他にはポアソン回帰(結果変数:カウント)など ◦ glm()関数 結果変数が「指数型分布族」の回帰モデル 7 1. 誤差分布 ◦ 結果変数の期待値が従う分布 重回帰:正規分布 ロジスティック回帰:2項分布 2. リンク関数 ◦ 結果変数の変数変換 重回帰:恒等変換(無変換、identity link) ロジスティック回帰:ロジット変換 3. 分散関数 ◦ 分散と期待値の関係を評価する ◦ 擬似尤度による近似計算によって超過変動(overdispersion)に対処す る 最尤法でパラメータ推定 デビアンスと尤度比検定でモデル評価と比較 8 9 多重共線性(マルチコ、multi-colinearity)に気を付ける ◦ 説明変数同士の相関が高いと推定値が変になる ◦ あまりに相関の高い変数同士は、同時に説明変数にしない まずはその分野で妥当だなと思われるモデルを作る ◦ 説明変数は少な目に モデルの探索 ◦ 説明変数を全て入れる ◦ 交互作用項を入れる ◦ 変数選択を行う ステップワイズ:解釈不能な結果が出ることが多い leaps()関数:変数の数ごとに最良の変数セットが確認でき、解釈しやすい 結果変数に関連の強い「順番」も吟味しやすい ◦ 機械学習 モデルの説明力をチェック ◦ 連続値:R2乗、分散の説明割合、キャリブレーションプロット ◦ 2値:ROC曲線、AUC 10 11
© Copyright 2024 ExpyDoc