【MedR】第6回

東京大学医学系研究科
特任助教 倉橋一成
1
F2だけ残差が偏ってしまう
2

この章から実用的な分析の話に入ります!!
◦ 手持ちのデータで試してみて、良い結果が出たらすぐ論文を書けるような
方法ですので是非マスターして下さい!

回帰モデル
◦ 結果変数と説明変数の関係を「記述」する
◦ 将来の結果変数を「予測」する

線形って?
◦ イメージ:直線
◦ 例:y = ax1 + bx2 + cx3 + …

非線形って?
◦ イメージ:曲線
◦ 例:y = sin(x1) + cos(x2) + …

じゃあ2次関数は線形?非線形?
◦ y = ax2
◦ xに関しては非線形だけどx2に関しては線形
◦ ほとんどのモデルは「線形モデル」として推定できる
3

hubble
◦ library(gamair)
◦ Hubble望遠鏡で観測した24銀河の相対速度と距離から、宇宙年齢を
推定する(Freedman、2001)

clouds
◦ 人工降雨のために雲の種まきを行ったデータ(Woodley、1977)
◦ 適格基準:S-Neという指標が1.5以上
 バイアスを防ぐためにちゃんと適格基準を設けている!!
 バイアスの仕組みは本文からは理解できず、、、
◦ 適格基準を満たした日をランダム化して種まきを行うかどうか決定
4

結果変数( outcome variable )
◦ 別名:応答変数(response)、従属変数(dependent)

説明変数(explanatory variable)
◦ 別名:予測変数(predictor)、独立変数(independent)

「線形」「単」回帰
◦ 線形:説明変数と結果変数の関係が直線的である
◦ 単:説明変数は1つだけ

切片ありモデル
◦ y = a + bx

切片なしモデル
◦ y = bx
5

「線形」「重」回帰
◦ 重:説明変数が2つ以上

場合によって変数選択が必要
◦ 10変数あるうち、「最良」な変数の組合せは何か?
◦ 統計学の最も繊細な問題のひとつ





単純にステップワイズ法などをやれば良いわけじゃない
単なる「当てはまりの良さ」だけでも評価できない
複雑すぎるモデルが出来ても解釈が出来ない
交互作用が多いとモデルが不安定になる
「多重共線性(マルチコ)」を気にする人がやたらと多いが、、、
◦ 相関の高い変数同士を、同時に説明変数にしなければ良い
◦ そのような変数は片方だけ説明変数にすれば十分
◦ 例:ウエスト周囲の予測
 ウエスト = 年齢 + 身長 + BMI (性別ごとにモデルを作る)
6

外れ値のチェック
◦ 各種残差プロットをチェックする過程で検出
◦ 箱ひげ図、クックの距離

変数の過不足のチェック
◦ 説明変数と残差のプロット
◦ 説明変数を2乗、3乗した方がいいかも?

等分散性のチェック
◦ 予測値と残差のプロット
◦ 結果変数が非正規であったら変数変換を検討する

正規性のチェック
◦ 残差の正規確率プロット
7
8