MedR】第1回

東京大学医学系研究科
特任助教 倉橋一成
1

「おしゃれStatistics(仮)」開催中
◦ 月1予定、次回は医学部研究棟でやるかも

統計学の基礎なのでMedRに内容をフィードバック
2

「似ている群」同士を比較する
1.
実験:遺伝子情報が全く同じマウス
 ヒトを対象とすることができない
2.
エビデンス
高
ランダム化試験:ランダム割り付けした2群
 「新薬の効果が分からない」状況であれば倫理的問題は無い
 バイアス:なし
 理論的には「未測定の交絡(バイアス)」もバランスよく割り付けられる
3.
制御された試験:割り付けは制御するがランダムではない
 バイアス:症状の軽い患者が治療群、重い患者が対照群
4.
5.
観察研究:割り付けを制御してない同時期の2群
既存対照研究:過去の対象者を対照群
 バイアス:時代背景に影響される全因子
6.
ケースシリーズ研究:対照群が無い
 何の比較・議論もできない
 頭の中で対照群を作っている?
低
3

タバコの例
◦ タバコと肺癌の因果関係は観察研究によってしか調査できない
 「ランダムにタバコを吸わせる」ことは倫理上出来ない
 「ランダムに禁煙させる」ことは出来るが、このような研究はあまり聞かない
 未測定の交絡(バイアス)要因が存在する可能性は否定できない
◦ Fisher、Berkson
 超1流の統計家
 Fisher:ランダム化の生みの親
 Berkson:バークソンバイアスの提唱者
 タバコと肺癌の因果関係を頑なに信じなかった
 未測定の交絡要因があるはずだ!
 それは遺伝子ではないか?
 タバコを吸う←遺伝子→肺癌
◦ タバコ→肺癌の因果関係は証明されているのか?
 例え因果関係でなかったとしてもオッズ比20倍とか出る因子はタバコくらい
4


データ解析の結果「AとBは関連がある」ということが分かった
「関連」と「因果」は違う
◦ 真の状況1:AはBに対して因果効果がある
A
B
◦ 真の状況2:交絡因子Cによって見せかけの関連が生じている
C
(喫煙)
A
B
(飲酒)
(肺癌)
5


多変量回帰
傾向スコア(propencity score)
◦ Are propensity scores really superior to standard multivariable analysis?

http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B7P72-52W3V5B2&_user=10&_coverDate=05%2F16%2F2011&_rdoc=1&_fmt=high&_orig=gateway&_origin=gateway&_so
rt=d&_docanchor=&view=c&_acct=C000050221&_version=1&_urlVersion=0&_userid=10&md5=5d4425d8
0a3e20b79c70783597dfd51f&searchtype=a
 「治療群になる確率」をロジスティック回帰で推定する
 傾向スコアが流行ってるけど本当に有用なの?
 多変量回帰 vs. 傾向スコア

IPW (Inverse Probability weighting)

DR (Doubly Robust)
◦ 傾向スコアの逆数で重み付け
◦ 傾向スコアのモデル化 or 治療効果自体のモデル化のどちらかが正解し
ていればバイアスが十分に調整できる
◦ Rでの推定方法(ブログ)
 http://d.hatena.ne.jp/isseing333/20110511/1305124310

どの方法も「未知の交絡要因」は調整できない
◦ 交絡しそうな変数は測定してないとダメ
6
Giuseppe BZ et al. Contemporary Clinical Trials.
Article in Press, Accepted Manuscript
7
8

未知の交絡要因も調整できる!?
◦ 疫学(epidemiology)
 http://aje.oxfordjournals.org/content/169/3/273.abstract
◦ 計量経済(econometics)
 http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.19.1.17

定義
◦ A variable that is related to treatment but neither directly nor indirectly
related to outcome, except through the effect of the treatment itself
◦ 治療には関連しているが、結果には治療を通してでしか直接的にも間
接的にも関連していない変数
 治療群Xを予測できる変数Zは、Xを通してでしか結果Yに関連しない(未知の
交絡要因Uも介さない)

計量経済では2段階最小二乗法が使われる
◦ 疫学分野では2値結果変数へ応用する
◦ モデル化はSEM(構造方程式モデル)を利用する
9

2段階モデル
◦ X = α0 + α1 * Z + α2 * C + ε1
◦ Y = β0 + β1 * X + β2 * C + ε2
 X:治療、Y:結果、C: (複数の)測定済み交絡要因、Z:操作変数
 αi, βi:係数
 ε1, ε2:誤差(2変量正規分布を仮定することが多い)
◦ http://cran.r-project.org/doc/contrib/Fox-Companion/appendixsems.pdf

Rではsemパッケージ
◦ 操作変数(instrumental variable, IV)での交絡調整
◦ http://d.hatena.ne.jp/isseing333/20110520/1305878138
10

3章:単純な推測
◦ roomwidth
 学生44人に講堂の幅をメートルであて推量させる
 同じ部屋で別の69人にフィートであて推量させる
 真の部屋の幅は13.1メートル(43.0フィート)
◦ waves
 波の力で発電する装置の実験
 2つの係留法と曲げ応力の関係
◦ water
 イングランドとウェールズ61都市
 死亡率とカルシウム濃度(水の硬度)の関連
◦ pistonrings
 4台の蒸気式圧縮機の3本の脚の故障数
◦ rearrests
 裁判所の種類と再逮捕者数
11

t検定
◦ 2群の平均値が統計的有意差があるかどうか検定
 2群の分散(ばらつき)が等しいと仮定(pooled variance、プールした分散)
 2群の分散(ばらつき)が等しくないと仮定(ウェルチの検定、Welchの検定)

対応のあるt検定
◦ 同一対象の2回測定値に統計的有意差があるかどうか検定
 投薬の前後
 検査A vs. 検査B
◦ 2回測定の差がゼロかどうかを検定

ウィルコクソン順位和検定( Wilcoxon Mann-Whitney rank
sum test)
◦ t検定のノンパラメトリック版

ウィルコクソン符号検定
◦ 対応のあるt検定のノンパラメトリック版
12

分割表
◦ カテゴリ変数×カテゴリ変数
 一般的にr×c分割表

χ2乗検定
◦ 分割表のどこかに期待値からずれているセルかあるかどうか検定

分割表の残差分析
◦ 期待値からずれているかをセル毎に検定
◦ http://d.hatena.ne.jp/bob3/20110521#p1

マクネマー検定(McNemar検定)
◦ 対応のあるデータの分割表を検定
 同一対象に2つの検査
 マッチング
13

プログラムへ
14