【MedR】第5回

東京大学医学系研究科
特任助教 倉橋一成
1


例:2×2分割表
Yes
No
Yes
a
b
m1
No
c
d
m2
n1
n2
N
周辺度数が固定されてると仮定すると、この表が得られる確率は
C
C/C
◦ n1 a*n2 b N m1
◦ m1!*m2!*n1!*n2!/n!*a!*b!*c!*d!
 Fisherが示した公式、超幾何分布

a=3, b=2, c=1, d=4のときは?

この確率を全ての組み合わせで計算
今得ている表の確率よりも小さいものを足す→P値

◦ choose(4,3)*choose(6,2)/choose(10,5)
◦ factorial(5)*factorial(5)*factorial(4)*factorial(6)/
(factorial(10)*factorial(3)*factorial(2)*factorial(1)*factorial(4))
2

χ2乗値:Σ(O - E)2/E
◦ 2×2表の場合は自由度1のχ2乗分布に従うと仮定してP値を計算
◦ χ2乗分布:正規分布を二乗した分布を自由度の数足した分布

ちなみに、、、
◦ t分布:正規分布/sqrt(χ二乗分布)
◦ F分布:χ二乗分布/χ二乗分布

公式
◦ N(ad - bc)2/n1*n2*m1*m2
3

http://d.hatena.ne.jp/isseing333/20110608/1307540893
◦ 日本の大学には存在しない統計学部がもしあったら、こんなカリキュラム
を組みたいなぁ

海外
◦ Department of Statistics, Harvard University
 Rubin
◦ Department of Statistics, Yale University
◦ Department of Statistics, Stanford University
 Efron, Hastie

日本
◦
◦
◦
◦
東京大学医学系研究科疫学・生物統計学教室
東京大学大学院農学生命科学研究科
などなど
学部毎にバラバラ、、、
 同じ手法なのに違う名前が付く
 分野毎に決まった手法しか使わなくなったりして学問的に硬直化
4
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
一般化線形モデル
教師付き機械学習
非線形モデル(一般化加法モデル)
一般化線形混合モデル
カテゴリカルデータ解析
生存時間解析
グラフィカルモデリング
経時データの解析
探索的データ解析(EDA)
多次元データの縮約
非教師付き機械学習(クラスタリング)
5
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
データハンドリングI(R)
データハンドリングII(perl、rubyなどスクリプト言語)
データベースからのデータ取得I(RDBMS系)
データベースからのデータ取得II(noSQL系)
webからのデータ取得(PHPなど)
データの可視化、データマイニング
大規模データの解析I(観測値、HadoopやMahout)
大規模データの解析II(変数)
欠測データの解析
言語データの解析
6
1.
2.
3.
4.
5.
6.
7.
8.
9.
確率・分布と科学
検定と信頼区間
ジャックナイフ、ブートストラップ、クロスバリデーション
ランダム化試験とサンプルサイズ設計
実験計画法とその解析
関連と因果関係
観察データの解析(因果推論)
ベイズ統計学
ベイズへの応用
7
1.
2.
3.
4.
5.
6.
7.
8.
9.
国などの調査・統計
経済分野(マーケッティング、株)
社会科学分野(社会調査)
心理学分野(心理調査・実験)
工学分野(品質管理)
情報学分野(自然言語、ネットワーク)
農学分野(品種改良)
生物学分野(遺伝子)
医学・薬学分野(臨床試験、薬物動態)
8

5回目にしてやっと統計解析っぽい内容に入ります
9

weightgain
◦ タンパク質の異なる4種の食物によって飼育したラットの体重変化

foster
◦ ラット親子の遺伝子型と飼育期間後の体重

skulls
◦ 5つの時代のエジプト人の頭蓋骨の測定値
10

weightgain
◦ 2要因の要因計画(factorial design)
◦ 各水準のサンプル数が釣合型(balanced)

foster
◦ 2要因の要因計画(factorial design)
◦ 各水準のサンプル数が不釣合型(unbalanced)
 平方和の分解が複雑になる
 直行(orthogonal)しない、重なり合う(overlap)

モデル
◦ yijk = u + ri + bj + (rb)ij + eijk
◦ i:因子rの水準, j:因子bの水準, k:繰り返しID
◦ 体重 = 全体平均 + 要因1 + 要因2 + 要因1と要因2の交互作用 + 誤差
◦ 2元配置分散分析

検定手法
◦ F検定
11
y r eik

簡単なモデル例: ik = i +

総平方和 = 群間平方和 + 誤差平方和
12
y r eik (i: 3水準)

簡単なモデル例: ik = i +

総平方和 = 群間平方和 + 誤差平方和
誤差平方
総平方
群間平方
全体平均
13

簡単なモデル例
 yik = ri + eik





a <- rnorm(100)
b <- rnorm(100) + 0.5
c <- rnorm(100) + 1
boxplot(a, b, c)
boxplot(a, b, c, xlab = "水準", ylab = "Y")
◦ y1k = r1 + e1k
◦ y2k = r2 + e2k
◦ y3k = r3 + e3k


帰無仮説:r1=r2=r3
この帰無仮説が否定されると、、、?
14

線形回帰モデル
◦ Rではlm関数


Y = 要因1 + 要因2 + 誤差
違うのは?
◦ 理論的な概念
 平方和の分解 vs. 最小二乗法
◦ 帰無仮説
 オムニバス検定 vs. 個々の因子の検定

「線形回帰モデルの一種」という認識でも良いと思う
◦ 少なくともモデルの形は一緒
◦ 最近のトレンドとしては「~~モデルを仮定してGEE(一般化推定方程
式)で推定しました」という論文が多い→一般化線形混合効果モデル
15


データ:skulls
モデル
◦yijh = uh + rjh + eijh
◦ i:繰り返しID, j:因子rの水準, h:結果変数yの種類
◦ 異なる結果変数をひとまとめにしている

主な検定手法
◦
◦
◦
◦
Hotelling-Lawleyのトレース
Wilkの行列式比
Royの最大根
Pillaiのトレース
 平均ベクトルに対する全ての帰無仮説に対して一様最強力検定(UMP
test)は無い
 それぞれ性能が最大になる状況は異なるが、多くの場合で似た結果
16

説明変数:explanatory variable
◦ 独立変数:independent variable

結果変数:response variable
◦ 通常は「反応変数」「応答変数」と日本語訳しているが、、
◦ 日本語としては「結果変数」の方が分かりやすいのでは、、、?
◦ 従属変数:dependent variable
17
18