【MedR】第5回

東京大学医学系研究科
特任助教倉橋一成
1


例：2×2分割表
Yes
No
Yes
a
b
m1
No
c
d
m2
n1
n2
N
周辺度数が固定されてると仮定すると、この表が得られる確率は
C
C/C
◦ n1 a*n2 b N m1
◦ m1!*m2!*n1!*n2!/n!*a!*b!*c!*d!
 Fisherが示した公式、超幾何分布

a=3, b=2, c=1, d=4のときは？

この確率を全ての組み合わせで計算
今得ている表の確率よりも小さいものを足す→P値

◦ choose(4,3)*choose(6,2)/choose(10,5)
◦ factorial(5)*factorial(5)*factorial(4)*factorial(6)/
(factorial(10)*factorial(3)*factorial(2)*factorial(1)*factorial(4))
2

χ2乗値：Σ（O - E）2/E
◦ 2×2表の場合は自由度1のχ2乗分布に従うと仮定してP値を計算
◦ χ2乗分布：正規分布を二乗した分布を自由度の数足した分布

ちなみに、、、
◦ t分布：正規分布/sqrt(χ二乗分布)
◦ F分布：χ二乗分布/χ二乗分布

公式
◦ N(ad - bc)2/n1*n2*m1*m2
3

http://d.hatena.ne.jp/isseing333/20110608/1307540893
◦ 日本の大学には存在しない統計学部がもしあったら、こんなカリキュラム
を組みたいなぁ

海外
◦ Department of Statistics, Harvard University
 Rubin
◦ Department of Statistics, Yale University
◦ Department of Statistics, Stanford University
 Efron, Hastie

日本
◦
◦
◦
◦
東京大学医学系研究科疫学・生物統計学教室
東京大学大学院農学生命科学研究科
などなど
学部毎にバラバラ、、、
 同じ手法なのに違う名前が付く
 分野毎に決まった手法しか使わなくなったりして学問的に硬直化
4
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
一般化線形モデル
教師付き機械学習
非線形モデル（一般化加法モデル）
一般化線形混合モデル
カテゴリカルデータ解析
生存時間解析
グラフィカルモデリング
経時データの解析
探索的データ解析（EDA）
多次元データの縮約
非教師付き機械学習（クラスタリング）
5
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
データハンドリングI（R）
データハンドリングII（perl、rubyなどスクリプト言語）
データベースからのデータ取得I（RDBMS系）
データベースからのデータ取得II（noSQL系）
webからのデータ取得（PHPなど）
データの可視化、データマイニング
大規模データの解析I（観測値、HadoopやMahout）
大規模データの解析II（変数）
欠測データの解析
言語データの解析
6
1.
2.
3.
4.
5.
6.
7.
8.
9.
確率・分布と科学
検定と信頼区間
ジャックナイフ、ブートストラップ、クロスバリデーション
ランダム化試験とサンプルサイズ設計
実験計画法とその解析
関連と因果関係
観察データの解析（因果推論）
ベイズ統計学
ベイズへの応用
7
1.
2.
3.
4.
5.
6.
7.
8.
9.
国などの調査・統計
経済分野（マーケッティング、株）
社会科学分野（社会調査）
心理学分野（心理調査・実験）
工学分野（品質管理）
情報学分野（自然言語、ネットワーク）
農学分野（品種改良）
生物学分野（遺伝子）
医学・薬学分野（臨床試験、薬物動態）
8

5回目にしてやっと統計解析っぽい内容に入ります
9

weightgain
◦ タンパク質の異なる4種の食物によって飼育したラットの体重変化

foster
◦ ラット親子の遺伝子型と飼育期間後の体重

skulls
◦ 5つの時代のエジプト人の頭蓋骨の測定値
10

weightgain
◦ 2要因の要因計画（factorial design）
◦ 各水準のサンプル数が釣合型（balanced）

foster
◦ 2要因の要因計画（factorial design）
◦ 各水準のサンプル数が不釣合型（unbalanced）
 平方和の分解が複雑になる
 直行（orthogonal）しない、重なり合う（overlap）

モデル
◦ yijk = u + ri + bj + (rb)ij + eijk
◦ i:因子rの水準, j:因子bの水準, k:繰り返しID
◦ 体重 = 全体平均 + 要因1 + 要因2 + 要因1と要因2の交互作用 + 誤差
◦ 2元配置分散分析

検定手法
◦ F検定
11
y r eik

簡単なモデル例： ik = i +

総平方和 = 群間平方和 + 誤差平方和
12
y r eik （i: 3水準）

簡単なモデル例： ik = i +

総平方和 = 群間平方和 + 誤差平方和
誤差平方
総平方
群間平方
全体平均
13

簡単なモデル例
 yik = ri + eik





a <- rnorm(100)
b <- rnorm(100) + 0.5
c <- rnorm(100) + 1
boxplot(a, b, c)
boxplot(a, b, c, xlab = "水準", ylab = "Y")
◦ y1k = r1 + e1k
◦ y2k = r2 + e2k
◦ y3k = r3 + e3k


帰無仮説：r1=r2=r3
この帰無仮説が否定されると、、、？
14

線形回帰モデル
◦ Rではlm関数


Y = 要因1 + 要因2 + 誤差
違うのは？
◦ 理論的な概念
 平方和の分解 vs. 最小二乗法
◦ 帰無仮説
 オムニバス検定 vs. 個々の因子の検定

「線形回帰モデルの一種」という認識でも良いと思う
◦ 少なくともモデルの形は一緒
◦ 最近のトレンドとしては「～～モデルを仮定してGEE（一般化推定方程
式）で推定しました」という論文が多い→一般化線形混合効果モデル
15


データ：skulls
モデル
◦yijh = uh + rjh + eijh
◦ i:繰り返しID, j:因子rの水準, h:結果変数yの種類
◦ 異なる結果変数をひとまとめにしている

主な検定手法
◦
◦
◦
◦
Hotelling-Lawleyのトレース
Wilkの行列式比
Royの最大根
Pillaiのトレース
 平均ベクトルに対する全ての帰無仮説に対して一様最強力検定（UMP
test）は無い
 それぞれ性能が最大になる状況は異なるが、多くの場合で似た結果
16

説明変数：explanatory variable
◦ 独立変数：independent variable

結果変数：response variable
◦ 通常は「反応変数」「応答変数」と日本語訳しているが、、
◦ 日本語としては「結果変数」の方が分かりやすいのでは、、、？
◦ 従属変数：dependent variable
17
18

Download Report