東京大学医学系研究科 特任助教 倉橋一成 1 例:2×2分割表 Yes No Yes a b m1 No c d m2 n1 n2 N 周辺度数が固定されてると仮定すると、この表が得られる確率は C C/C ◦ n1 a*n2 b N m1 ◦ m1!*m2!*n1!*n2!/n!*a!*b!*c!*d! Fisherが示した公式、超幾何分布 a=3, b=2, c=1, d=4のときは? この確率を全ての組み合わせで計算 今得ている表の確率よりも小さいものを足す→P値 ◦ choose(4,3)*choose(6,2)/choose(10,5) ◦ factorial(5)*factorial(5)*factorial(4)*factorial(6)/ (factorial(10)*factorial(3)*factorial(2)*factorial(1)*factorial(4)) 2 χ2乗値:Σ(O - E)2/E ◦ 2×2表の場合は自由度1のχ2乗分布に従うと仮定してP値を計算 ◦ χ2乗分布:正規分布を二乗した分布を自由度の数足した分布 ちなみに、、、 ◦ t分布:正規分布/sqrt(χ二乗分布) ◦ F分布:χ二乗分布/χ二乗分布 公式 ◦ N(ad - bc)2/n1*n2*m1*m2 3 http://d.hatena.ne.jp/isseing333/20110608/1307540893 ◦ 日本の大学には存在しない統計学部がもしあったら、こんなカリキュラム を組みたいなぁ 海外 ◦ Department of Statistics, Harvard University Rubin ◦ Department of Statistics, Yale University ◦ Department of Statistics, Stanford University Efron, Hastie 日本 ◦ ◦ ◦ ◦ 東京大学医学系研究科疫学・生物統計学教室 東京大学大学院農学生命科学研究科 などなど 学部毎にバラバラ、、、 同じ手法なのに違う名前が付く 分野毎に決まった手法しか使わなくなったりして学問的に硬直化 4 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 一般化線形モデル 教師付き機械学習 非線形モデル(一般化加法モデル) 一般化線形混合モデル カテゴリカルデータ解析 生存時間解析 グラフィカルモデリング 経時データの解析 探索的データ解析(EDA) 多次元データの縮約 非教師付き機械学習(クラスタリング) 5 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. データハンドリングI(R) データハンドリングII(perl、rubyなどスクリプト言語) データベースからのデータ取得I(RDBMS系) データベースからのデータ取得II(noSQL系) webからのデータ取得(PHPなど) データの可視化、データマイニング 大規模データの解析I(観測値、HadoopやMahout) 大規模データの解析II(変数) 欠測データの解析 言語データの解析 6 1. 2. 3. 4. 5. 6. 7. 8. 9. 確率・分布と科学 検定と信頼区間 ジャックナイフ、ブートストラップ、クロスバリデーション ランダム化試験とサンプルサイズ設計 実験計画法とその解析 関連と因果関係 観察データの解析(因果推論) ベイズ統計学 ベイズへの応用 7 1. 2. 3. 4. 5. 6. 7. 8. 9. 国などの調査・統計 経済分野(マーケッティング、株) 社会科学分野(社会調査) 心理学分野(心理調査・実験) 工学分野(品質管理) 情報学分野(自然言語、ネットワーク) 農学分野(品種改良) 生物学分野(遺伝子) 医学・薬学分野(臨床試験、薬物動態) 8 5回目にしてやっと統計解析っぽい内容に入ります 9 weightgain ◦ タンパク質の異なる4種の食物によって飼育したラットの体重変化 foster ◦ ラット親子の遺伝子型と飼育期間後の体重 skulls ◦ 5つの時代のエジプト人の頭蓋骨の測定値 10 weightgain ◦ 2要因の要因計画(factorial design) ◦ 各水準のサンプル数が釣合型(balanced) foster ◦ 2要因の要因計画(factorial design) ◦ 各水準のサンプル数が不釣合型(unbalanced) 平方和の分解が複雑になる 直行(orthogonal)しない、重なり合う(overlap) モデル ◦ yijk = u + ri + bj + (rb)ij + eijk ◦ i:因子rの水準, j:因子bの水準, k:繰り返しID ◦ 体重 = 全体平均 + 要因1 + 要因2 + 要因1と要因2の交互作用 + 誤差 ◦ 2元配置分散分析 検定手法 ◦ F検定 11 y r eik 簡単なモデル例: ik = i + 総平方和 = 群間平方和 + 誤差平方和 12 y r eik (i: 3水準) 簡単なモデル例: ik = i + 総平方和 = 群間平方和 + 誤差平方和 誤差平方 総平方 群間平方 全体平均 13 簡単なモデル例 yik = ri + eik a <- rnorm(100) b <- rnorm(100) + 0.5 c <- rnorm(100) + 1 boxplot(a, b, c) boxplot(a, b, c, xlab = "水準", ylab = "Y") ◦ y1k = r1 + e1k ◦ y2k = r2 + e2k ◦ y3k = r3 + e3k 帰無仮説:r1=r2=r3 この帰無仮説が否定されると、、、? 14 線形回帰モデル ◦ Rではlm関数 Y = 要因1 + 要因2 + 誤差 違うのは? ◦ 理論的な概念 平方和の分解 vs. 最小二乗法 ◦ 帰無仮説 オムニバス検定 vs. 個々の因子の検定 「線形回帰モデルの一種」という認識でも良いと思う ◦ 少なくともモデルの形は一緒 ◦ 最近のトレンドとしては「~~モデルを仮定してGEE(一般化推定方程 式)で推定しました」という論文が多い→一般化線形混合効果モデル 15 データ:skulls モデル ◦yijh = uh + rjh + eijh ◦ i:繰り返しID, j:因子rの水準, h:結果変数yの種類 ◦ 異なる結果変数をひとまとめにしている 主な検定手法 ◦ ◦ ◦ ◦ Hotelling-Lawleyのトレース Wilkの行列式比 Royの最大根 Pillaiのトレース 平均ベクトルに対する全ての帰無仮説に対して一様最強力検定(UMP test)は無い それぞれ性能が最大になる状況は異なるが、多くの場合で似た結果 16 説明変数:explanatory variable ◦ 独立変数:independent variable 結果変数:response variable ◦ 通常は「反応変数」「応答変数」と日本語訳しているが、、 ◦ 日本語としては「結果変数」の方が分かりやすいのでは、、、? ◦ 従属変数:dependent variable 17 18
© Copyright 2024 ExpyDoc