一般化線形 R 一般化線形 政治学方法論 I 一般化線形 矢内 勇生 神戸大学 法学部/法学研究科 2014 年 12 月 24 日 1 / 26 一般化線形 今日 R 一般化線形 内容 1 一般化線形 指数型分布族 (exponential family of distribution) 一般化線形 (generalized linear models) 2 ( 3 R )回帰 回帰 一般化線形 glm() 応答変数 変数(三値以上) 場合 2 / 26 一般化線形 R 一般化線形 線形 ▶ 線形 : E(Yi ) = µi = xTi β Yi ∼ N(µi , σ 2 ) ▶ xTi ▶ 一般化線形 説明変数行列(計画行列, design matrix)X :線形 第i行 拡張 1. 応答変数 正規分布以外 分布(離散型分布 含 ) 従 場合 扱 2. 応答変数 説明変数 関係 線形 場合 扱 3 / 26 一般化線形 R 線形 一般化線形 一般化線形 一般化線形 拡張 (generalized linear models: GLMs) 1. 応答変数 正規分布以外 分布 従 場合 扱 ▶ 正規分布 指数型分布族 → 指数型分布族 拡張 2. 応答変数 説明変数 関係 線形 ▶ E(Y ) = µ 線形予測子 xTi β i i 結 g(µi ) = xTi β ▶ g 関数 場合 線形 扱 関数 g or µi = g −1 (xTi β) 呼 4 / 26 一般化線形 R 一般化線形 指数型分布族 (exponential family of distribution) 指数型分布族 ▶ 指数型分布族:唯一 母数 θ (質量)関数 次 形 表 確率変数 Y 確率密度 f (y|θ) = s(y)t(θ) exp[a(y)b(θ)] = exp[a(y)b(θ) + c(θ) + d(y)] 既知 関数 ▶ a, b, s, t ▶ s(y) = exp[d(y)], t(θ) = exp[c(θ)] ▶ y ▶ a(y) = y ▶ b(θ):自然母数 (natural parameter) ▶ 注目 θ 対称 :正準形 (canonical form) 母数 θ 以外 母数:撹乱母数 (nuisance parameter) 5 / 26 一般化線形 R 一般化線形 指数型分布族 (exponential family of distribution) 指数型分布族 ▶ 分布、二項分布 分布 ▶ 負 二項分布 ▶ 分布 ▶ 分布 分布 ▶ 分布 ▶ 分布 ▶ ▶ 確率分布 正規分布 ▶ ▶ 属 etc. 6 / 26 一般化線形 R 一般化線形 指数型分布族 (exponential family of distribution) 正規分布 (normal distribution) 確率密度関数:µ 母数、σ 2 撹乱母数 [ ] 1 1 2 f (y|µ) = √ exp − 2 (y − µ) 2σ 2πσ 2 [ ] 1 2 − 12 2 2 = exp[log(2πσ ) ] exp − 2 (y − 2yµ + µ ) 2σ [ ] 2 µ µ 1 y 2 = exp y 2 − 2 − log(2πσ ) − 2 σ 2σ 2 2σ ▶ 正規分布 ▶ a(y) = y → 正準形 ▶ 自然母数:b(µ) = µ/σ 2 ▶ µ 1 2 c(µ) = − 2σ 2 − 2 log(2πσ ) ▶ d(y) = −y/2σ 2 2 7 / 26 一般化線形 R 一般化線形 指数型分布族 (exponential family of distribution) 二項分布 (binomial distribution) ▶ 1 回 試行 成功確率 π 、独立 n 回 試行 成功 回数 確率変数 Y :Yi ∼ Bin(ni , πi ) ( ) n y f (y|π) = π (1 − π)n−y y ] [ ( ) n y = exp log π (1 − π)n−y y [ ( )] n = exp y{log π − log(1 − π)} + n log(1 − π) + log y ▶ a(y) = y → 正準形 π 自然母数:b(π) = log π − log(1 − π) = log 1−π : c(π) = n log(1 − π) ( ) d(y) = log ny ▶ ▶ ▶ 8 / 26 一般化線形 R 一般化線形 指数型分布族 (exponential family of distribution) 分布 (Poisson distribution) ▶ 決 時間( 確率変数 Y 空間)内 特定 事象 起 :Yi ∼ Poisson(θi ) 回数 θy exp(−θ) y! = exp(y log θ − θ − log y!) f (y|θ) = ▶ a(y) = y → 正準形 ▶ 自然母数:b(θ) = log θ ▶ c(θ) = −θ ▶ d(y) = − log y! 9 / 26 一般化線形 R 一般化線形 指数型分布族 (exponential family of distribution) 二項分布 ▶ ▶ 分布:Yi ∼ Poisson(θi ) 共通点: 特定 事象 起 相違点:二項分布 Xi 上限 Yi 上限 : ▶ ▶ ▶ 使 二項分布:Xi ∼ Bin(ni , πi ) ▶ ▶ 分布 回数 数 、 分布 Xi :0 以上 ni 以下 整数 Yi :0 以上 整数 → 事象 発生回数 独立 試行回数 ni 決 二項分布、 分布 過分散 (overdispersion) 可能性 ▶ ▶ 二項分布 過分散 → 二項分布 (beta-binomial) 分布 過分散 → 負 二項分布 (negative binomial) 10 / 26 一般化線形 一般化線形 一般化線形 R (generalized linear models) 一般化線形 定義 指数型分布族 確率分布 従 確率変数 Y1 , . . . , Yn 1. 各 Yi 確率分布 正準形 母数 1 : f (yi |θi ) = exp[yi bi (θi ) + ci (θi ) + di (yi )] 2. 従 Yi 同 確率分布(母数 値 異 → Y1 , . . . , Yn 同時分布: ) f (y1 , . . . , yn |θ1 , . . . , θn ) n ∏ = exp[yi b(θi ) + c(θi ) + d(yi )] i=1 = exp [ n ∑ i=1 yi b(θi ) + n ∑ i=1 c(θi ) + n ∑ ] d(yi ) i=1 11 / 26 一般化線形 R 一般化線形 一般化線形 (generalized linear models) 一般化線形 (通常 ▶ 目的:θi k < n) ▶ µi θi )目的 → β1 , . . . , βk 推定 関数、E(Yi ) = µi 推定( 、次 関数 g 、 考 g(µi ) = xTi β µi = g −1 (xTi β) 1. g 2. xTi 3. β 単調 関数(単調増加、単調減少、 定数関数) 1 行 k 列 説明変数 k 行 1 列 母数 12 / 26 一般化線形 一般化線形 R 一般化線形 (generalized linear models) 一般化線形 構成要素 1. 同一 確率分布(指数型分布族 Y1 , . . . , Yn 2. 母数 説明変数行列 X: T x1 β1 x11 .. .. .. β = . , X = . = . 従 応答変数 β βk 3. 単調 ) xTn xn1 ··· .. . ··· x1k .. . xnk 関数 g : g(µi ) = xTi β or µi = g −1 (xTi β) 、µi = E(Yi ) 13 / 26 一般化線形 R ( )回帰 潜在変数 ▶ 一般化線形 回帰 使 回帰 定式化 応答変数 Yi 、連続型 潜在変数 Zi 使 { 1 (zi > 0) yi = 0 (zi < 0) 化 zi = xTi β + ϵi ▶ 、ϵi 分布 従 Pr(ϵi < x) = logit−1 (x), ▶ : ∀x 、 Pr(yi = 1) = Pr(zi > 0) = Pr(ϵi > −xTi β) = logit−1 (xTi β) 14 / 26 一般化線形 R ( )回帰 一般化線形 回帰 回帰 ▶ 応答変数 Yi 、連続型 潜在変数 Zi 使 { 1 (zi > 0) yi = 0 (zi < 0) 化 zi = xTi β + ϵi ▶ ▶ 、ϵi ∼ N(0, 1) 、 Pr(yi = 1) = Φ(xTi β) ▶ 、Φ 標準正規分布 累積分布関数 (cdf: cumulative distribution function) 15 / 26 一般化線形 R ( )回帰 一般化線形 回帰 累積分布関数 1.00 Pr(ε<x) 0.75 CDF −1 logit 0.50 N(0, 1) 2 N(0,1.6 ) 0.25 0.00 -4 -2 0 2 4 x 16 / 26 一般化線形 R ( )回帰 一般化線形 回帰 違 ▶ 潜在変数 Zi 使 回帰 : { yi = 1 0 (zi > 0) (zi < 0) zi = xTi β + ϵi ▶ ϵi ∼ N(0, 1.62 ) 推定結果 ▶ 回帰 一緒 ( ▶ 偏差 )回帰 ≈ 回帰 標準 1.6 倍 17 / 26 一般化線形 R ( σ )回帰 推定 回帰 ? ▶ 潜在変数 使 、σ 推定 ▶ 答 ▶ 以下 : 定式化 ? 、 一般的 等 : ϵi ∼ N(0, 1.62 ) zi = (10β1 ) + (10β2 )xi + ϵi , σ σ 、ϵi ∼ N(0, σ 2 ) ! zi = β1 + β2 xi + ϵi , ▶ 一般化線形 ϵi ∼ N(0, 162 ) zi = (100β1 ) + (100β2 )xi + ϵi , ϵi ∼ N(0, 1602 ) 固定 必要 → σ = 1: 撹乱変数) (一般化線形 18 / 26 一般化線形 一般化線形 R glm() glm() ▶ 分析 以下 ▶ 線形回帰 ▶ 回帰 ▶ 回帰 ▶ 二項分布 ▶ 負 二項分布 ▶ 応答変数 (後述) glm() ( 分析 )回帰 ▶ 変数 場合:他 関数 使 19 / 26 一般化線形 R 一般化線形 glm() glm() 使 特定 1. 応答変数 ;y 2. 線形予測子:Xβ ▶ 説明変数行列(計画行列) :X ▶ 母数 :β 3. 関数:glm link 4. 応答変数 確率分布:glm 5. 撹乱母数:線形予測子、 、X 以外 母数 決 family 決 関数、確率分布 登場 20 / 26 一般化線形 R 一般化線形 glm() 線形回帰 関数:恒等関数 (identity function) ▶ xTi β = g(µi ) = µi ▶ 応答変数 確率分布: Yi ∼ N(µi , σ 2 ), E(Yi ) = µi 特定: family=gaussian(link="identity") ▶ family ▶ 撹乱母数:σ 2 21 / 26 一般化線形 R 一般化線形 glm() 回帰 関数: 関数 (logit function) ( ) πi T xi β = g(πi ) = logit(πi ) = log 1 − πi ▶ ▶ 応答変数 確率分布: Yi ∼ Bernoulli(πi ), ▶ family E(Yi ) = πi 特定: family=binomial(link="logit") 22 / 26 一般化線形 R 一般化線形 glm() 回帰 関数: ▶ 関数 (probit function) xTi β = g(πi ) = Φ−1 (πi ) ▶ 応答変数 確率分布: Yi ∼ Bernoulli(πi ), ▶ family E(Yi ) = πi 特定: family=binomial(link="probit") 23 / 26 一般化線形 R 一般化線形 glm() 回帰 関数:対数関数 (logarithmic function) ▶ xTi β = g(θi ) = log θi ▶ 応答変数 確率分布: Yi ∼ Poisson(θi ), ▶ family E(Yi ) = θi 特定: family=poisson(link="log") 24 / 26 一般化線形 R 応答変数 変数(三値以上) 応答変数 ▶ ▶ 場合 変数 応答変数 ▶ 順序 ▶ 順序 順序尺度 回帰 (ordered logit) 回帰 (ordered probit) 応答変数 名義尺度 ▶ 多項(順序 ) unordered logit) ▶ 一般化線形 多項(順序 ) unordered probit) 回帰 (multinomial or 回帰 (multinomial or 25 / 26 一般化線形 R 応答変数 変数(三値以上) 一般化線形 場合 分析法 R ▶ 順序 1. MASS ・ 2. arm 多項 関数 分析可能 関数 分析可能 bayespolr() 3. ordinal ▶ 以下 polr() clm() ・ 以下 ▶ 1. mlogit 2. VGAM ▶ mlogit() multinomial() :MNP mnp() 26 / 26
© Copyright 2024 ExpyDoc