統計理論グループの研究紹介

統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
.
統計理論グループの研究紹介
若木 宏文
理学研究科数学専攻
2014.9.1
table of contents
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
1.
統計理論グループの最近の研究
2.
多変量線形回帰モデルにおける変数選択規準の一致性
統計理論グループメンバー
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
藤越 康祝 (顧問)
若木 宏文
柳原 宏和
山村 麻理子
最近の研究テーマ
統計理論グ
ループの研究
紹介
若木 宏文
1. 多変量線形回帰モデルにおける変数選択規準の一致性
統計理論グ
ループの最近
の研究
2. 多変量解析, 判別分析, 正準相関分析における情報量規準に
もとづく次元 (ランク) の推定法と一致性
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
3. 同時方程式モデルにおける高次元漸近理論と外生変数の
選択
4. 正準相関分析における変数選択基準の高次元漸近性質
5. 正準相関分析における変数の冗長性検定統計量の分布の高
次元漸近展開と誤差評価
6. ランダム効果によって導かれる共分散構造の分布の検定統
計量の分布の漸近展開
最近の研究テーマ (続き)
統計理論グ
ループの研究
紹介
若木 宏文
7. 共分散行列が「ほぼ」等しい場合の線形判別と 2 次判別の
比較
統計理論グ
ループの最近
の研究
8. 多変量線形回帰モデルにおける変数選択規準の非正規性の
下での一致性
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
9. 地価データを用いた時空間モデリングに基づく地価内挿
予測
10. モデルの誤指定の下での AIC 規準のバイアス補正の効果
11. 木の成長に関する変化係数モデルを用いた解析
12. 高齢者に対する肺炎球菌ワクチン接種の公費助成と接種率
に関する解析
13. 連続時間モデルのノンパラメトリックドリフト推定と将来
値予測
藤越, 若木, 柳原
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
多変量線形回帰モデルにおける変数選択規準の一致性
.
多変量回帰モデルの変数選択問題に関して, 最大対数尤度の−
2 倍に罰則項を付け加えることで定義される情報量規準におい
て, 一致性を持つための罰則項の条件を標本数と目的変数の次
元をともに無限大とする漸近理論において明らかにした. その
結果より, 従来の標本数だけを無限大とする漸近理論では一致
性を持たなかった AIC が一致性をもつことがあり, 一致性を持
つ
. BIC が一致性を持たないことがあることが分かった.
Yanagihara, H., Wakaki, H. & Fujikoshi, Y. (2012). A
consistency property of the AIC for multivariate linear models
when the dimension and the sample size are large. TR No.
12-08, Statistical Research Group, Hiroshima University.
藤越, (櫻井)
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
多変量解析, 判別分析, 正準相関分析における 情報量規準にも
とづく次元 (ランク) の推定法と一致性
.
多変量回帰における回帰係数行列のランク, 判別分析における
有用な判別関数の個数, 正準相関分析におけるゼロでない正準
相関係数の個数, の推定問題を扱う. 推定法として, AIC 規準
や Cp 規準を用いる方法が提案され, 大標本漸近的枠組みでの
性質が知られているが, 本研究では. 標本数 n と変数の数 p
が, lim p/n = c < 1 のときの規準量の一致性について調べる.
さらに, 櫻井(諏訪理科大)との共同研究で, 調整パラメータ
を含む規準量や, 共分散行列をリッジ推定量で推定したときの
.規準量について研究を進めている.
Fujikoshi, Y. (2014), High-Dimensional Properties of AIC and
Cp for Estimation of Dimensionality in Multivariate Models. TR
No. 14-02, Statistical Research Group, Hiroshima University.
(2014 年度統計関連学会)
藤越, (櫻井)
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
同時方程式モデルにおける高次元漸近理論と外生変数の選択
.
y1
n×1
= Y 2 β + Z1 γ + u
n×g1
n×k1
Y = (y1 , Y2 ) = (Z1 , Z2 )Π + E
n×k2
β の推定量の分布に関する, 標本数 n と 外生変数 Z の次元
k = k1 + k2 が大きい場合の漸近理論, および, 外生変数 Z1 の
.(成分の) 選択問題.
(2010 年度統計関連学会)
藤越, 若木, 柳原, (橋山)
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
正準相関分析における変数選択基準の高次元漸近性質
.
2 組の変量 x = (x1 , . . . , xp )′ と y = (y1 , . . . , yq )′ の間の正準
相関分析における変数選択規準である AIC と, 修正 AIC
(Fujikoshi, 1985) の p : fixed, lim q/n = c2 < 1 の下での一致性
(Yanagihara, Hashiyama and Fujikoshi (2014, 準備中) ), およ
び, lim p/n = c1 < 1, lim q/n = c2 < 1 の下での一致性に関す
る研究. 多変量解析における種々のモデル (多群の判別分析,
多変量逆回帰分析、など) における情報量規準の一致性の研究
.に応用できると期待される.
藤越, 若木
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
正準相関分析における変数の冗長性検定統計量の分布の高次
元漸近展開と誤差評価
.
2 組の変量 x = (x1 , . . . , xp )′ と y = (y1 , . . . , yq )′ の間の正準
相関分析において, x の p2 (= p − p1 ) 次元部分ベクトルと y
の q2 (= q − q1 ) 次元部分ベクトルが追加情報を持たないとい
う仮説の検定統計量の分布の,
n − p − 1 → ∞, p → ∞, q → ∞, p2 + q2 → ∞ の下での漸近展
開公式と
, その計算可能な誤差限界を導出した.
.
Wakaki, H. and Fujikoshi, Y. (2012), Computable error bounds
for high–dimensional approximations of LR test for additional
information in canonical correlation analysis. TR No. 12-20,
Hiroshima Statistical Research Group.
若木, (稲津)
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
ランダム効果によって導かれる共分散構造の分布の検定統計
量の分布の漸近展開
.
パラレルプロファイルモデルにランダム効果を導入すると, 共
分散行列に関する構造:
H0 : Σ = λ2 1p 1′p + σ 2 Ip , λ2 ≥ 0, σ 2 > 0
が得られる. 共分散行列がこの構造を持つかどうかの尤度比検
定統計量の帰無分布は, λ2 = 0 のとき, いわゆる正則条件が成
り立たないため, 標本数 N が大きくなるときの極限分布関数
は, 自由度が 1 ずれた 2 つのカイ 2 乗分布の加重和となり. 誤
差項は O(N −1/2 ) である. 本研究では, 帰無分布の漸近展開公
式を導出し, さらに, 極限分布で近似したときの誤差が
−1 ) となるような検定統計量の単調変換を導出した.
o(N
.
(2014 年度統計関連学会)
若木, (中川)
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
2
.
つの多変量正規母集団 Np (µ1 , Σ1 ), Np (µ2 , Σ2 ) に関する判別
問題において,
1
Σ1 − Σ2 = √ A,
n
n = n1 + n2 (初期標本数の和)
の仮定の下での, 標本線形判別関数と 2 次判別関数の誤判別関
.数の漸近展開を導出し, これら判別関数の優劣を比較する.
(2014 年度統計関連学会)
柳原
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
多変量線形回帰モデルにおける変数選択規準の非正規性の下
での一致性
.
1. では, 誤差分布に正規性を仮定していた. 本研究では, その
正規性の仮定を外し, 具体的な分布形を仮定しない4次モーメ
ントが存在する分布の下で罰則項の条件を明らかにした. その
.結果, 分布の非正規性は条件に入らないことがわかった.
Yanagihara, H. (2013). Conditions for consistency of a
log-likelihood-based information criterion in normal multivariate
linear regression models under the violation of normality
assumption. TR No. 13-11, Statistical Research Group,
Hiroshima University.
柳原, 他
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
地価データを用いた時空間モデリングに基づく地価内挿予測
.
不動産査定に用いられる地価データは 6 種類あり, それぞれに
おいて分散, 用いることができる説明変数が異なり, また, そ
の地価は位置や時間に強く依存する. そこで, この地価データ
に対して, 異分散性を仮定した, 階層構造をもつ時空間人ノン
パラメトリック変化係数モデルをあてはめて解析を行った. そ
の結果
, 位置や時間に強く依存した説明変数が確認された.
.
大野悟・伊森晋平・齋藤武史・柳原宏和・庄司功・伊藤嘉道
(2013). 6 種類の地価データを用いた時空間モデリングに基づ
く地価内挿予測. 2013 年度統計関連学会連合大会. 2013 年 9
月 9 日-11 日.
柳原, 山村, (加茂, 伊森)
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
モデルの誤指定の下での AIC 規準のバイアス補正の効果
.
多変量回帰モデルにおける変数選択に関して, AIC とそのバイ
アス補正規準である, CAIC, MAIC, TIC, EIC, Adjusted EIC,
CV, Jackknife AIC, Corrected Jackknife AIC の 9 つの規準量を
数値的に比較することで, バイアス補正の影響を調べた. 9 つ
の規準量により選ばれるモデルは漸近的に等しいことが理論
的に証明されたので, 数値実験は小・中標本で行った. 数値実
験の結果, overspecified モデルだけでなく, underspecified モデ
.ルにおいてもバイアス補正を行うべきであることがわかった
Yanagihara, H., Kamo, K., Imori, S. & Yamamura, M. (2013).
A study on the bias-correction effect of the AIC for selecting
variables in normal multivariate linear regression models under
model misspecification. TR No. 13-08, Statistical Research
Group, Hiroshima University.
柳原, 山村, (福井)
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
木の成長に関する変化係数モデルを用いた解析
.
「位置(経度,緯度)」に植えられている「樹齢(年)」の
「Y:木の幹の体積(m3)」を「X1:木の胴回り(cm)」と「X2:
木の高さ(m)」で説明する統計モデルとして変化係数モデル
を用いた.参考にしたのは で,位置と時間ごとに X1 と X2
が Y に及ぼす影響を明らかにできる凝った成長曲線モデルと
いえる.推定した X1 と X2 にかかる係数の区間推定が行なえ
.るのが魅力的だった.
Yamamura, M., Fukui, K., & Yanagihara, H. (2014).
Illustration of the Varying Coefficient Model for Analyses the
Tree Growth from the Age and Space Perspectives. TR No.
14-06, Statistical Research Group, Hiroshima University.
山村, 他
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
高齢者に対する肺炎球菌ワクチン接種の公費助成と接種率に
関する解析
.
高齢者に対する肺炎球菌ワクチン接種の公費助成について,
市区町村ごとに異なる公費助成額と接種率とのデータを用い,
ワクチン接種の需要関数と価格弾力性を求めることで,接種
率に対する公費助成の価格効果を明らかにした.解析手法に
はロジスティック回帰分析を用い,接種率の対数オッズを応答
変数とした.結果より,助成額が上がり,高齢者の自己負担
額が低くなるほど,接種率は上がること,さらに約 3700 円以
上であれば,価格弾力的であることが明らかになった.
.
Kondo,M, Yamamura, M., Hoshi S. & Okubo, I. (2012).
Demand for pneumococcal vaccination under subsidy program
for the elderly in Japan. BMC Health Services Research,
12:313.
山村, (庄司)
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
連続時間モデルのノンパラメトリックドリフト推定と将来値
予測
.
連続時間モデルにおけるドリフト関数をノンパラメトリック
に推定し,推定結果から数期先の将来値予測の導出方法を提
示した.ノンパラメトリックなドリフト関数の推定はすでに
行われているものの,予測モデルの提案は行われていないか,
1 期先予測にとどまる.そこで本研究では数期先までの予測に
着目した.ドリフト関数の推定に用いたモデルは 1 次の局所
.多項回帰モデルで,カーネル関数は正規分布を使用した.
Yamamura, M. & Shoji, I. (2010). A nonparametric method of
multi-step ahead forecasting in diffusion processes. Physica A:
Statistical Mechanics and its Applications, 389.
Multivariate linear model
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
Notations
.
Y : n × p matrix of response variables
X : n × k matrix of whole explanatory variables, rank(X) = k
j ∈ ℘({1, 2, . . . , k}) : the set of integers indicating the subset
of explanatory variables in the candidate
model
kj = #j : the number of explanatory variables
Xj : n × kj matrix consisting of the columns of X indexed by
the elements of j
.
Ex. X = (X1 , . . . , Xk ), j = {1, 2, 4} ⇒ Xj = (X1 , X2 , X4 )
.
Candidate model
.
Y ∼ Nn×p (Xj Θj , Σj ⊗ In )
Θj : kj × p matrix of unknown regression coefficients
Σ
. j : p × p unknown covariance matrix
Information criteria
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
.
A general form of information criteria
.
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
ˆ j | + np(log 2π + 1) + m(j)
IC(j) = n log |Σ
ˆ j = 1 YT (In − Pj )Y : MLE of Σj ,
Σ
n
−1 T
Pj = Xj (XT
j Xj ) Xj : the projection matrix
m(j) : penalty term for the number of unknown parameters
Major criteria
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
{
}
AIC (Akaike, 1973) : m(j) = 2 pkj + 12 p(p + 1)
AICc (Bedrik & Tsai, 1994) : {
}
1
m(j) = n−kj2n
pk
+
p(p
+
1)
j
−p−1
}
{2
BIC (Schwarz, 1978) : m(j) = log n pkj + 21 p(p + 1)
CAIC (Bozdogan, 1987) :
{
}
m(j) = (1 + log n) pkj + 21 p(p + 1)
.
Under a large–sample framework,
AIC and AICc are not consistent,
BIC and CAIC are consistent.
Consistency under HD framework
統計理論グ
ループの研究
紹介
.
High–dimensional framework
.
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
n → ∞,
.
p → ∞,
p
→ c0 ∈ [0, 1)
n
K = #J : fixed
.
Assumptions
.
True model : Y ∼ Nn×p (X∗ Θ∗ , Σ∗ ⊗ In )
J : the set of candidate models
Assumption 1 X∗ = Xj∗ for some j∗ ∈ J .
Assumption 2 Θ∗ and Σ∗ do not depend on n, and Σ∗ is
always positive definite.
Assumption 3 limn→∞ n1 XT X = R0 exists and R0 is positive
definite.
.
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
Noncentrality matrix
.
−1/2
−1/2
T
Σ∗ ΘT
= Γ j ΓT
∗ X∗ (In − Pj )XΘ∗ Σ∗
j
Γ
:
p
×
γ
matrix,
rankΓ
=
γ
j
j
j
j
.
.
Assumptions
.
Assumption 4
.
if j c ∩ j∗ ̸= ∅ (under specified)
1 T
lim
Γj Γj = ∃ ∆j,0 , ( pos. def. )
n→∞,p→∞,p/n→c0 np
統計理論グ
ループの研究
紹介
若木 宏文
.
Theorem 1
.
Suppose that the Assumption 1, 2, and 4 are satisfied.
(i) If cn,p → c0 ∈ [0, ca ) holds, where ca (≈ 0.797) is a
constant satisfying log(1 − ca ) + 2ca = 0, then the
asymptotic probability of selecting the true model j∗ by
the AIC is
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
lim
n,p→∞,p/n→c0
P (ˆja = j∗ ) = 1.
(ii) If cn,p → c0 ∈ [0, 1) holds, then the asymptotic probability
of selecting the true model j∗ by the AICc is
lim
.
n,p→∞,p/n→c0
P (ˆjc = j∗ ) = 1.
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
Theorem 2
.
Suppose that Assumption 1, 2, and 4 hold, and
γj > c0 (k∗ − kj ) is satisfied for all j ∈ S− . If
cn,p → c0 ∈ [0, cb ) holds, where
cb = min{1, minj∈S− γj /(k∗ − kj )}, then the asymptotic
probability of selecting the true model j∗ by the BIC and the
CAIC is
lim
n,p→∞,p/n→c0
P (ˆjb = j∗ ) =
lim
n,p→∞,p/n→c0
where
S− = {j ∈ J | k∗ − kj > 0}.
.
P (ˆjo = j∗ ) = 1,
Inconsistency of the BIC and the CAIC
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
If Θ∗ is not full–rank and γj < c0 (k∗ − kj ) for some j ∈ S−
lim
n,p→∞,p/n→c0
P (ˆjb = j∗ ) =
lim
n,p→∞,p/n→c0
under
the Assumption 1, 2 and 4.
.
P (ˆjo = j∗ ) = 0
Consistency when the number of candidate models
become large
統計理論グ
ループの研究
紹介
若木 宏文
.
A high-dimensional and large model framework
.
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
n → ∞,
p
→ c0
n
p → ∞,
P(ˆj = j∗ ) = 1 −
K = #J → ∞
∑
P(ˆj = j)
j∈J \{j∗ }
We have to evaluate the order of P(ˆj = j) for j ∈ J \{j∗ }
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
Theorem 3
.
A sufficient condition for the consistency of IC(j) is
.
k
Assumption 1 maxj∈J nj → 0
Assumption 2 K = o(pℓ ) for some positive integer ℓ
Assumption 3
+ c−1
n,p log (1 − cn,p ) > ∃δ > 0
for all overspecified model j
m(j)−m(j∗ )
p(kj −k∗ )
Assumption 4 λj,q /q 2 > nδ1
β
)−m(j)
− m(j+qn
> δ2
log n−p−kj q,j
+ +(q+1)/2
for some δ1 > 0, δ2 > 0 and q
.
λj,1 ≥ λj,2 ≥ · · · : the eigen values of Γj ΓT
j
∏q
1/q
1 ≤ q ≤ γj = rankΓj
. βj,q = ( i=1 λj,i )
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
.
Corollary 4
.
Assume k∗ is bounded, Assumption 1 and 2 holds.
λj,1
n →∞
λj,1
is consistent if n → ∞ and np → c0
λ
and CAIC are consistent if nj,1
2 → ∞
(i) AICc is consistent if
(ii) AIC
(iii) BIC
kj
n
o(pℓ )
∈ [0, ca )
Assumption 1 maxj∈J
→0
Assumption
2 K=
.
for some positive integer ℓ
統計理論グ
ループの研究
紹介
若木 宏文
統計理論グ
ループの最近
の研究
多変量線形回
帰モデルにお
ける変数選択
規準の一致性
ご清聴ありがとうございました