SLR

SLR (Sparse Logistic Regression) 田中 美里 山本 詩子 廣安 知之 2015 年 1 月 6 日 IS Report No. 2015010601 Report
Medical Information System Laboratory Abstract
本報告では,脳機能計測データの解析技術の一つである SLR (Sparse Logistic Regression) の手順に
ついて,その概略を示す.SLR はロジスティック回帰分析によって認知機能の推定を行うクラス分
類手法の一種であり,ベイズ推定による拡張を行うことで有効でない変数の削減を行うことができ
る.本報告においては,ロジスティック回帰分析,ベイズ推定,ベイズ推定を用いた ARD(Automatic
Relevance determination) による変数選択の流れについて,その概要を説明する.
キーワード: functional Magnetic Resonance Imaging, Sparse Logistic Regression, Classification,
Machine Learning, Autoencoder
目次
第 1 章 はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
第 2 章 ロジスティック回帰 . . . . . . . . . . . . . . . . . . . . . . . .
3
2.1
回帰分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2.2
ロジスティック回帰分析 . . . . . . . . . . . . . . . . . . . . . .
3
2.3
多項式ロジスティック回帰分析 . . . . . . . . . . . . . . . . . . . .
4
2.4
ロジスティック回帰分析の制約 . . . . . . . . . . . . . . . . . . . .
5
第 3 章 ARD (Automatic Relevance determination) . . . . . . . . . . . . . .
6
3.1
ベイズ推定 . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
3.2
ARD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
第 1 章 はじめに
SLR (Sparse Logistic Regression) は高次元データのクラス分類を行う統計的解析手法の一種である
1)
.ロジスティック回帰分析をベースとし,これにベイズ推定による拡張を行うことで,トレーニ
ングデータから目的変数に対する影響の弱い説明変数を削除することができる.fMRI (functional
Magnetic Resonance Imaging) の解析においては,視覚野の活動からの網膜情報の再現 2) や,音楽
やスピーチに対して親和性を感じるか否か 3) を推定する研究などがある.また,他分野においても
病気に関連する遺伝子の選択 4) ,急性白血病のリスクの推定 5) ,脳構造の Segmenation6) などに用
いられている.
本レポートでは,2 章において SLR の理解に必要となる回帰分析の概念やロジスティック回帰分析
について説明する.3 章においてベイズの定理について述べた後,ベイズによってロジスティック回
帰分析の変数選択を行う ARD (Automatic Relevance determination) について述べる.
なお,本レポートにおける SLR のアルゴリズムについては 2008 年の Yamashita の論文を参考に
している 1) .
2
第 2 章 ロジスティック回帰
2.1
回帰分析
回帰分析とは,従属変数(Regressand)と連続尺度の独立変数(Regressor)の間に式を当てはめ,
従属変数が説明変数を用いることでどの程度説明できるのかを定量的に分析する手法である.従属変
数は目的変数とも呼ばれ,説明したい変数である.その説明のために必要な変数が,独立変数であり,
説明変数,または計画行列とも呼ばれる.
例えば,ある集団 (i = 1, 2, ...) の身長 x1 (x11 , x12 , ...) と体脂肪率 x2 (x21 , x22 , ...) に対し,体重
Y (y1 , y2 , ...) との因果関係が予想される場合,両者の関係性を示す β は,線形回帰分析において式 2.1
のように示される.X = (x1 , x2 ) としている.
Y = Xβ + ϵ
(2.1)
β は身長から体重を推定するための偏回帰係数 (partial regression coefficien) であり,多くの場合,
最小二乗法によって求められる.Xβ で説明しきれない誤差は回帰残差 ϵ として説明される.Fig. 2.1
に回帰分析の例として,体重と身長をピックアップしたものを示す.最小二乗法によって最も回帰残
差 ϵ が小さい線が引かれ,この直線の傾きが β1 であり,切片が β0 である.
Fig. 2.1 Example of Regression(自作)
回帰分析の説明変数が 1 つならば単回帰分析,2 つ以上ならば重回帰分析という.また,1 次式の
モデルを用いる線形回帰分析と,その他のモデルを用いる非線形回帰分析がある.後述するロジス
ティック回帰分析は後者の非線形回帰の一種である.
2.2
ロジスティック回帰分析
ロジスティック回帰分析はクラス分類手法の一種であり,従属変数が二値(あり/なし,1 または
0)の場合に用いられる分析手法である.独立変数については,連続値でもカテゴリ変数でもよい.
3
2.3 多項式ロジスティック回帰分析
第 2 章 ロジスティック回帰
ロジスティック回帰分析は主に医学や社会科学の分野で利用されている.例えば,病気の発生確率
を推定する場合,薬の服用量や体重などを説明変数にとって発生確率を推定する.また, キャンペー
ン商品の購入の有無などを従属変数とした場合,収入や来店頻度などを独立変数として用いるなどし
て,マーケティング戦略に応用することもできる.
式 2.1 をロジスティック回帰分析に従って書き換えると式 2.2 のようになる.ロジスティック回帰分
析では従属変数 Y が 2 値の場合に用いられるため,式 2.1 の線形回帰式を用いると計算結果が 1 を
上回る,または 0 を下回るケースが考えられる.それを抑えるためにロジスティック回帰分析では式
2.2 に示すように,左項を
Y
1−Y
の自然対数(ln)とすることで,Y が必ず 0 から 1 の範囲に収まるよ
うに書き換えられている.
ln {
Y
} = Xβ + ϵ
1−Y
(2.2)
式 2.2 をさらに書き換えたものが,式 2.3 と 2.4 である.ここでは従属変数 Y を確率値 p として表
記している.X は従属変数のベクトルであり,xi がその各変数となる.β が求められたとき,式 2.3
の p は入力されたデータ X の識別結果となる.すなわち入力データ X がクラス C に所属する確率
P (Sc |X) を示すものとなる,病気の発生確率を例に挙げると,クラス C が発病クラスであり,C へ
の所属確率が発病リスクであると捉えることができる.
p=
1
= P (Sc |X)
1 + exp(−f (X; β))
f (X; β) =
N
∑
xi βi + β0
(2.3)
(2.4)
i=1
β の推定は式 2.5 の最大化によって行う.識別結果の分かっている N 個の訓練データ Xi (i = 1, 2, ...N )
が存在するとき,その入力ベクトル Xi と出力値 Yi を以下のように直積 Π(Product)で表現する.
このとき,Yi はそのデータが所属するクラスに基づいて 1 か 0 の値をとり,クラス 1(例:発病する)
に所属する場合は P (1|Xi ; β),クラス 0(例:発病しない)に所属する場合は P (0|Xi ; β) となる.こ
の直積の演算結果が最大となるように,パラメータ β を推定する.
maximize
N
∏
P (Yi |Xi ; β) = P (Y1 |X1 ; β) ∗ P (Y2 |X2 ; β) ∗ ... ∗ P (YN |XN ; β)
(2.5)
i=1
β の推定のためにはさらにこの式を,式 2.6 のように変換し,最尤推定法や最小二乗法を適用する.
主な最尤推定の手法としてはニュートン法(ニュートン・ラフソン法),フィッシャーのスコア法,EM
アルゴリズムがあるが,本レポートではニュートン法を中心に話を進める.
ln β =
N
∑
[Yi logpi + (1 − Yi )log(1 − pi )]
(2.6)
i=1
2.3
多項式ロジスティック回帰分析
多項式ロジスティック回帰分析 (MLR: Multinomial Logistic Regression) は,ロジスティック回帰
分析を多クラス分類へと拡張した手法である.多項式ロジスティック回帰分析では,各クラスがそれ
4
2.4 ロジスティック回帰分析の制約
第 2 章 ロジスティック回帰
ぞれ式 2.3 の推定式を持つ.この推定式から,2.5 を用いたときと同様に各クラスへ正しく所属する
確率を最大化して重みパラメータである β を求める.推定式においては,各推定式の出力された結果
の中から推定値が最も高いクラスへとデータが識別される.
2.4
ロジスティック回帰分析の制約
ロジスティック回帰分析には,過剰適合などを避けるためにトレーニングに用いるデータ数が独立
変数の 10 倍を超えることが望ましいとされている 7) .これは最尤推定に用いられるニュートン法の,
二階偏微分行列であるヘッセ行列を求めることが難しくなるためである.しかし,fMRI データを用
いた認知機能の推定などの問題においては,独立変数としてボクセルの輝度値や,それらが統計的に
処理された値などが用いられる.このため,独立変数の数に比べて,実験の回数であるデータ数が圧
倒的に少なくなる傾向があり,ロジスティック回帰分析や多項式ロジスティック回帰分析をそのまま
適応することができない.そのため,独立変数を削減するための仕組みが必要となり,SLR において
採用されているのが ARD(Automatic Relevance determination) である.
5
第 3 章 ARD (Automatic Relevance determination)
3.1
ベイズ推定
ベイズ推定とはある証拠に基づいて,その原因となった事象を推定するための確率論的方法である.
また統計学に応用されてベイズ統計学の代表的な方法となっている.ベイズ推定は,確率論の定理で
あるベイズの定理に基づいて行われ,事前確率と事後確率から,ある観測結果が得られたときの事後
確率を推定することができる.式 3.1 にベイズの定理を示す.
P (B|A) =
P (A|B) ∗ P (B)
P (A)
(3.1)
ここで P (A) は事象 B が起ころうが起こるまいが,事象 A が発生する確率で周辺確率とよぶ.P (A|B)
は事象 B が起こったときに事象 A が起こる確率で,条件付き確率とよばれている.
たとえば,パソコンが突然動かなくなった場合の原因とその確率を推定する問題があるとする.パ
ソコンの故障の原因としては,OS・ソフトウェアのエラー,デバイスの故障,ウイルスの侵入など
が候補として考えられる.このときパソコンが動かなくなる事象 A の発生確率が P (A) = 0.01,OS・
ソフトウェアのエラーが起こる事象 B の発生確率が P (B) = 0.02 であることが一般的に知られてい
るとする.このような具体的な観測データ,証拠がない条件で,ある変数について知られていること,
すなわち先験的知識に基づく確率のことを事前確率とよぶ.さらに,エラーが発生した際にパソコン
が動かなくなる確率は実際に P (A|B) = 0.3 だった.
(これはエラーが発生しても 0.7 の確率でパソコ
ンは稼働し続けていたことも意味している.
)このような観測された確率のことを事後確率とよぶ.以
上の条件において,パソコンが動かなくなった原因としてエラーが原因である確率 P (B|A) は,下記
の通りに 60%として推定することができる.
P (B|A) = (P (A|B) ∗ P (B))/P (A) = (0.3 ∗ 0.02)/0.01 = 0.006/0.01 = 0.6
(3.2)
このベイズ定理を用いた推定は,迷惑メールの発見や情報のフィルタリングに用いられている.
3.2
ARD
SLR では ARD によって独立変数の削減を行っている.先述したように,ロジスティック回帰分析
ではデータ数が独立変数の数よりも大きいことが求められるため,fMRI データをそのまま解析する
ことはできない.従って,重み β に対して,何らかの制約を課す必要がある.この対策としてよく用
いられるのが,L2 正則化や,事前分布としてのガウス関数を用いる手法である.SLR の前身である
RLR(Regularized Logistic Regression) では後者を採用している.
RLR における事前分布の表記は式 3.3 の通りである.この式は,ハイパーパラメータとよばれる α
の値に対する,重みパラメータ β の条件付き確率を表す事前確率である.N (0, σ) は平均が 0,分散
が σ のガウス分布を表現し, ID は D 次元の単位行列である.したがって,αi−1 ID は α の逆数の単
6
第 3 章 ARD (Automatic Relevance determination)
3.2ARD
位行列から生成されたガウス分布行列となる.よって,β がガウス乱数的に定まっており,α の値が
大きくなると β が 0 となる確率が高くなり,一方で α の値が 0 に近づくと β の値が大きくなる.
P (β|α) = N (0, α−1 ID )i = 1, 2, ..., D
(3.3)
このように RLR は 1 つのスカラー値,ハイパーパラメータである α によって事前確率が定めら
れる.
一方で,SLR においては,変数毎に α を定めるものとなる.式 3.4 に SLR における事前分布の表
記を示す. βi は重みパラメータ β の i 番目の要素であることを示し,これが α の i 番目の要素によっ
て決まるときの条件付き確率を示している.
P (βi |αi ) = N (0, αi−1 )
i = 1, 2, ..., D
(3.4)
この αi の事前確率は下記のように示されるもので,先験的知識はないものとなっている.
P (αi ) = αi−1
i = 1, 2, ..., D
(3.5)
この変数毎に存在する αi が,最尤推定の過程で無限に収束していくと,βi が 0 へと近づいていく.
この場合,ある変数に対する重みが 0 となるので,自動的にその独立変数が削減されることになる.
これが ARD の基本的な流れとなる 8) .
推定においては,ベイズ推定やラプラス変換を用いる.詳細は割愛するが,Y ,X が与えられたと
きの β ,α は,P (α) が定まると P (β) が決定され,P (β) の事後確率が求められると P (α) の事後確
率を求めることができる.これらの計算を繰り返し行い,2.2 に示す推定式を算出する.
7
参考文献
1) O Yamashita, MA Sato, T Yoshioka, F Tong, and Y Kamitani. Sparse estimation automatically
selects voxels relevant for the decoding of fMRI activity patterns. Neuroimage, Vol. 42, No. 4,
pp. 1414–1429, 2008.
2) Y Miyawaki, H Uchida, O Yamashita, M Sato, Y Morito, H C Tanabe, N Sadato, and Y Kamitani. Visual image reconstruction from human brain activity using a combination of multiscale
local image decoders. Neuron, Vol. 60, No. 5, pp. 915–929, 2008.
3) S Ryali, K Supekar, D A Abrams, and V Menon. Sparse logistic regression for whole-brain
classification of fMRI data. NeuroImage, Vol. 51, No. 2, pp. 752–764, 2010.
4) L Yong, L Cheng, L Xin-Ze, L Kwong-Sak, C Tak-Ming, X Zong-Ben, and Z Hai. Sparse logistic
regression with a L1/2 penalty for gene selection in cancer classification. BMC bioinformatics,
Vol. 14, No. 1, p. 198, 2013.
5) T Manninen, H Huttunen, P Ruusuvuori, and M Nykter. Leukemia prediction using sparse
logistic regression. PloS one, Vol. 8, No. 8, p. e72932, 2013.
6) HC Shin. Hybrid clustering and logistic regression for multi-modal brain tumor segmentation.
In International Conference on Medical Image Computing and Computer Assisted Intervention,
2012.
7) P Peduzzi, J Concato, E Kemper, T R Holford, and A R Feinstein. A simulation study of the
number of events per variable in logistic regression analysis. Journal of Clinical Epidemiology,
Vol. 49, No. 12, pp. 1373–1379, 1996.
8) A C Fual and M E Tipping. Analysis of Sparse Bayesian Learning. In Advances in Neural
Information Processing Systems 14, pp. 383–389, 2002.
8