ロジステック判別とその最近の発展 「高次元データの解析」研究会@広島大学 2002.1.10-11 発表者: 江口真透 (統計数理研,総研大学院) 共同研究者:J. Copas (University of Warwick) 1 識別の例題 ● 文字認識 (OCR,郵便番号の自動読み取り) ● 音声認識 (電話自動予約、第二言語の教育) ● 画像認識 (土地利用区分・交通量計測・犯人捜査) ☆ 天気予測 (アメダス ,確率予報, 気象予報士) ☆ クレジットスコアリング (信用リスク,貸倒れ率) ☆ メディカルスクリーニング (電子カルテ, EBM) ☆ 鑑定問題 (DNA, 法的証拠) 2 識別問題 出力 入力 判別関数 から判別ルール 3 2値判別 入力 判別関数 出力 の符号を使って 判別ルール トレーニングデータ 判別関数 から を推定する. 4 確率的考察 同時分布 から 条件付き分布は ベイズルール 5 推定的 vs 予測的 トレーニングデータ 1. Estimative 2. Predictive 6 指数型モデル Bayes rule 7 推定的 vs 予測的 @ 指数型モデル 1. Estimative 2. Predictive Okamoto (1963), Efron (1975), Siotani, Hayakawa, Fujikoshi (1985) Wakaki (1990), MaLachlan (1992), Bishop (1995), Nishii and Tanaka (1999) 8 全尤度 vs 条件付尤度 全尤度 条件付き尤度 9 判別関数のロス s の単調増加関数 U(s) と V(s) を取ってくる. 判別関数 に対するロスを と定めよう. が小さなロス D をもつためには を大きく, かつ を小さくすればよい. 10 エラーレイト エラーレイト は あるロス D(S) と等価 ここで H(s) は Heaviside 関数, 11 ロスの Bayes 最適性 定理1 ロス D( S ) の生成関数 U(s) と V(s) が を満たすならば D( S ) は をもつ.ここで のとき最小値 は Bayes ruleの判別関数. 12 証明 13 経験ロス が得られた. トレーニングデータ パラメトリックな判別関数 に対する経験ロスは と計算できる. を求めて,判別関数を と提案する. 14 ロジスティック・ロス 条件付き期待尤度 ここで 15 エラーレイト (2) 2値判別において エラーレイトは2種の誤りからなる. フォールス・ネガティブ フォールス・ポジティブ ここで u は閾値. 16 エラーレイトに関連したロス クレジットスコアリング 診断のスクリーニング 17 ROC曲線 ジニ係数 A 18 推定方程式 期待値版 経験版 ここで ロジスティック 重み付け最小2乗法 glm(formula, family = binomial, data, weights =W,・・・ ) 19 Neyman-Pearson 補題, 再訪 (u) err(S , u) err(, u) ここで err( ) 1FP( , u) 0 FN( , u) Neyman-Pearson 補題 (u) 0 ( u R ) d (, S ) (u)w(u)du ( w(u) 0) [ cf. http://www.ism.ac.jp/~eguchi/recent_frame.html ] 20 ダイバージェンス u U (u) w(s)ds , 定理 2. d (S, ) u V (u ) exp(s)w(s)ds d (, S ) D( S ) D( ) d の非負性から D( S ) D( ) D( S ) err(S , u) w(u)du 21 Fisher一致性 の分布につぎを仮定: 定理 3. このとき、 証明. 定理1より が D(S) を最小にする. 仮定から 22 漸近近似 トレーニングデータの分布に次の仮定をする. は, 23 漸近分布 ここで 24 漸近効率 1 1 ˆ var ( ) J ( )V ( ) J 1 ( ) n A 漸近分散 Cramer-Rao type 不等式 1 1 T ˆ var ( ) E{ p(1 p )x x } n A 等号は (ロジスティック判別)に限る. 25 リスク評価(モデルが正しい場合) 期待 ロス Risk( ˆ , D) I{D( ˆ )} トレーニングデータの分布に対する の仮定のもとで は 1 ˆ ˆ Risk ( 1 , D ) Risk ( 0 , D ) o( ) ( D ) n 26 リスク評価(モデルが誤りの場合) トレーニングデータの分布に次の仮定をする. 1 2 (x) T x O(n ) このとき, 1 ˆ Risk( 1, D) D( 1 ) 2 tr{varA ( ˆ 1 )Hesse(D)} ここで 1 argmin D1 ( ) 27 判別ルールのαファミリィ ターゲットのリスク risk( , D ) ロスのαファミリィ D ( ) (1 )D( ) D0 ( ) 判別関数のαファミリィ S (x , ˆ ) ˆ arg min Demp ( ) arg min D ( ) 28 α opt の存在 定理 4. (概証) 29 α optの推定 提案: 30 α optの推定の実際 leave-one-out 近似: 31 ロジスティック判別の破綻 つぎのケースを考えよう: このとき, の解となり,ロジスティック判別は破綻. それ以外の方法では 32 シミュレイション 経験ROCカーブの下側面積 経験ROCカーブ 33 シミュレイションの結論 ターゲットロスをROCカーブの 下側面積 α-法を を考えよう. ROCカーブの下側面積 は から によって A = 0.99 最適α=0.7 34 α-エラーレイト法 閾値 u のエラーレイト 35 α-エラーレイト法のスムージング s s 36 α-エラーレイト法のウェイト 0.90 0.50 -1.5 1.5 s 37 乳がん診断データ n = 683 悪性のケース (y=1) 239 人 良性のケース (y=0) 444人 www.ics.uni.edu/mlearn/MLSummary.html 腫瘍の細胞の特性 9項目,10点評価 2. Clump Thickness 3. Uniformity of Cell Size 4. Uniformity of Cell Shape 5. Marginal Adhesion 6. Single Epithelial Cell Size 7. Bare Nuclei 8. Bland Chromatin 9. Normal Nucleoli 10. Mitoses 38 解析 Fix u st FN(u , S ( , ) ) 0.01 ターゲットのリスク FP(u, S ( , )) 0.15 arg min cv( ) 0 1 1 cv( ) yi H ( S (xi , ˆ ) e(xi , ˆ ) u) n ただし 39 解析結果 opt 0.15 によって フォールス・ポジテブを 0.435 から 0.423 に改良できた. 40 ブースティング法 入力 出力 ブースティング 弱学習機 Bishop (1995), Friedman, Hastie, Tibishirani (2000), Schapire, Bartlett, Lee (1998) Hastie, Tibishirani, Friedman (2001), Lebanon, Lafftry (2001), Schapire (1990). 41 AdaBoost とは? 更新則: (t = 1, …, T) 1. トレーニングデータに重み 2. 3. をかけて次を求める. を計算する と更新. 42 AdaBoost の特徴 出力: 43 AdaBoost のロス とおくと がなりたつ. 44 U ブーストとは? つぎのロスを考えよう ここで U(s) は を満たすと仮定する 更新則: ( t = 1, …, T ) 45 U ブーストの特徴 定理 5. より 46 おわりに 判別関数 S (x ) のロスのクラスを D( S ) err(S , u) w(u)du と提案し,経験量の陽な形導出された. D によるリスク関数を規準にするとき, D ( S ) (1 )D0 ( S ) D( S ) , 0 1 の中から最適なαを選ぶ方法が考察した. 47 参考文献(1) Bishop, C. (1995),.Neural Networks for Pattern Recognition, Clarendon Press, Oxford. Eguchi, S. and Copas, J. (1998). A class of local likelihood methods and nearparametric asymptotics. J. Royal Statist. Soc. B, 60, 709-724. Eguchi, S. and Copas, J. (2001). Recent developments in discriminant analysis from an information geometric point of view. J. Korean Statist. Soc. 30, 247264 (2001). (The special issue of the 30th aniversary of the Korean Statist. Soc) Eguchi, S. and Copas, J. (2002). A class of logistic type discriminant functions. In press Biometrika 89. (http://www.ism.ac.jp/~eguchi/recent_preprint.html) Efron, B. (1975), The efficiency of logistic regression compared to normal discriminant analysis. J. Amer. Statist. Asoc.70, 892-898. Friedman, J., Hastie, T. and Tibishirani, R. (2000). Additive logistic regression: A statitistical view of boosting. Ann. Statist. 28, 337-407. 48 参考文献(2) Hastie, T. Tibishirani, R. and Friedman J. (2001). The elements of statistical learning. Springer, New York. Lebanon, G. and Lafftry, J. (2001). Boosting and maximum likelihood for exponential models. to appear in Advances in Neural Information Processing Systems (NIPS), 14, 2001. (http://www-2.cs.cmu.edu/~lafferty/) MaLachlan, G. J. (1992). Discriminant analysis and statistical pattern recognition. Wiley, New York. Nishii, R. and Tanaka, S. (1999). Accuracy and inaccuracy assessments in landcover classification, IEEE Tans. On Geosci. Remote Sens. 37(1), 491-498. Okamoto, M. (1963), Asymptotic expansion for the distribution of the linear discriminant function. Ann. Math. Statist. 34, 1286-1301. Schapire, R. (1990). The strength of the weak learnability. Machine Learning 5, 197-227. 49 参考文献(3) Schapire, R. Freund, Y, Bartlett, P. and Lee, W. (1998). Boosting the margin: a new explanation for effectiveness of voting methods. Ann. Statist., 26, 1651-1686. Siotani, M., Hayakawa, T. and Fujikoshi, Y. (1985). Modern Multivariate Statistical Analysis: A Graduate Course Handbook. Columbus, Amercan Science Press. Wakaki, F. (1990), Comparison of linear and quadratic discriminant functions. Biometrika 77, 227-229. 50
© Copyright 2024 ExpyDoc