統計手法アラカルト Answer Tree 高寺 寿恵 行動計量学講座3回生 What’s Answer Tree? データマイニング 決定木 何ができるのか 何がわかるのか Answer Treeとは not 統計イチ手法 データマイニング用の統計解析ツール SPSSの拡張モジュール(っていうのかな?)。 SPSSには入ってないのです。(別で買わなきゃ) 決定木による分析というものを行うためのも のなのです。 ……と言われても何のことだかさっぱり? 2002/11/13 統計手法アラカルト・AnswerTree 3 まず、データマイニングとは 万単位の大量のデータを扱うための統計手 法のイチ分野の名前 変数多し、サンプル数多し。 多変量解析の分野に入るのでしょう。 データマイニングの特徴は 厳密な分析は、おいておく、ということ。 いくらパソコンが発達しても、ん万単位のデータ(し かも何種類もある)には追いつきません。 要するにサンプルサイズはでかいは、標本数は多 いわ、ということで、厳密に計算している時間も惜し いのです。 2002/11/13 統計手法アラカルト・AnswerTree 4 そこで、モットーは データマイニングのモットーは ちょっとした手間で 結果がすぐわかって 2002/11/13 =分析にかけるコストが少なくて 白書や年鑑のように結果出るまで1年とかじゃ、 乗り遅れます。 大量のデータから、有益な情報を 効率よく拾い出せたらいいな、というもので す。 統計手法アラカルト・AnswerTree 5 One of 手法 決定木による分析 2002/11/13 って何ですか? 人工知能(コンピュータの学習システムを 使って) 既存のデータから決定規則を見つけ 分類を行ってくれるものです。 その分類を示してくれるのが決定木。 統計手法アラカルト・AnswerTree 6 簡単に言うと 複数の変数を持つデータを ある変数について分類をしたいときに、それ 以外の変数のデータをもとに、分類規則を 見つけ、それにより分類してくれるのが決定 木による分析 2002/11/13 分類したい変数は、質的変数・量的変数OK 説明変数(分類する基準になる変数)も、質的、 量的ともにOK 統計手法アラカルト・AnswerTree 7 まぁ要するに 一つのデータはいろいろな変数(属性)を持 ちますが、ある一つの変数が○○であるの は、その他の変数がどういう場合か、とかい うのがわかるのです。 そして その分析をビジュアルにやってくれるのが Answer Treeなのです! 2002/11/13 統計手法アラカルト・AnswerTree 8 AnswerTreeの見た目 2002/11/13 統計手法アラカルト・AnswerTree Answer Treeの 出力は左 これを決定木と いいます。 分類規則を表し た樹木図になっ ています。 9 決定木の意味 決定規則を表す図 スタートは一番上、サンプル(データ)内の全 ての観測結果を含むルートノード そこから分類がスタート。 樹木の下方向に進むにつれ、データは相互 に排他的なデータのサブセット(=一部)に 分岐していく。 2002/11/13 要するに、樹木の下に進めば進むほど、同じも のばかりの集合に分かれていきます。 統計手法アラカルト・AnswerTree 10 決定木の意味・補足 ノードとは ある説明変数>a(特定の値)、 説明変数<a, (≧、≦、=もあり) などで定義されたケースのみに よる集合(=サブセット)を表す 樹木の一部分 ケース(=オブザベーション) 1観測対象から複数の変数の データが得られます。1観測対 象から得られたデータ全体を1 オブザベーションといいます データ入力するときの行に相当 ルートノード 2002/11/13 樹木の一番上 (開始点) ルートノード 花弁の長さ(説明変数の1つ)を >2.45(特定の値に指定)すること で、ケースの定義を行う。 統計手法アラカルト・AnswerTree 11 そして、それで何ができるのか? セグメンテーション(区分け、細分化) 層別化 ケースを複数のカテゴリの一つにわりあて 予測 特定のクラスのメンバと判別できる人を識別 規則を作成し、将来のイベントを予測する など 応用例1 ダイレクトメール 2002/11/13 人口統計上のどういうグループ(年齢や性別や地 域など)が最も応答率が高いか? 統計手法アラカルト・AnswerTree 12 何ができるのか?2 応用例2 2002/11/13 市場分析 場所、価格、顧客の特性のどれが売上げに関係してい るか? 品質管理 製品の製造データから、製品の欠陥を判別する変数を 特定 そのこころは セグメント(区分)、パターン(傾向)の見極め 結果に影響する重大な要素の見極め 確実な決定規則 データから有益なモデルを生成 統計手法アラカルト・AnswerTree 13 2.AnswerTreeの具体例 具体例(アヤメの分類) 品種 萼の長さ 萼の幅 花弁長 花弁幅 目的 形態(萼の長さ・花弁長など)に 基づいて、3種のアヤメを識 別する データはこんなの →→→→ 1-setosa, 2-versicolor, 3-virginica 全てアヤメの品種 サンプルサイズは150 具体的な操作に関しては あとで説明。 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 5.10 4.90 4.70 4.60 5.00 5.40 4.60 5.00 4.40 4.90 5.40 4.80 4.80 4.30 5.80 5.70 5.40 5.10 3.50 3.00 3.20 3.10 3.60 3.90 3.40 3.40 2.90 3.10 3.70 3.40 3.00 3.00 4.00 4.40 3.90 3.50 1.40 1.40 1.30 1.50 1.40 1.70 1.40 1.50 1.40 1.50 1.50 1.60 1.40 1.10 1.20 1.50 1.30 1.40 .20 .20 .20 .20 .20 .40 .30 .20 .20 .10 .20 .20 .10 .10 .20 .40 .40 .30 (以下略) 2002/11/13 統計手法アラカルト・AnswerTree 15 具体例(アヤメの分類)・2 データから樹木を作成します C&RT(使用アルゴリズム) どういった基準で分類するか、ということで、 AnswerTreeには選択できる統計的な計算の方法 が4種あります。 目的変数は品種 説明変数は残り全部 萼の長さ・幅 花弁の長さ・幅 2002/11/13 統計手法アラカルト・AnswerTree 16 具体例(アヤメの分類)・3 データから樹木を作成 目的変数・説明変数指定以外に 停止規則の設定 つまりどこまで樹木をさせるか=どこまで細かく ケースを分類するか 今回の例では 層:5 親ノード(に含まれるケース数):5 子ノード(〃) :2 2002/11/13 親ノード…下に分岐したノードがくっついているノード 統計手法アラカルト・AnswerTree 17 分析結果 最初は、ルートノード(ノード0のみ)が表示 樹木モデル(付録参照) →メニューバーの[樹木(T)]>[樹木の成長]ま たは、【 】をクリックすると付録のような樹木に なります。 第一分岐は、ノード0からノード1&2へ C&RTの場合、分岐点では、2つに分岐します。 2002/11/13 C&RTはそういうアルゴリズムなのです。 統計手法アラカルト・AnswerTree 18 分析結果・2 ノード0からノード1、2への分岐 花弁の長さが2.45以下かそれより長いか 2.45以下は、全てsetosaというアヤメ 2.45以上でversicolorとvirginicaが混在 ノード1は全てsetosaなので、これ以上分岐しま せん。 これ以上分岐しない(できない)ノードを ターミナルノード、といいます。 2002/11/13 統計手法アラカルト・AnswerTree 19 分析結果・3 ノード2からノード3、4への分岐 花弁の幅が1.75以下かそれより大きいか 1.75より大きいのはほとんどがvirginica (97%) 1.75以下は、versicolorがほとんど(90%) ノード4からノード7、8へは… 花弁の長さ→4.84が分類の境界ライン 4.84より大は全てvirginica 4.84 以下はうまく分けれず… 2002/11/13 統計手法アラカルト・AnswerTree 20 分析結果・4 ノード3からノード5、6へは 花弁の長さ・4.95 4.95以下は、versicolor 4.95より大は上手く分けれず そこで、ノード6からノード9,10へは 花弁の幅、1.55以下はvirginica >1.55はversicolor…? ちなみに 2002/11/13 分岐では、ある説明変数による定義を繰り返し 使えます。(但し、指定する値は異なります・当然) 統計手法アラカルト・AnswerTree 21 3.0 花弁 の幅 2.5 アヤメの分布 データの散布図 2.0 長さ>2.45 幅>1.75 virginica:97% (n=45) versicolor:2%(n=1) ≦2.4500 1.75 1.5 setosa 1.0 100% (n=50) さらに長>4.84 virginica 100%, (n=43) さらに長≦4.84 versicolor virginica .5 :n=1,(33.3%) :n=2,(66.7%) .0 0 2002/11/13 1 2 2.45 3 4 4.84 5 統計手法アラカルト・AnswerTree 6 花弁の 長さ 7 22 2.0 花弁 の幅 1.8 1.75 1.6 1.55 1.4 アヤメの分布 1.2 長>4.95∩ 幅>1.55 1.0 花弁の長さ≦4.95 長>4.95∩ ノード3 versicolor : 幅≦1.55 versicolor : 97.92%, (n=47) virginica 90.74%, (n=49) .8 .6 virginica : .4 100%, (n=3) virginica 2.08%, (n=1) : .2 Here! versicolor n=2, (66.67%) ノード6 virginica n=1, (33.33%) 花弁の 長さ 9.26%, (n=5) .0 2 2.45 2002/11/13 3 4 4.95 5 統計手法アラカルト・AnswerTree 6 7 23 全部あわせると 3.0 花弁 の幅 アヤメの分布 2.5 ・・・こんな感じ↓ versicolor : n=1,(33.3%) virginica : 花弁長 ≦2.4500 2.0 virginica 100%, (n=43) n=2,(66.7%) 1.75 1.5 setosa 100% 1.0 (n=50) .5 1.55 versicolor : n=2 virginica : n=1 幅≦1.75∩長さ≦4.95 versicolor : virginica 100%, (n=3) 97.92%(n=47) 花弁の 長さ virginica :n=1 .0 0 2002/11/13 1 2 2.45 3 4.84 5 統計手法アラカルト・AnswerTree 4.95 4 6 7 24 樹木図に戻って 分岐ごとに表記されている改善度とは? その分岐(当該分岐)によって、樹木の予想パ フォーマンス(この場合どれだけ適切に分類でき るか)が、どのくらい改善されるかを表す指標。 つまり誤分類率がどれぐらい減るか、ということ しかしながら、数値の値がどれぐらいだと意味があ るのか、などということは(私には)不明…。 但し、分岐しても分岐後のノードの分類に改善が見 られないような場合には、改善度は0(小数第4位ま で)になることは確認。 改善度0の分岐は、通常の操作では起こりません。 2002/11/13 強引にすれば出てきますが… 統計手法アラカルト・AnswerTree 25 モデルの評価→誤分類誤差 2002/11/13 このモデルがアヤメの種類をどれぐらい正確に予測して いるか? 対角線=正しく分類された数 推定誤差=誤分類された分類の比率 樹木ウィンドウの[誤差]タブで 統計手法アラカルト・AnswerTree 26 樹木図から、ルールの作成 決定木により、すべてのケース(オブザベー ション)がターミナルノードに分類される。 中にはちゃんと分類できてないのもあるけれど 全オブザベーションには適応できないけど、 個別に使える便利な知識 ルールの作成(抽出) 2002/11/13 統計手法アラカルト・AnswerTree 27 アヤメ分析におけるルール setosa分類規則 versicolor分類規則 2002/11/13 もし花弁の長さ≦2.45ならsetosa もし花弁長>2.45かつ、花弁幅≦1.75、かつ花 弁長≦4.95ならversicolor(47/48, 98%) 花弁長>2.45かつ、花弁幅≦1.75、かつ花弁 長>4.95ならversicolor(2/3, 66.7%) 統計手法アラカルト・AnswerTree 28 アヤメ分析におけるルール・2 virginica分類規則 2002/11/13 花弁長>2.45かつ、花弁幅>1.75かつ、花弁 長>4.84ならば、virginica(43/43, 100%) もし花弁長>2.45かつ、花弁幅>1.75かつ、花 弁長≦4.84ならば、virginica(2/3, 66.7%) もし花弁長>2.45かつ、花弁幅≦1.75かつ、花 弁長>4.95かつ、花弁幅≦1.55ならば、 virginica(3/3, 100%) 統計手法アラカルト・AnswerTree 29 まとめると setosa・・・花弁長≦2.45 versicolor 2.45<花弁長≦4.95, 花弁幅≦1.75 花弁長>4.95, 花弁幅≦1.75 virginica 花弁長>4.84、花弁幅>1.75 2.45<花弁長≦4.84、花弁幅>1.75 花弁長>4.95、花弁幅≦1.55 2002/11/13 ルールはターミナルノードの数だけできます。 有用なものだけを参照すればよいのです。 統計手法アラカルト・AnswerTree 30 3.AnswerTreeの使い方 用語解説(ノード) ノード(再録) ルートノード 説明変数に特定の値を指定することによって定義さ れたケースのサブセットを表す樹木の一部分 全てのデータを含む。目的変数に対してデータセット 全体の要約された情報を提示 親ノード…より小さいノードへの分岐元 子ノード…他のノードが分岐することで生じるノード ターミナルノード…それ以上分岐していないノード 2002/11/13 統計手法アラカルト・AnswerTree 32 用語解説(変数関係) カテゴリ 変数の値によって定義されたグループ 例)変数・アヤメの場合、カテゴリは、setosa・ virginica・versicolor 例)変数・年齢の場合、カテゴリ・18~20歳、20~ 22歳 カテゴリ変数 2002/11/13 連続量を基準として測定されるのではなく、異な る複数のグループに分類される 統計手法アラカルト・AnswerTree 33 用語解説(カテゴリ変数) 名義尺度or順序尺度 名義変数のカテゴリ 種類が異なる、順序付けをもたない 例)変数・色とすると、白、青などがカテゴリ その他、とか不明もカテゴリになる 順序変数のカテゴリ 2002/11/13 既知、または不明の数値による得点がカテゴリ と関連 前スライドの年齢などはコレ 統計手法アラカルト・AnswerTree 34 使い方・1 1. 起動→プロジェクト選択 新規プロジェクトを選択すると →データソースの選択 2. 2002/11/13 新規プロジェクトか既存(プロジェクト)の選択 AnswerTreeでは、あるサンプルから作成できる 樹木(分析)をひとまとめにしてプロジェクトとして 保存しています データを選択しましょう データを選択したら、樹木ウィザードが開 始されるので、それに沿って進みます。 統計手法アラカルト・AnswerTree 35 使い方・2 1. 樹木ウィザード(ステップ1/4) 分析に使用する、アルゴリズムを選択します。 分類に関する計算が少しずつ異なります。 用途に応じて選択を… アルゴリズム CHAID Exhaustive CHAID C&RT(CART) QUEST 2002/11/13 目的変数 名義、順序、量的 名義、順序、量的 名義、順序、量的 名義のみ 統計手法アラカルト・AnswerTree 分岐 2進木以上 2進木以上 2進木 2進木 36 使い方・2a(アルゴリズム詳細) CHAID(カイド・チェイド) Exhaustive CHAID 分類および回帰2進木 Classification and Regression Trees QUEST(Quick, Unbiased, Efficient, Statistical Tree) 2002/11/13 CHAIDを改善した方法 C&RT(又はCART) χ2乗による相互作用の自動検出 Chi-squared Automatic Interaction Detector 迅速で偏りがなく、効果的な統計樹木 統計手法アラカルト・AnswerTree 37 使い方・3 2. モデルの定義(樹木ウィザード2/4) モデルを定義するために、目的変数と説明変 数を選択します 目的変数→何に関して分類したいか 説明変数→分類の基準にする モデルの定義ウィンドウの左側にデータに含ま れる変数が表示 2002/11/13 目的変数としたいものを[目的変数]のところへド ラッグ 説明変数は、[他の全変数]と[ひとつずつ指定す る]方法が選べます。 統計手法アラカルト・AnswerTree 38 使い方・3a 使い方・注 2002/11/13 もしも、データが度数分布表のような様相を呈し ている場合は、その変数を右下の [度数の重み付け変数(R)]のところへドラッグ もしどこかで樹木ウィザードウィンドウを消してし まっても、大丈夫 [ファイル]の[新規樹木]をクリックすると、ウィ ザードが起動します。 統計手法アラカルト・AnswerTree 39 使い方・4 3. 検証(樹木ウィザード3/4) 2002/11/13 モデルの検証をするかどうかの選択 検証しない/検証する 検証する場合は テストサンプル法/交差検証法を選択 時間があれば、後述します 統計手法アラカルト・AnswerTree 40 使い方・5 4. 詳細設定(樹木ウィザード4/4) [詳細オプション]をクリックします。 各アルゴリズム共通は『停止規則』の設定 樹木構造を作成するときに、ノードの分岐を停 止する時期を決める基準 ルートからの階層 2002/11/13 ノードの数ではなく、何段階下に枝を伸ばすか どこまで詳しく分類したいかで設定。 デフォルトは3~5(アルゴリズムで異なる) 統計手法アラカルト・AnswerTree 41 使い方・5a ケースの最小数 ノードに含まれるケース数を指定します。 データのサンプルサイズに合わせて設定を。 親ノード…分岐元 子ノード…分岐元から分岐したノード。 デフォルトは親→100、子→50 「親~」の意味は、100以上のケース数がないノー ドは分岐しません 「子~」の意味は、分岐後のノードのケース数が50 未満になるなら、分岐しません、ということ。 2002/11/13 統計手法アラカルト・AnswerTree 42 使い方6 1. 2. 3. 2002/11/13 詳細オプションの[OK]>樹木ウィザードの [完了]をクリック。 ルートノードが表示されます。 メニューバーの[樹木]から[樹木の成長] または、 をクリック 樹木が成長し、決定木ができます。 統計手法アラカルト・AnswerTree 43 結果の見かた 分岐の見方に関しては、アヤメの例の通り 樹木図ウィンドウでは、他にも[ゲイン]、 [誤差]、[規則]、[要約]タブなどがあります。 [誤差]は誤分類率に関して 樹木ビューのゲイン…各ノードの統計量 2002/11/13 見方はスライド28 樹木ウィンドウの[ゲイン]タブ 統計手法アラカルト・AnswerTree 44 ゲインについて簡単な解説 2002/11/13 ノード・・・ターミナルノード(の統計量が出る) ノード(n)…そのノードの含まれるケース数 ノード(%)…ノードの内のケース数/総ケース数 ゲイン(n)…ノードの内に選択したカテゴリのケース数 ゲイン(%)…ゲイン(n)/選択カテゴリ総ケース 応答(%)…ゲイン(n)/ノード(n) インデックス(%)…応答(%)/(選択カテゴリ総ケー ス÷総ケース数) 統計手法アラカルト・AnswerTree 45 これさえわかれば、何とか AnswerTreeは使えるハズ! とりあえず、アヤメの例を最初から、 デモンストレーションしたいと思います。 とその前に… 参考文献・参考資料 AnswerTree 3.0J User’s Guide AnswerTreeのHP Inc.) 大滝 厚、堀江宥治、Dan Steinberg著 日科技連出版社、1998 金鉱を掘り当てる統計学 豊田秀樹 2002/11/13 http://www.spss.co.jp/product/ALL/A_tre e/algo.htm 応用2進木解析法―CARTによる― (SPSS 講談社ブルーバックス 2001 統計手法アラカルト・AnswerTree 47 Appendix アルゴリズム& 検証についての解説 アルゴリズム 2002/11/13 AnswerTreeで使用できるアルゴリズムは 4種。あまり詳しいことはわかっていません が、それぞれについて少し説明を。 統計手法アラカルト・AnswerTree 49 CHAID χ2乗統計量を用いて、最適な分岐を探索 χ2乗統計量を用いる、ということは説明変数が 量的な場合は? 説明変数が量的説明変数で数量尺度の場 合は、「区間」に分割し、カテゴリ変数化 それぞれに区間に当てはまるケース数がほぼ 同数になるように、AnswerTreeでは設定 2002/11/13 「区間」…いくつかの値の範囲 統計手法アラカルト・AnswerTree 50 CHAID、2 有意確率を利用して、説明変数を評価 目的変数に関して、 最良の説明変数を選択し、等質なグループ になるように構成 欠損値は、単一の有効カテゴリ。 2002/11/13 等質ならば値を結合 異質ならば、結合せず 欠損値は欠損値を持つケースでグループ 統計手法アラカルト・AnswerTree 51 CHAID、3 目的変数が 2002/11/13 量的変数のとき→F検定 名義変数のとき→2方向クロス表、Peasonの χ2乗検定、尤度比検定 順序変数のとき→連関モデルをあてはめ、尤度 比検定 統計手法アラカルト・AnswerTree 52 CHAID手順 1. 2. 3. 4. 5. 説明変数Xに対し、目的変数に関して相違の 有意性が小さい(p値は最大)Xのカテゴリペア p値が指定された有意水準αmergeよりも大きい →そのXのカテゴリを結合→1に戻る。 p値がαmergeよりも小さいとき、Bonferroniの 調整法を使用し、XのカテゴリとYのカテゴリの 集まりに対するp値算出 最小のp値をもつ説明変数X p値がαsplitより小さければ、Xのカテゴリの集まりに基 づき分岐 2002/11/13 統計手法アラカルト・AnswerTree 53 Exhaustive CHAID CHAIDを改善 説明変数ごとに可能な全ての分岐を調べる CHAID弱点克服 弱点 改善 2002/11/13 全てのカテゴリが統計的に異なる→カテゴリの結合 を停止→最適な分岐が見つからず 上位2カテゴリになるまで説明変数を結合 デメリット・膨大な計算、計算に時間がかかる 統計手法アラカルト・AnswerTree 54 C&RT 不純度を最小限に抑えるという考え方 2002/11/13 データを2つのサブセットに分割するとき、前の サブセットよりも子ノードが親ノードよりも純粋な ノードのなるように選択 純粋なノード…ノード内のケースの目的変数は 同じ値 「純度」…目的変数の値 統計手法アラカルト・AnswerTree 55 C&RT、2 分岐を見つける不純度が4種類 カテゴリ目的変数 Gini基準 Twoing基準 量的目的変数 2002/11/13 (順序変数のとき)順序測度によるTwoing基準 最小2乗偏差(LSD)法 統計手法アラカルト・AnswerTree 56 QUEST 多数のカテゴリを持つ説明変数に対して有利 χ2乗検定とF検定(Leveneの不等分散)を使用。 計算効率を高めるために開発 一番わからないアルゴリズムです・・・・・・ 2002/11/13 統計手法アラカルト・AnswerTree 57 AnswerTreeにおける検証と データマイニング データマイニングと普通の統計学との違い よく見る統計学は しかし、データマイニングで扱うデータは 2002/11/13 数少ないデータのときに、いかに正しく推定する か、ということが主眼 大量データに向いていない。 ひとつの標本で、推定もモデルの検証もする というもの とにかく大量! 統計手法アラカルト・AnswerTree 58 データマイニングは。 データマイニングでは データ数がめちゃくちゃ多い 無理して一つの標本で、推定も検証しなくても… そこで、データを推定用と検証用に分割して。 モデルを作成&検証する方法を 交差妥当化といいます。 2002/11/13 統計手法アラカルト・AnswerTree 59 検証の意義 樹木モデル生成だけど さらに大きなサンプル、別のサンプルを用い た場合、 どれだけ適切に一般化できるか調べたいと きが頻繁にアリ。 2002/11/13 そのときのデータを分類するのが目的ということ は少ない。 生成された樹木モデルの規則をもとに、予測を たてる、など。 統計手法アラカルト・AnswerTree 60 AnswerTreeにおける樹木モデルの 検証法 検証(樹木ウィザード2/4)にて設定。 データをサブサンプルに分割 テストサンプル法 サンプルサイズが大きいときに有効 交差妥当化の話のまんまです。 交差検証法 2002/11/13 サンプルサイズが小さいときに有効 統計手法アラカルト・AnswerTree 61 ちなみに…検証しないというのは データセット全体を基にして、樹木モデルを 構築 同じデータで、テスト(検証) N…データセットのデータ総数(=ケース総数) r…誤分類されたケース数 r (誤分類されたケース 数) 推定誤差 R(d ) 2002/11/13 N (総ケース数) d=decision tree(決定木) 統計手法アラカルト・AnswerTree 62 テストサンプル法 全データを2つのサブセットにランダムに分割 便宜上サブセット1とサブセット2とする サブセット1のデータを使って樹木成長 サブセット2のデータをサブセット1樹木での 決定規則にて分類 2002/11/13 ⇒分類&決定規則生成 N2…サブセット2のケース数 r2…サブセット2のデータのうち誤分類されたケー ス数 統計手法アラカルト・AnswerTree 63 テストサンプル法2 推定誤差 r2 (サブセット2での誤 分類ケース数) ts R (d ) N 2 (サブセット2の総ケー ス数) データをランダムに2分割 2002/11/13 ts(Test Sample estimate)…テストサンプル法 同一母集団からの独立な2つのサンプル 誤差(誤分類率)を独立のサンプルを使って推 定できる。 統計手法アラカルト・AnswerTree 64 交差検証法 データをn個のサブセットに分割 サブセット1以外の全データで樹木モデル サブセット2~nのデータでモデル モデル(の決定規則)でサブセット1を分類 サブセット1の推定誤差 2002/11/13 便宜上サブセット1、サブセット2、・・・、サブセットn と命名 r1 N1 統計手法アラカルト・AnswerTree 65 交差検証法2 それぞれのサブセットについても同じ処理 それぞれのサブセットから計算された誤差 =相対誤分類誤差 ts ri R (d i ) (i 1,..., n) Ni データを分割した数だけ、相対誤分類誤差が算出 推定誤差 n rn 1 1 r1 r2 ts R cv (d ) R (di ) n i 1 n N1 N 2 Nn 2002/11/13 cv(Cross Validation)…交差検証法 統計手法アラカルト・AnswerTree 66
© Copyright 2024 ExpyDoc