ターミナルノード - 行動データ科学研究分野

統計手法アラカルト
Answer Tree
高寺 寿恵
行動計量学講座3回生
What’s Answer Tree?
データマイニング
決定木
何ができるのか
何がわかるのか
Answer Treeとは



not 統計イチ手法
データマイニング用の統計解析ツール
SPSSの拡張モジュール(っていうのかな?)。

SPSSには入ってないのです。(別で買わなきゃ)

決定木による分析というものを行うためのも
のなのです。

……と言われても何のことだかさっぱり?
2002/11/13
統計手法アラカルト・AnswerTree
3
まず、データマイニングとは

万単位の大量のデータを扱うための統計手
法のイチ分野の名前



変数多し、サンプル数多し。
多変量解析の分野に入るのでしょう。
データマイニングの特徴は

厳密な分析は、おいておく、ということ。
いくらパソコンが発達しても、ん万単位のデータ(し
かも何種類もある)には追いつきません。
 要するにサンプルサイズはでかいは、標本数は多
いわ、ということで、厳密に計算している時間も惜し
いのです。

2002/11/13
統計手法アラカルト・AnswerTree
4
そこで、モットーは


データマイニングのモットーは
ちょっとした手間で


結果がすぐわかって



2002/11/13
=分析にかけるコストが少なくて
白書や年鑑のように結果出るまで1年とかじゃ、
乗り遅れます。
大量のデータから、有益な情報を
効率よく拾い出せたらいいな、というもので
す。
統計手法アラカルト・AnswerTree
5
One of 手法

決定木による分析





2002/11/13
って何ですか?
人工知能(コンピュータの学習システムを
使って)
既存のデータから決定規則を見つけ
分類を行ってくれるものです。
その分類を示してくれるのが決定木。
統計手法アラカルト・AnswerTree
6
簡単に言うと


複数の変数を持つデータを
ある変数について分類をしたいときに、それ
以外の変数のデータをもとに、分類規則を
見つけ、それにより分類してくれるのが決定
木による分析


2002/11/13
分類したい変数は、質的変数・量的変数OK
説明変数(分類する基準になる変数)も、質的、
量的ともにOK
統計手法アラカルト・AnswerTree
7
まぁ要するに



一つのデータはいろいろな変数(属性)を持
ちますが、ある一つの変数が○○であるの
は、その他の変数がどういう場合か、とかい
うのがわかるのです。
そして
その分析をビジュアルにやってくれるのが
Answer Treeなのです!
2002/11/13
統計手法アラカルト・AnswerTree
8
AnswerTreeの見た目



2002/11/13
統計手法アラカルト・AnswerTree
Answer Treeの
出力は左
これを決定木と
いいます。
分類規則を表し
た樹木図になっ
ています。
9
決定木の意味




決定規則を表す図
スタートは一番上、サンプル(データ)内の全
ての観測結果を含むルートノード
そこから分類がスタート。
樹木の下方向に進むにつれ、データは相互
に排他的なデータのサブセット(=一部)に
分岐していく。

2002/11/13
要するに、樹木の下に進めば進むほど、同じも
のばかりの集合に分かれていきます。
統計手法アラカルト・AnswerTree
10
決定木の意味・補足

ノードとは
ある説明変数>a(特定の値)、
 説明変数<a, (≧、≦、=もあり)
などで定義されたケースのみに
よる集合(=サブセット)を表す
樹木の一部分
ケース(=オブザベーション)
 1観測対象から複数の変数の
データが得られます。1観測対
象から得られたデータ全体を1
オブザベーションといいます
 データ入力するときの行に相当



ルートノード

2002/11/13
樹木の一番上
(開始点)
ルートノード
花弁の長さ(説明変数の1つ)を
>2.45(特定の値に指定)すること
で、ケースの定義を行う。
統計手法アラカルト・AnswerTree
11
そして、それで何ができるのか?

セグメンテーション(区分け、細分化)


層別化


ケースを複数のカテゴリの一つにわりあて
予測


特定のクラスのメンバと判別できる人を識別
規則を作成し、将来のイベントを予測する など
応用例1

ダイレクトメール

2002/11/13
人口統計上のどういうグループ(年齢や性別や地
域など)が最も応答率が高いか?
統計手法アラカルト・AnswerTree
12
何ができるのか?2

応用例2







2002/11/13
市場分析
 場所、価格、顧客の特性のどれが売上げに関係してい
るか?
品質管理
 製品の製造データから、製品の欠陥を判別する変数を
特定
そのこころは
セグメント(区分)、パターン(傾向)の見極め
結果に影響する重大な要素の見極め
確実な決定規則
データから有益なモデルを生成
統計手法アラカルト・AnswerTree
13
2.AnswerTreeの具体例
具体例(アヤメの分類)
品種 萼の長さ 萼の幅 花弁長 花弁幅

目的




形態(萼の長さ・花弁長など)に
基づいて、3種のアヤメを識
別する
データはこんなの →→→→
1-setosa, 2-versicolor,
3-virginica
 全てアヤメの品種
 サンプルサイズは150
具体的な操作に関しては
あとで説明。
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
5.10
4.90
4.70
4.60
5.00
5.40
4.60
5.00
4.40
4.90
5.40
4.80
4.80
4.30
5.80
5.70
5.40
5.10
3.50
3.00
3.20
3.10
3.60
3.90
3.40
3.40
2.90
3.10
3.70
3.40
3.00
3.00
4.00
4.40
3.90
3.50
1.40
1.40
1.30
1.50
1.40
1.70
1.40
1.50
1.40
1.50
1.50
1.60
1.40
1.10
1.20
1.50
1.30
1.40
.20
.20
.20
.20
.20
.40
.30
.20
.20
.10
.20
.20
.10
.10
.20
.40
.40
.30
(以下略)
2002/11/13
統計手法アラカルト・AnswerTree
15
具体例(アヤメの分類)・2

データから樹木を作成します

C&RT(使用アルゴリズム)



どういった基準で分類するか、ということで、
AnswerTreeには選択できる統計的な計算の方法
が4種あります。
目的変数は品種
説明変数は残り全部
萼の長さ・幅
 花弁の長さ・幅

2002/11/13
統計手法アラカルト・AnswerTree
16
具体例(アヤメの分類)・3

データから樹木を作成


目的変数・説明変数指定以外に
停止規則の設定
つまりどこまで樹木をさせるか=どこまで細かく
ケースを分類するか
 今回の例では
 層:5
 親ノード(に含まれるケース数):5
 子ノード(〃)
:2


2002/11/13
親ノード…下に分岐したノードがくっついているノード
統計手法アラカルト・AnswerTree
17
分析結果

最初は、ルートノード(ノード0のみ)が表示

樹木モデル(付録参照)


→メニューバーの[樹木(T)]>[樹木の成長]ま
たは、【 】をクリックすると付録のような樹木に
なります。
第一分岐は、ノード0からノード1&2へ

C&RTの場合、分岐点では、2つに分岐します。

2002/11/13
C&RTはそういうアルゴリズムなのです。
統計手法アラカルト・AnswerTree
18
分析結果・2

ノード0からノード1、2への分岐




花弁の長さが2.45以下かそれより長いか
2.45以下は、全てsetosaというアヤメ
2.45以上でversicolorとvirginicaが混在
ノード1は全てsetosaなので、これ以上分岐しま
せん。
これ以上分岐しない(できない)ノードを
 ターミナルノード、といいます。

2002/11/13
統計手法アラカルト・AnswerTree
19
分析結果・3

ノード2からノード3、4への分岐




花弁の幅が1.75以下かそれより大きいか
1.75より大きいのはほとんどがvirginica
(97%)
1.75以下は、versicolorがほとんど(90%)
ノード4からノード7、8へは…

花弁の長さ→4.84が分類の境界ライン
4.84より大は全てvirginica
 4.84 以下はうまく分けれず…

2002/11/13
統計手法アラカルト・AnswerTree
20
分析結果・4

ノード3からノード5、6へは

花弁の長さ・4.95
4.95以下は、versicolor
 4.95より大は上手く分けれず


そこで、ノード6からノード9,10へは
花弁の幅、1.55以下はvirginica
 >1.55はversicolor…?


ちなみに

2002/11/13
分岐では、ある説明変数による定義を繰り返し
使えます。(但し、指定する値は異なります・当然)
統計手法アラカルト・AnswerTree
21
3.0
花弁
の幅
2.5
アヤメの分布
データの散布図
2.0
長さ>2.45
幅>1.75
virginica:97%
(n=45)
versicolor:2%(n=1)
≦2.4500
1.75
1.5
setosa
1.0
100%
(n=50)
さらに長>4.84
virginica
100%, (n=43)
さらに長≦4.84
versicolor
virginica
.5
:n=1,(33.3%)
:n=2,(66.7%)
.0
0
2002/11/13
1
2 2.45
3
4
4.84 5
統計手法アラカルト・AnswerTree
6
花弁の
長さ
7
22
2.0
花弁
の幅
1.8
1.75
1.6
1.55
1.4
アヤメの分布
1.2
長>4.95∩
幅>1.55
1.0
花弁の長さ≦4.95
長>4.95∩
ノード3
versicolor :
幅≦1.55
versicolor
:
97.92%, (n=47)
virginica
90.74%, (n=49)
.8
.6
virginica :
.4
100%, (n=3)
virginica
2.08%, (n=1) :
.2
Here!
versicolor
n=2,
(66.67%)
ノード6
virginica
n=1, (33.33%)
花弁の
長さ
9.26%, (n=5)
.0
2
2.45
2002/11/13
3
4
4.95 5
統計手法アラカルト・AnswerTree
6
7
23
全部あわせると
3.0
花弁
の幅
アヤメの分布
2.5
・・・こんな感じ↓
versicolor :
n=1,(33.3%)
virginica :
花弁長
≦2.4500
2.0
virginica
100%, (n=43)
n=2,(66.7%)
1.75
1.5
setosa
100%
1.0
(n=50)
.5
1.55
versicolor : n=2
virginica : n=1
幅≦1.75∩長さ≦4.95
versicolor :
virginica
100%, (n=3)
97.92%(n=47)
花弁の
長さ
virginica :n=1
.0
0
2002/11/13
1
2 2.45 3
4.84 5
統計手法アラカルト・AnswerTree
4.95
4
6
7
24
樹木図に戻って

分岐ごとに表記されている改善度とは?


その分岐(当該分岐)によって、樹木の予想パ
フォーマンス(この場合どれだけ適切に分類でき
るか)が、どのくらい改善されるかを表す指標。
つまり誤分類率がどれぐらい減るか、ということ
しかしながら、数値の値がどれぐらいだと意味があ
るのか、などということは(私には)不明…。
 但し、分岐しても分岐後のノードの分類に改善が見
られないような場合には、改善度は0(小数第4位ま
で)になることは確認。
 改善度0の分岐は、通常の操作では起こりません。


2002/11/13
強引にすれば出てきますが…
統計手法アラカルト・AnswerTree
25
モデルの評価→誤分類誤差



2002/11/13
このモデルがアヤメの種類をどれぐらい正確に予測して
いるか?
対角線=正しく分類された数
推定誤差=誤分類された分類の比率
 樹木ウィンドウの[誤差]タブで
統計手法アラカルト・AnswerTree
26
樹木図から、ルールの作成

決定木により、すべてのケース(オブザベー
ション)がターミナルノードに分類される。


中にはちゃんと分類できてないのもあるけれど
全オブザベーションには適応できないけど、
個別に使える便利な知識
ルールの作成(抽出)
2002/11/13
統計手法アラカルト・AnswerTree
27
アヤメ分析におけるルール

setosa分類規則


versicolor分類規則


2002/11/13
もし花弁の長さ≦2.45ならsetosa
もし花弁長>2.45かつ、花弁幅≦1.75、かつ花
弁長≦4.95ならversicolor(47/48, 98%)
花弁長>2.45かつ、花弁幅≦1.75、かつ花弁
長>4.95ならversicolor(2/3, 66.7%)
統計手法アラカルト・AnswerTree
28
アヤメ分析におけるルール・2

virginica分類規則



2002/11/13
花弁長>2.45かつ、花弁幅>1.75かつ、花弁
長>4.84ならば、virginica(43/43, 100%)
もし花弁長>2.45かつ、花弁幅>1.75かつ、花
弁長≦4.84ならば、virginica(2/3, 66.7%)
もし花弁長>2.45かつ、花弁幅≦1.75かつ、花
弁長>4.95かつ、花弁幅≦1.55ならば、
virginica(3/3, 100%)
統計手法アラカルト・AnswerTree
29
まとめると


setosa・・・花弁長≦2.45
versicolor
2.45<花弁長≦4.95, 花弁幅≦1.75
 花弁長>4.95, 花弁幅≦1.75


virginica
花弁長>4.84、花弁幅>1.75
 2.45<花弁長≦4.84、花弁幅>1.75
 花弁長>4.95、花弁幅≦1.55


2002/11/13
ルールはターミナルノードの数だけできます。
有用なものだけを参照すればよいのです。
統計手法アラカルト・AnswerTree
30
3.AnswerTreeの使い方
用語解説(ノード)

ノード(再録)


ルートノード




説明変数に特定の値を指定することによって定義さ
れたケースのサブセットを表す樹木の一部分
全てのデータを含む。目的変数に対してデータセット
全体の要約された情報を提示
親ノード…より小さいノードへの分岐元
子ノード…他のノードが分岐することで生じるノード
ターミナルノード…それ以上分岐していないノード
2002/11/13
統計手法アラカルト・AnswerTree
32
用語解説(変数関係)

カテゴリ

変数の値によって定義されたグループ
例)変数・アヤメの場合、カテゴリは、setosa・
virginica・versicolor
 例)変数・年齢の場合、カテゴリ・18~20歳、20~
22歳


カテゴリ変数

2002/11/13
連続量を基準として測定されるのではなく、異な
る複数のグループに分類される
統計手法アラカルト・AnswerTree
33
用語解説(カテゴリ変数)


名義尺度or順序尺度
名義変数のカテゴリ

種類が異なる、順序付けをもたない
例)変数・色とすると、白、青などがカテゴリ
 その他、とか不明もカテゴリになる


順序変数のカテゴリ


2002/11/13
既知、または不明の数値による得点がカテゴリ
と関連
前スライドの年齢などはコレ
統計手法アラカルト・AnswerTree
34
使い方・1
1.
起動→プロジェクト選択




新規プロジェクトを選択すると
→データソースの選択

2.
2002/11/13
新規プロジェクトか既存(プロジェクト)の選択
AnswerTreeでは、あるサンプルから作成できる
樹木(分析)をひとまとめにしてプロジェクトとして
保存しています
データを選択しましょう
データを選択したら、樹木ウィザードが開
始されるので、それに沿って進みます。
統計手法アラカルト・AnswerTree
35
使い方・2
1.
樹木ウィザード(ステップ1/4)



分析に使用する、アルゴリズムを選択します。
分類に関する計算が少しずつ異なります。
用途に応じて選択を…
アルゴリズム
CHAID
Exhaustive CHAID
C&RT(CART)
QUEST
2002/11/13
目的変数
名義、順序、量的
名義、順序、量的
名義、順序、量的
名義のみ
統計手法アラカルト・AnswerTree
分岐
2進木以上
2進木以上
2進木
2進木
36
使い方・2a(アルゴリズム詳細)

CHAID(カイド・チェイド)


Exhaustive CHAID


分類および回帰2進木
 Classification and Regression Trees
QUEST(Quick, Unbiased, Efficient, Statistical Tree)

2002/11/13
CHAIDを改善した方法
C&RT(又はCART)


χ2乗による相互作用の自動検出
 Chi-squared Automatic Interaction Detector
迅速で偏りがなく、効果的な統計樹木
統計手法アラカルト・AnswerTree
37
使い方・3
2.
モデルの定義(樹木ウィザード2/4)




モデルを定義するために、目的変数と説明変
数を選択します
目的変数→何に関して分類したいか
説明変数→分類の基準にする
モデルの定義ウィンドウの左側にデータに含ま
れる変数が表示


2002/11/13
目的変数としたいものを[目的変数]のところへド
ラッグ
説明変数は、[他の全変数]と[ひとつずつ指定す
る]方法が選べます。
統計手法アラカルト・AnswerTree
38
使い方・3a



使い方・注


2002/11/13
もしも、データが度数分布表のような様相を呈し
ている場合は、その変数を右下の
[度数の重み付け変数(R)]のところへドラッグ
もしどこかで樹木ウィザードウィンドウを消してし
まっても、大丈夫
[ファイル]の[新規樹木]をクリックすると、ウィ
ザードが起動します。
統計手法アラカルト・AnswerTree
39
使い方・4
3.
検証(樹木ウィザード3/4)



2002/11/13
モデルの検証をするかどうかの選択
検証しない/検証する
検証する場合は

テストサンプル法/交差検証法を選択

時間があれば、後述します
統計手法アラカルト・AnswerTree
40
使い方・5
4.
詳細設定(樹木ウィザード4/4)


[詳細オプション]をクリックします。
各アルゴリズム共通は『停止規則』の設定


樹木構造を作成するときに、ノードの分岐を停
止する時期を決める基準
ルートからの階層



2002/11/13
ノードの数ではなく、何段階下に枝を伸ばすか
どこまで詳しく分類したいかで設定。
デフォルトは3~5(アルゴリズムで異なる)
統計手法アラカルト・AnswerTree
41
使い方・5a

ケースの最小数
ノードに含まれるケース数を指定します。
 データのサンプルサイズに合わせて設定を。
 親ノード…分岐元
 子ノード…分岐元から分岐したノード。
 デフォルトは親→100、子→50
 「親~」の意味は、100以上のケース数がないノー
ドは分岐しません
 「子~」の意味は、分岐後のノードのケース数が50
未満になるなら、分岐しません、ということ。

2002/11/13
統計手法アラカルト・AnswerTree
42
使い方6

1.
2.
3.
2002/11/13
詳細オプションの[OK]>樹木ウィザードの
[完了]をクリック。
ルートノードが表示されます。
メニューバーの[樹木]から[樹木の成長]
または、 をクリック
樹木が成長し、決定木ができます。
統計手法アラカルト・AnswerTree
43
結果の見かた



分岐の見方に関しては、アヤメの例の通り
樹木図ウィンドウでは、他にも[ゲイン]、
[誤差]、[規則]、[要約]タブなどがあります。
[誤差]は誤分類率に関して


樹木ビューのゲイン…各ノードの統計量

2002/11/13
見方はスライド28
樹木ウィンドウの[ゲイン]タブ
統計手法アラカルト・AnswerTree
44
ゲインについて簡単な解説







2002/11/13
ノード・・・ターミナルノード(の統計量が出る)
ノード(n)…そのノードの含まれるケース数
ノード(%)…ノードの内のケース数/総ケース数
ゲイン(n)…ノードの内に選択したカテゴリのケース数
ゲイン(%)…ゲイン(n)/選択カテゴリ総ケース
応答(%)…ゲイン(n)/ノード(n)
インデックス(%)…応答(%)/(選択カテゴリ総ケー
ス÷総ケース数)
統計手法アラカルト・AnswerTree
45
これさえわかれば、何とか
AnswerTreeは使えるハズ!
とりあえず、アヤメの例を最初から、
デモンストレーションしたいと思います。
とその前に…
参考文献・参考資料

AnswerTree 3.0J User’s Guide

AnswerTreeのHP
Inc.)


大滝 厚、堀江宥治、Dan Steinberg著

日科技連出版社、1998
金鉱を掘り当てる統計学

豊田秀樹

2002/11/13
http://www.spss.co.jp/product/ALL/A_tre
e/algo.htm
応用2進木解析法―CARTによる―


(SPSS
講談社ブルーバックス 2001
統計手法アラカルト・AnswerTree
47
Appendix
アルゴリズム&
検証についての解説
アルゴリズム

2002/11/13
AnswerTreeで使用できるアルゴリズムは
4種。あまり詳しいことはわかっていません
が、それぞれについて少し説明を。
統計手法アラカルト・AnswerTree
49
CHAID

χ2乗統計量を用いて、最適な分岐を探索


χ2乗統計量を用いる、ということは説明変数が
量的な場合は?
説明変数が量的説明変数で数量尺度の場
合は、「区間」に分割し、カテゴリ変数化

それぞれに区間に当てはまるケース数がほぼ
同数になるように、AnswerTreeでは設定

2002/11/13
「区間」…いくつかの値の範囲
統計手法アラカルト・AnswerTree
50
CHAID、2


有意確率を利用して、説明変数を評価
目的変数に関して、




最良の説明変数を選択し、等質なグループ
になるように構成
欠損値は、単一の有効カテゴリ。

2002/11/13
等質ならば値を結合
異質ならば、結合せず
欠損値は欠損値を持つケースでグループ
統計手法アラカルト・AnswerTree
51
CHAID、3

目的変数が



2002/11/13
量的変数のとき→F検定
名義変数のとき→2方向クロス表、Peasonの
χ2乗検定、尤度比検定
順序変数のとき→連関モデルをあてはめ、尤度
比検定
統計手法アラカルト・AnswerTree
52
CHAID手順
1.
2.
3.
4.
5.
説明変数Xに対し、目的変数に関して相違の
有意性が小さい(p値は最大)Xのカテゴリペア
p値が指定された有意水準αmergeよりも大きい
→そのXのカテゴリを結合→1に戻る。
p値がαmergeよりも小さいとき、Bonferroniの
調整法を使用し、XのカテゴリとYのカテゴリの
集まりに対するp値算出
最小のp値をもつ説明変数X
p値がαsplitより小さければ、Xのカテゴリの集まりに基
づき分岐
2002/11/13
統計手法アラカルト・AnswerTree
53
Exhaustive CHAID

CHAIDを改善



説明変数ごとに可能な全ての分岐を調べる
CHAID弱点克服
弱点


改善


2002/11/13
全てのカテゴリが統計的に異なる→カテゴリの結合
を停止→最適な分岐が見つからず
上位2カテゴリになるまで説明変数を結合
デメリット・膨大な計算、計算に時間がかかる
統計手法アラカルト・AnswerTree
54
C&RT

不純度を最小限に抑えるという考え方



2002/11/13
データを2つのサブセットに分割するとき、前の
サブセットよりも子ノードが親ノードよりも純粋な
ノードのなるように選択
純粋なノード…ノード内のケースの目的変数は
同じ値
「純度」…目的変数の値
統計手法アラカルト・AnswerTree
55
C&RT、2


分岐を見つける不純度が4種類
カテゴリ目的変数


Gini基準
Twoing基準


量的目的変数

2002/11/13
(順序変数のとき)順序測度によるTwoing基準
最小2乗偏差(LSD)法
統計手法アラカルト・AnswerTree
56
QUEST

多数のカテゴリを持つ説明変数に対して有利

χ2乗検定とF検定(Leveneの不等分散)を使用。
計算効率を高めるために開発

一番わからないアルゴリズムです・・・・・・

2002/11/13
統計手法アラカルト・AnswerTree
57
AnswerTreeにおける検証と
データマイニング


データマイニングと普通の統計学との違い
よく見る統計学は




しかし、データマイニングで扱うデータは

2002/11/13
数少ないデータのときに、いかに正しく推定する
か、ということが主眼
大量データに向いていない。
ひとつの標本で、推定もモデルの検証もする
というもの
とにかく大量!
統計手法アラカルト・AnswerTree
58
データマイニングは。

データマイニングでは



データ数がめちゃくちゃ多い
無理して一つの標本で、推定も検証しなくても…
そこで、データを推定用と検証用に分割して。
モデルを作成&検証する方法を
 交差妥当化といいます。
2002/11/13
統計手法アラカルト・AnswerTree
59
検証の意義

樹木モデル生成だけど



さらに大きなサンプル、別のサンプルを用い
た場合、
どれだけ適切に一般化できるか調べたいと
きが頻繁にアリ。

2002/11/13
そのときのデータを分類するのが目的ということ
は少ない。
生成された樹木モデルの規則をもとに、予測を
たてる、など。
統計手法アラカルト・AnswerTree
60
AnswerTreeにおける樹木モデルの
検証法

検証(樹木ウィザード2/4)にて設定。

データをサブサンプルに分割

テストサンプル法
サンプルサイズが大きいときに有効
 交差妥当化の話のまんまです。


交差検証法

2002/11/13
サンプルサイズが小さいときに有効
統計手法アラカルト・AnswerTree
61
ちなみに…検証しないというのは


データセット全体を基にして、樹木モデルを
構築
同じデータで、テスト(検証)
N…データセットのデータ総数(=ケース総数)
 r…誤分類されたケース数
r (誤分類されたケース 数)
 推定誤差

R(d ) 

2002/11/13
N

(総ケース数)
d=decision tree(決定木)
統計手法アラカルト・AnswerTree
62
テストサンプル法

全データを2つのサブセットにランダムに分割
 便宜上サブセット1とサブセット2とする

サブセット1のデータを使って樹木成長


サブセット2のデータをサブセット1樹木での
決定規則にて分類


2002/11/13
⇒分類&決定規則生成
N2…サブセット2のケース数
r2…サブセット2のデータのうち誤分類されたケー
ス数
統計手法アラカルト・AnswerTree
63
テストサンプル法2

推定誤差
r2 (サブセット2での誤 分類ケース数)
ts
 R (d ) 

N 2 (サブセット2の総ケー ス数)


データをランダムに2分割


2002/11/13
ts(Test Sample estimate)…テストサンプル法
同一母集団からの独立な2つのサンプル
誤差(誤分類率)を独立のサンプルを使って推
定できる。
統計手法アラカルト・AnswerTree
64
交差検証法

データをn個のサブセットに分割


サブセット1以外の全データで樹木モデル



サブセット2~nのデータでモデル
モデル(の決定規則)でサブセット1を分類
サブセット1の推定誤差

2002/11/13
便宜上サブセット1、サブセット2、・・・、サブセットn
と命名
r1
N1
統計手法アラカルト・AnswerTree
65
交差検証法2


それぞれのサブセットについても同じ処理
それぞれのサブセットから計算された誤差
=相対誤分類誤差 ts
ri
R (d i ) 
(i  1,..., n)
Ni


データを分割した数だけ、相対誤分類誤差が算出
推定誤差
n
rn 
1
1  r1
r2
ts
 R cv (d ) 

R (di )   
 

n i 1
n  N1 N 2
Nn 

2002/11/13
cv(Cross Validation)…交差検証法
統計手法アラカルト・AnswerTree
66