オブジェクト指向を用いた 決定木と ADF GP の組み合わせによる学習

第 18 回 医療情報学連合大会 18th JCMI(Nov.,1998)
1-K-4-7
オブジェクト指向を用いた
決定木と ADF GP の組み合わせによる学習
○新美 礼彦 1) 田崎 栄一郎 1)
桐蔭横浜大学工学部制御システム工学科 1)
Combined Learning Method of Decision Tree and ADF GP
by Object Oriented Approach
Ayahiko Niimi1)Eiichiro Tazaki1)
Department of Control & Systems Engineering, Toin University of Yokohama1)
Abstract: There are many approaches for classification system learning. Genetic Programming ( one of the
approaches ) can change trees dynamically, but its learning speed is slow. Decision Tree methods using C4.5
construct trees quickly, but the network may not classify correctly when the training data containes noise. For
such problems, we proposed an object oriented approach, and a learning method that combines Decision Tree
making method ( C4.5 ) and Genetic Programming. To verify the validity of the proposed method, we
developed a medical diagnostic system for the occurrence of hypertension, and compared the proposed
method with prior methods.
Keywords: object oriented, genetic programming, decision tree, medical diagnostic system
1. はじめに
2. 決定木構築のアルゴリズム [3]
分類学習 によ る推 論シ ステ ムの 構築 にお いて、
さまざ まな手法 が提案され ている。一般に 遺伝的
プログ ラミング を用いた学 習システム は、学習速
度が遅 く、システム 設計者は問 題と手法の 両方の
知識 を要求され る。しかし、構造 も同時に 扱うの
で、環境に 適応した より高次な 知識が獲得 可能な
学習 システムの 構築が可 能である。ま た、決定木
を用い た学習シ ステムは、事例 の分類モデ ルの構
築に有 効なネッ トワーク構 造を得られ、他 の手法
と比較 して短時 間で学習を 行えるが、トレ ーニン
グ事例 により分類 精度が劣化す るという問 題があ
る。
このよ うにそれぞ れの手法に は利点と欠 点があ
る。そこで本論文では、それぞれの手法をオブジェ
クトと して捉え、オ ブジェクト の組み合わ せによ
り、学習を 行う推論 システムを 構築するオ ブジェ
クト 指向の手法 を提案す る。これによ り、それぞ
れの手 法の持つ利 点と欠点を互 いに補いな がら学
習が行われると期待される。
提案した学習法の有 効性を検証するために、
C4.5 による決定木構築法と自動関数定義を組み込
んだ 遺伝 的プ ログ ラミ ングに よる 学習 にお いて、
それら を組み合 わせた学習 を取り上げ た。これを
医療診 断支援シ ステムへ適 用し、従来の単 独での
学習 方法による 結果と比 較・検討し、ここ に報告
する。
手法の 組み合わ せの有効性 は、決定木構 築法と
誤差逆 伝播法によ るニューラル ネットワー クの学
習 [1]、決定木 構築法と遺伝的プログラミングによ
るニューラルネットワークの学習 [2] によって検証
されている。
決定木構 築のアル ゴリズムに、記 録された 分類
データを 調べ、特定の例 を一般化 することに より
モデルを 帰納的に作 る方法が ある。決定木に よる
分類学習 は、比較的短時 間である 程度の分類 能力
を作ることができる。決定木構築法の 1 つである
C4.5 では、期待獲得情報量最大化原理に基づく分
類を行 う。これにより、決 定木の根 に重要な 属性
を集め ることがで きる。また、過剰 に分類さ れた
決定木が 構築される のを防ぐ ため、予測誤り 率に
よる枝刈りを行う。
2.1 C4.5 のアルゴリズム
C4.5 による決定木構築は以下の手順に従う。
1) 初期決定木の構築
2) 構築された決定木に対する枝刈り
3. 遺伝的プログラミング
遺伝的プログラミング (Genetic Programming:GP)
は、生物進化論の考えに基づいた学習法であり、そ
のアル ゴリズム の流れは 遺伝的ア ルゴリ ズム
(Genetic Algorithm:GA) と同様である。その特徴は
染色体表現が GA と異なり、構造表現ができるよ
うに拡 張してある ことであ る。今回は、決定 木を
表現するためにツリー構造を用いた。
3.1 GP のアルゴリズム
GP による決定木構築は以下の手順に従う。
1) 問題ごと の関数ノー ドと終端 ノードのラ ンダ
ム文法から初期集団を発生させる。
2) 集団内 にそれぞれ の個体を 計算し、問題 解決
にどのくらい関係しているかという適応度
1
第 18 回医療情報学連合大会 18th JCMI (NOV.,1998)
れを訓練データとして用いた。GP のパラメータは
以下のものを用いた。(表 1 参照)
今回の GP では、定義されたノードの数が多く、
生成さ れる木の自 由度が高か ったため、決 定木と
して使 用できるも のは、全個体中 で極めて わずか
であった。そのため、GP としての探索はランダム
探索 に近 く推 論精 度の低 下を 招い たと 思われ る。
初期個 体として取 り込まれた決 定木は最良 個体に
継承さ れたことが 確認され、学習 効率の改 善に影
響を与えたといえる。
(fitness value) を求める。
3) 遺伝的操作により、次の世代を発生させる。
a) 複製 (reproduction) により個体をコピーする。
b) 突然変異 (mutation)により新しい個体を発生さ
せる。
c) 交叉 (crossover) により新しい個体を発生させ
る。
4) 終了 条件が満 たされた かどうかを 調べ、満た
され ていたら 終了する。満 たされてい なかっ
た時は 2) へ戻る。
3.2 自動関数定義 [4]
表1 GP のパラメータ
通常、GP では木の大きさを評価しないため、木
の成長を的確に制御する方法がない。このため、探
索に 伴って、木が長 く複雑に なることや 逆に単純
すぎ る木に収束 してしま うことがあ る。そこで関
数を プログラム 自身で定義し て効率的に 利用する
方法 が研究され ている。その うちの一つ が自動関
数定義 (Automatically Defined Function:ADF)であり、
これは通常の GPに関数定義用の遺伝子表現を付加
することによって行われる。ADF を組み込むこと
により、得られるプログラムがコンパクトにでき、
また処理すべき個体も少なくできる。
IFLTH,IFEQ:より少ない ( < ), 等しい (=)
ADF0, ADF1:ADF により拡張した関数定義遺伝子
F00 ∼ F14:入力データ
R:ランダムに生成される定数
P, N:発症 (P), 未発症 (N)
4. オブジェクト指向
オブジェクト指向 (object oriented) とは、独立し
た情 報処理を行 う単位である オブジェク トをプロ
グラムの対象とみなし、オ ブジェクト間のメッ
セー ジのやりと りによって情 報の処理を 行う手法
であ る。オブジェ クトは入 力情報を受 信し、一連
の処 理を行 い、出力情報 を発信す る。この際、自
分自 身の内部 情報は隠 している。この ため、内部
処理 を気にする ことなく、全 体のデータ の流れを
考えられる。
表2 各手法による実験結果(推論精度)
5. 決定木と GP の組み合わせによる学習
決定木による分類学習は短時間の 学習ですむ
が、その訓練データにノイズが含まれていた場合、
その分類能力は急速に劣化する。一方、GP は構造
学習 が可能であ るため、高い 分類能力を 選られる
が、学習 の自由度 が増すこ とにより、より 多くの
学習時間が必要となる。
この問題に対し、本論文ではこれら 2 つのアル
ゴリ ズムをオブ ジェクト と捉え、オブジ ェクト指
向に 基づくオブ ジェクトの組 み合わせに よる学習
法を提案する。まず、C4.5 を用いて決定木を構築
し、GP の初期集団に取り込み、学習を行う。これ
により、GP の初期集団内に有効と思われるスキー
マを 含ませるこ とが可能 となり、学習速 度と分類
精度の改善が期待される。
7. おわりに
本研究 では、オブジ ェクト指 向を取り 入れ、複
数の手 法を組み合 わせて推論シ ステムの構 築を行
うという学習手法を提案した。また、C4.5 と GP を
取り上 げ、単独で使用 した場合と 組み合わ せて使
用した場合について比較を行った。
その結 果、わずかで はあるが学 習の効率 の改善
が認め られた。この ことより、提 案した手法 は推
論シス テムの学習 効率の改善に 有効な方法 である
といえる。
参考文献
[1] A. Banerjee, R. Greiner(ed.), et. al.:Initializing Neural Networks
Using Decision Trees:Computational Learning Theory and
Natural Learning Systems,pp.3-15
[2] 松本昇他 : 決定木と組み合わされた遺伝的プログラミング
によるニューラルネットワークの創発的学習 : 第 14 回ファ
ジィシステムシンポジウム ,pp31-34
[3] J. R. Quinlan, 古川康一(訳),AI によるデータ解析 : 凸版印
刷株式会社 ,1995
[4] J. R. Koza, K. E. Kinner(ed.), et. al:Scalable Learning in Genetic
Programming Using Automatic Function Definition:Advances in
Genetic Programming,pp99-117
6. 高血圧発症診断支援システムへの適用
我々 が提案した 学習法の有 効性を検証 するため
に、本論 文では高血 圧発症の 実験データ を用いて
医療 診断支援シ ステムの 構築を行っ た。このデー
タは、性別、年齢、肥満度など 15 項目からなる入
力デ ータと発症 に関する出力 の組み合わ せで構成
されており、全部で 1024 件ある。このうち、発症・
未発症それぞれ 100 件ずつランダムに抽出し、こ
2