先端論文紹介ゼミ 「A fuzzy self-organizing map algorithm for biological pattern recognition」 (生物学的パターン認識のための曖昧 な自己組織化マップアルゴリズム) 2010/12/17 B4 真境名 郁 1 目次: • • • • Abstract(要約) Introduction(紹介) Method(方法) Clustering quality measurements (クラスタリング性質測定) • Experimental results and discussion (実験結果と議論) • Conclusion(結論) 2 Abstract • データクラスタリングは連続分析とパターン認 識を含む様々な過程のための主要課題。 • 本論文では、DNA配列のような生物学的デー タに働くとき、精度と感度を増加させることを 目指したクラスタリングアルゴリズムを研究。 • 提案するアルゴリズムがSOMとFCM(Fuzzy-CMeans)よりクラスタリングと分類精度能力に 関して優れる可能性を示す。 3 Introduction グループへのパターンの教師無し分類はクラスタリングと定 義され、データセットのデータグループ、またはクラスタは相 似概念の使用で特定される。 これより、データクラスタリングはデータセットの同じ、または 異なったパターンを発見することを目指している。 クラスタリングアルゴリズムは、パターン分析などの多く分野 で応用の範囲が広く、広く使用されるクラスタリングアルゴリ ズムには、SOM、fuzzy C-means(FCM)、K-means(K平均法)等 がある。 この研究では、FCMの不可欠な局面とSOMアルゴリズムを取 り入れた「fuzzy organizing map(FOM)」を紹介する。 4 Method • SOM algorithm SOM(Self Organizing Maps) 多次元データを低い次元のマップに変えるニューラ ルネットワークベースのクラスタリング技法。 SOMの一般的な構造体は、相互接続されたニュー ロン、ノードの格子であり、二次元格子位相が広く 使用される。 SOMの目的は、ランダムに初期化されたノードの重 みベクトルから成る格子に関する入力データを表す こと。 5 Method 6 Method • FCM clustering algorithm Fuzzy C-means(FCM) FCMは、入力値により近いクラスターの中心を徐々に動かす ための反復演算。(式(1),(2)) :メンバーシップ値の計算 :クラスターの中心を更新 7 Method 8 Method • Fuzzy organizing map(FOM) FOMアルゴリズムは、2つのクラスタリングアルゴリズム、 SOMおよびFCMを利用している。 SOMの主な欠点:近隣ノードの更新をするのに計算上高価 な操作を必要とする。 この点SOMと異なり、FCMは交互に最適化手法を利用する 比較的速いアルゴリズム。 FOMアルゴリズムの基本的な訓練周期はSOMと同じである。 9 Method 10 Clustering quality measurements • 様々なクラスタリング基準はクラスタリング性質を測 定するために提案されている。 • この研究では、3つの一般的なクラスタリング性質測 定法を利用している。(Table 1) ① Quantization error(量子化誤差) ② Graph-based cohesion error(グラフベースの結合 誤差) ③ Prototype-based cohesion error(原型ベースの結 合誤差) 11 Clustering quality measurements x:各入力 n:入力要素の数 c:グリッド上のノード m:ノードの数 p:特定のノードのデータ ベクトル数 dist(distance function): ユークリッド距離 12 Clustering quality measurements ① Quantization error(量子化誤差) ネットワークがどのくらい上手く与えられた入力に反応す ることができるのかを示している。 これはデータセットにおける全ての入力の勝利距離の平 均とみなす。 ② Graph-based cohesion error(グラフベースの結合誤 差) クラスター分析の1つの主要な目的は、同じクラスタの データベクトル間の距離を最小にすることであり、これが どのくらい優れるかを示す。 同じクラスタで各入力を他のものと比較することで計算。 13 Clustering quality measurements ③Prototype-based cohesion error(原型ベースの結合 誤差) 同じクラスタでの入力の間の距離がどれくらいよ く最小にされるかを測定。 入力とクラスタの中心の間に平均距離誤りを取 ることによって計算。 14 Clustering quality measurements 3.1.Performance-based quality クラスタリング性質測定のみでの使用は、クラスタリングアル ゴリズムの性能を示すのに十分ではないため、他にいくつか の測定基準を追加して使用する必要がある。 Table2に最もよく利用される一般的な測定基準を示す。 TP(true positive);TN(true negative);FP(false positive) FN(false negative) 15 Experimental results and discussion • ここでは異なるデータセットを用いて、FOM アルゴリズムの性能を示し、SOMとFOMの 比較を行う。 • FOMをSOMとFCMと比較するために、計7つ のデータセット(4つのDNAモチーフデータと 3つの生物学的データセット)を利用してい る。 16 Experimental results and discussion 4.1.Genomic pattern discovery data sets この研究で用いているDNA配列は、S.cerevisiae-DNA配列の一部 であり、Table3に4つのデータセット (GAL4;RFX1;GCN;CBFI)を示す。 17 Experimental results and discussion 4.1.Genomic pattern discovery data sets 正確にアルゴリズムの性能を測定するため、様々な長さ、大きさ、 異なる数のパターン例を用いている。 これらのデータセットに関して、3つのアルゴリズムの性能の違い を以下の3つの異なる指標で示す。 ① Clustering quality measures(Table 4) ② Classification accuracy measures(Table 5) ③ Sequence logos(Table 6) 18 Experimental results and discussion 4.1.Genomic pattern discovery data sets 指標:Clustering quality measures クラスタリング性能の値は低い値程良い。 12つの性能の値中、9つでFOMが優れている結果となった。 19 Experimental results and discussion 4.1.Genomic pattern discovery data sets 指標:Classification accuracy measures 20 Experimental results and discussion 4.1.Genomic pattern discovery data sets 指標:Sequence logos ゲノムパターン発見のための別の最も一般的な方法 は、系列ロゴを用いた視覚により結果を提示すること である。 系列ロゴは、様々な長さの文字の系列から構成され る。 Table 5より、ゲノム系列パターンの発見においても FOMはSOMとFCMの両方より更に効率的であること が示されている。 21 Experimental results and discussion 4.1.Genomic pattern discovery data sets 22 Experimental results and discussion 4.2.Biomedical data sets • この生物学的データセットを用いた実験では、次の3つの データセットを用いる。(Table 7参照) • これらのデータセットは、様々なデータセットからの信号の特 徴を抽出することにおいてFOMの性能を示すために役に立 つ。 23 Experimental results and discussion 4.2.Biomedical data sets 指標:Clustering quality measures クラスタリング性能の値は低い値程良い。 9つの性能の値中、6つでFOMが優れている結果となった。 24 Experimental results and discussion 4.2.Biomedical data sets 指標:Classification accuracy measures 25 Experimental results and discussion 4.2.Biomedical data sets 26 Experimental results and discussion 4.3.Comparison of FOM with other hybrid algorithms このセクションでは、2つの高度なアルゴリズムとの比較を 行っている。(Table 10参照) Fuzzy Kohonen clustering networks(FKCN) Improved FKCN Fuzzy-self organizing map(FSOM) 27 Experimental results and discussion 4.4.Discussion • FOMアルゴリズムはグリッド上のクラスタの中心を更新する ノードを特定する性能のために、SOMとFCMよりクラスタリン グ性能と分類精度において優れる可能性を持っている。 • FOMはグリッドをSOMのようにグリッドを視覚マップに変換し ようせず、代わりにグリッド上の必要な信号を強化して、デー タ入力を表そうとする。これはFOMアルゴリズムの強みであり、 このアプローチはより良いクラスタリング結果につながる。 • FOMはクラスタリング性能が想像より重要である問題に適し ている。 28 Conclusion • この研究において、提案したFOMアルゴリズムは SOMとFCMとの比較により有望なクラスタリングアル ゴリズムであることを示した。 • FOMアルゴリズムはDNA配列などのゲノムデータ セットによって明確に役に立ち、また他のアプリケー ション部においてもよく振る舞うと予想される。 29 ご清聴ありがとうございました。 30
© Copyright 2024 ExpyDoc