A fuzzy self-organizing map algorithm for biological pattern recognition

先端論文紹介ゼミ
「A fuzzy self-organizing map
algorithm for biological pattern
recognition」
(生物学的パターン認識のための曖昧
な自己組織化マップアルゴリズム)
2010/12/17
B4 真境名 郁
1
目次:
•
•
•
•
Abstract(要約)
Introduction(紹介)
Method(方法)
Clustering quality measurements
(クラスタリング性質測定)
• Experimental results and discussion
(実験結果と議論)
• Conclusion(結論)
2
Abstract
• データクラスタリングは連続分析とパターン認
識を含む様々な過程のための主要課題。
• 本論文では、DNA配列のような生物学的デー
タに働くとき、精度と感度を増加させることを
目指したクラスタリングアルゴリズムを研究。
• 提案するアルゴリズムがSOMとFCM(Fuzzy-CMeans)よりクラスタリングと分類精度能力に
関して優れる可能性を示す。
3
Introduction
 グループへのパターンの教師無し分類はクラスタリングと定
義され、データセットのデータグループ、またはクラスタは相
似概念の使用で特定される。
 これより、データクラスタリングはデータセットの同じ、または
異なったパターンを発見することを目指している。
 クラスタリングアルゴリズムは、パターン分析などの多く分野
で応用の範囲が広く、広く使用されるクラスタリングアルゴリ
ズムには、SOM、fuzzy C-means(FCM)、K-means(K平均法)等
がある。
 この研究では、FCMの不可欠な局面とSOMアルゴリズムを取
り入れた「fuzzy organizing map(FOM)」を紹介する。
4
Method
• SOM algorithm
 SOM(Self Organizing Maps)
 多次元データを低い次元のマップに変えるニューラ
ルネットワークベースのクラスタリング技法。
 SOMの一般的な構造体は、相互接続されたニュー
ロン、ノードの格子であり、二次元格子位相が広く
使用される。
 SOMの目的は、ランダムに初期化されたノードの重
みベクトルから成る格子に関する入力データを表す
こと。
5
Method
6
Method
• FCM clustering algorithm
 Fuzzy C-means(FCM)
 FCMは、入力値により近いクラスターの中心を徐々に動かす
ための反復演算。(式(1),(2))
:メンバーシップ値の計算
:クラスターの中心を更新

7
Method
8
Method
• Fuzzy organizing map(FOM)
 FOMアルゴリズムは、2つのクラスタリングアルゴリズム、
SOMおよびFCMを利用している。
 SOMの主な欠点:近隣ノードの更新をするのに計算上高価
な操作を必要とする。
 この点SOMと異なり、FCMは交互に最適化手法を利用する
比較的速いアルゴリズム。
 FOMアルゴリズムの基本的な訓練周期はSOMと同じである。
9
Method
10
Clustering quality measurements
• 様々なクラスタリング基準はクラスタリング性質を測
定するために提案されている。
• この研究では、3つの一般的なクラスタリング性質測
定法を利用している。(Table 1)
① Quantization error(量子化誤差)
② Graph-based cohesion error(グラフベースの結合
誤差)
③ Prototype-based cohesion error(原型ベースの結
合誤差)
11
Clustering quality measurements
x:各入力
n:入力要素の数
c:グリッド上のノード
m:ノードの数
p:特定のノードのデータ
ベクトル数
dist(distance function):
ユークリッド距離
12
Clustering quality measurements
① Quantization error(量子化誤差)
 ネットワークがどのくらい上手く与えられた入力に反応す
ることができるのかを示している。
 これはデータセットにおける全ての入力の勝利距離の平
均とみなす。
② Graph-based cohesion error(グラフベースの結合誤
差)
 クラスター分析の1つの主要な目的は、同じクラスタの
データベクトル間の距離を最小にすることであり、これが
どのくらい優れるかを示す。
 同じクラスタで各入力を他のものと比較することで計算。
13
Clustering quality measurements
③Prototype-based cohesion error(原型ベースの結合
誤差)
 同じクラスタでの入力の間の距離がどれくらいよ
く最小にされるかを測定。
 入力とクラスタの中心の間に平均距離誤りを取
ることによって計算。
14
Clustering quality measurements
3.1.Performance-based quality
 クラスタリング性質測定のみでの使用は、クラスタリングアル
ゴリズムの性能を示すのに十分ではないため、他にいくつか
の測定基準を追加して使用する必要がある。
 Table2に最もよく利用される一般的な測定基準を示す。
 TP(true positive);TN(true negative);FP(false positive)
FN(false negative)
15
Experimental results and discussion
• ここでは異なるデータセットを用いて、FOM
アルゴリズムの性能を示し、SOMとFOMの
比較を行う。
• FOMをSOMとFCMと比較するために、計7つ
のデータセット(4つのDNAモチーフデータと
3つの生物学的データセット)を利用してい
る。
16
Experimental results and discussion
4.1.Genomic pattern discovery data sets
この研究で用いているDNA配列は、S.cerevisiae-DNA配列の一部
であり、Table3に4つのデータセット (GAL4;RFX1;GCN;CBFI)を示す。
17
Experimental results and discussion
4.1.Genomic pattern discovery data sets
 正確にアルゴリズムの性能を測定するため、様々な長さ、大きさ、
異なる数のパターン例を用いている。
 これらのデータセットに関して、3つのアルゴリズムの性能の違い
を以下の3つの異なる指標で示す。
① Clustering quality measures(Table 4)
② Classification accuracy measures(Table 5)
③ Sequence logos(Table 6)
18
Experimental results and discussion
4.1.Genomic pattern discovery data sets
 指標:Clustering quality measures
 クラスタリング性能の値は低い値程良い。
 12つの性能の値中、9つでFOMが優れている結果となった。
19
Experimental results and discussion
4.1.Genomic pattern discovery data sets
 指標:Classification accuracy measures
20
Experimental results and discussion
4.1.Genomic pattern discovery data sets
 指標:Sequence logos
 ゲノムパターン発見のための別の最も一般的な方法
は、系列ロゴを用いた視覚により結果を提示すること
である。
 系列ロゴは、様々な長さの文字の系列から構成され
る。
 Table 5より、ゲノム系列パターンの発見においても
FOMはSOMとFCMの両方より更に効率的であること
が示されている。
21
Experimental results and discussion
4.1.Genomic pattern discovery data sets
22
Experimental results and discussion
4.2.Biomedical data sets
• この生物学的データセットを用いた実験では、次の3つの
データセットを用いる。(Table 7参照)
• これらのデータセットは、様々なデータセットからの信号の特
徴を抽出することにおいてFOMの性能を示すために役に立
つ。
23
Experimental results and discussion
4.2.Biomedical data sets
 指標:Clustering quality measures
 クラスタリング性能の値は低い値程良い。
 9つの性能の値中、6つでFOMが優れている結果となった。
24
Experimental results and discussion
4.2.Biomedical data sets
 指標:Classification accuracy measures
25
Experimental results and discussion
4.2.Biomedical data sets
26
Experimental results and discussion
4.3.Comparison of FOM with other hybrid algorithms
 このセクションでは、2つの高度なアルゴリズムとの比較を
行っている。(Table 10参照)
 Fuzzy Kohonen clustering networks(FKCN)
 Improved FKCN
 Fuzzy-self organizing map(FSOM)
27
Experimental results and discussion
4.4.Discussion
• FOMアルゴリズムはグリッド上のクラスタの中心を更新する
ノードを特定する性能のために、SOMとFCMよりクラスタリン
グ性能と分類精度において優れる可能性を持っている。
• FOMはグリッドをSOMのようにグリッドを視覚マップに変換し
ようせず、代わりにグリッド上の必要な信号を強化して、デー
タ入力を表そうとする。これはFOMアルゴリズムの強みであり、
このアプローチはより良いクラスタリング結果につながる。
• FOMはクラスタリング性能が想像より重要である問題に適し
ている。
28
Conclusion
• この研究において、提案したFOMアルゴリズムは
SOMとFCMとの比較により有望なクラスタリングアル
ゴリズムであることを示した。
• FOMアルゴリズムはDNA配列などのゲノムデータ
セットによって明確に役に立ち、また他のアプリケー
ション部においてもよく振る舞うと予想される。
29
ご清聴ありがとうございました。
30