あいまい性を考慮した列挙手法 宇野 毅明 (国立情報学研究所 &総合研究大学院大学) 2007年12月15日 計算限界全体会議 動機と問題 データ中心の科学 ・ 近年、IT技術の発達で、大規模なデータが半自動的に収集で きるようになった (POS、web、文書、顧客データ、財務、利用者、人事…) 既存のデータを使って何かを得たい データの選別 モデル化 データ処理 いわば、データを出発点とした問題解決の科学 (人工知能、データマイニング、自然言語処理、セマンティックweb… 近年の情報学でメジャーな研究スタイル) 部分構造を見つける ・ データから何らかの構造を見つけ出す、という手法は、データマイニン グやデータ工学を始めとする情報学の分野で非常に基礎的であり、多く の研究で用いられている (クラスタリング・webコミュニティー、 グループ化、カテゴリー発見...) ・ 構造としてはクリークや文字列などが比較的単純ではっきりとしたもの が重宝されてきた -パス,クリーク,文字列,頻出パターン… ・ 計算的には扱いやすく、最適化や列挙に関して多くの研究がある。 アルゴリズムも、理論&技術に大きな成果がある あいまいさを扱いたい ・ はっきりとしたものが効率良く扱えるようになったので、次のステップと して、エラーやあいまいさ、不完全さを扱いたくなってきた そもそも欲しいものは「あいまいなもの」(クリークっぽいもの、など) ・ いくつもの重なり合う極大クリークが1つになる、データにノイズやエ ラーがあっても、解が比較的ぶれない -パス、ツリー -クリーク -文字列 -頻出集合 パスっぽいもの、 ツリーっぽいもの クリークっぽいもの ある程度一致する文字列 多くの項目にそれなりに含まれるもの ・ あいまいさを導入すると、計算のコストは増大する (推移律が成り立たない、距離の評価に時間がかかる、など) あいまいさに対する既存のアプローチ ・ あいまいなものを扱う研究は、以前からたくさんある そもそもクラスタリングは「データの濃い部分」を抽出している ゲノム配列の相同検索 ・ モデリング、計算の難しさから、ヒューリスティックに基づく探索を 行うものが多い 利点: よいと思われるものが見つかっている、かな? 課題: 何を見つけているのかわかりにくい 条件をいろいろ入ると、計算的に(解1つあたりの) コストが増える 「アルゴリズム理論」から課題を見つめたい ・ クリーク・頻出集合・文字列検索にあいまい性を導入する 擬似クリークの列挙 クリーク クリーク: 完全グラフになっている部分グラフ (完全2部グラフになっている部分グラフ 2部クリーク) 類似する、あるいは互いに 関連するグループ 互いに背反だが、 立場が同じ項目のグループ ・ クラスタリング発見などに使われる ・ 現実問題は、通常それほど密ではない(次数高々100)が、 局所的に密な部分が存在、パワー則、スモールワールド性 ・ 単調性が成り立つので、列挙しやすい ・ クリーク・極大クリークの列挙は効率良くできる(1秒10万、100万) あいまいなクリーク ・クリークっぽいもの 完全グラフに近い部分グラフ (完全2部グラフになっている部分グラフ 2部クリーク) クリークから少しだけ枝を取り除いたものとすればいいだろう ・ 抜く本数に制限をつけて、あいまいなクリークとそうでないものを 分ける 見つけるものが数理的にはっきりする ・ 全て見つける列挙問題として定式化する あいまいの境界 ・境界を固定して k 本とする 単調性が保持されるのがうれしい、 が、小さい部分グラフはOK、大きな部分グラフはだめ、になる ・境界をクリーク枝数のθ %とする 部分グラフの大きさに密度が依存しないのがうれしい 単調性がなくなる 今回はこれを解く 擬似クリーク(密部分グラフ)の定義 ・ 頂点部分集合 S に対して、S の枝密度を (S の頂点誘導グラフの枝数) (|S|-1)|S| /2 クリークの 枝数 - S がクリーク 枝密度は 1 - S が独立集合 枝密度は 0 頂点の組のうち 結ばれているも S の枝密度が高ければ、クリークに近くなる のの割合 閾値 θに対して S が擬似クリーク (Sの枝密度) ≧ θ 擬似クリーク列挙問題: 与えられたグラフ G、密度閾値θ に対し、G の擬似クリークを全て出力する問題 擬似クリークに関わる既存の結果 ・ 1つ見つけるのは簡単 空集合、1頂点の集合、枝の両端点が必ず擬似クリークになる ・ 大きさ k の擬似クリークを見つける問題はNP完全 θ= 1 とすると、大きさ k のクリークを見つける問題になる ・ 最も枝密度の高い頂点数 k の部分グラフを見つける問題はNP完全 - O(|V|1/3-ε) の近似率のアルゴリズムがある - 最適解がある程度濃い、とい条件では O((n/k)ε) 近似 [鈴木徳山] - 枝数が Ω(n2) ならPTASがある[Aroraら] ・データマイニングなどの分野で、擬似クリークを発見するアルゴリズムはいく つか提案されているが、いずれも完全性がなく、列挙問題として捉えている研 究はない 分割法によるアプローチは困難 ・ 列挙アルゴリズムの基本的な構築の仕方として、分割法 (分枝限定法)がある ・ 各反復で、ある頂点を含むものと 含まないものに解集合を分割し、 できた集合が空でなければ、 再帰的に列挙を行う v v1 1 v1, v2 解があるか判定 する問題がNP完全 v1, v2 v1, v2 v1, v2 困難性の証明 Theorem 1 与えられたグラフ G と閾値 θ、頂点部分集合 U に対して、U を含む擬似クリークが存在するかどうかを判定 する問題はNP完全である 証明: 大きさkのクリークの存在判定を帰着 入力グラフ G=(V,E) |V|2 -1 枝密度 = |V|2 2|V|2 個の 頂点を追加 し、Uとする θ= |V|2 -1 |V|2 +ε ・ (U + クリーク) のみが擬似クリーク ・ 大きくなると枝密度が真に増加) ・ εを適当に設定すると、大きさが k 以上のクリークのみが擬似 クリークになる 果たして本当に困難か? ・ この証明は「とても濃い」グラフの判定問題が難しいことを 証明しただけ 密度が中くらいのところについては、良くわからない 出力多項式時間アルゴリズムはできるかもしれない θ= 1 出力多項式時間 計算時 間が入力の大きさと出力の 大きさに対して多項式 簡単 簡単 θ= 0 困難 ????? 擬似クリークの 多項式遅延列挙アルゴリズム 逆探索法によるアプローチ ・ 列挙する対象の間に、非巡回的な親子関係を定義 objects 親子関係が導く根付き木を深さ優先探索することで列挙 探索は、再帰的に子どもを見つけることで行えるので、 子どもを見つけるアルゴリズムがあれば十分 擬似クリークの親 ・ v*(K) : G[K] の最小次数頂点の中で最小添え字のもの ・ 擬似クリーク K の親を K\v*(K) で定義 K K の親 ・ K の枝密度 = G[K] の平均次数 ÷(|K|-1) ・ 親は、K から最も枝密度の薄い部分を取り除いたものなので、 やはり擬似クリークになる ・ 親は大きさがちょうど1小さい 親子関係は非巡回的 擬似クリーク列挙木の例 ・ 閾値を70%に設定 3 6 1 2 4 5 7 親から子どもを作る ・ 親は、子どもから頂点を1つ抜いて得られる 子どもは、親に1つ頂点を付け加えて得られる 与えられた親の子どもを見つけるには、各頂点を加える ・ 親に頂点を付け加えて擬似クリークができても、それが子どもとは 限らない 加えたアイテムが v* にならず、異なるものが親になる可能性 v* を計算して照合 objects ・ 素朴にすると O(|V|+|E|) 時間 子どもである条件 ・ degK(v): v に隣接する K の頂点の数 degK(v) がある一定値以上であるときのみ、 K∪v は擬似クリー クになる (擬似クリークである条件) ・各反復でdegK(v)を更新し(O(deg(v)) 時間)、その値ごとに分類し ておくと、 条件を満たすものを1つあたり定数時間で見つけられる ・条件 v*(K∪v) = v も、degK(v)の値で場合分けするとクリア - degK(v) < K の最小次数 K∪v は必ず Kの子ども - degK(v) > K の最小次数+1 K∪v は Kの子どもでない 子どもである条件 (2) ・ S(K): K の最小次数の頂点を、添え字順に並べた列 ・ degK(v) = K の最小次数 or +1 v が、 - v より degK、添え字ともに小さい頂点はない - degK(u) = degK(v) かつ添え字が v より小さい u 、および degK(u) = degK(v)-1 かつ添え字が v より大きい u は必ず v と隣接 ・ K の頂点を次数順・添え字順に見て、隣接リストをスキャンし、 K に含まれない各頂点に対して「隣接しない初めての頂点」 を 見つける それと、自分の添え字を比べればよい 1反復のチェック・データ更新時間は O(Δ2 + log |V|)) となる 擬似クリーク計算機実験 末広がり性 ・ バックトラックは、各反復で複数の再帰呼び出しをする 計算木は、下に行くほど大きくなる 計算時間を支配するのは一番下の数レベル 計算時間長 ・・・ 計算時間短 擬似クリークが少々大きく(4以上くらい?に)なると、 最小次数は平均的に小さいだろう 平均的に計算時間は短いだろう 実装 実験環境: Pentium M 1.1GHz、256MBメモリ + cywin & C ・ 実装は、単純なものを用いた - degK(v) の更新とグループ分けはするが、並び替えはしない - degK(v)= Kの最小添え字 or +1 となる頂点に対して、素 朴にチェックをする この条件を満たす頂点はそれほど多くないだろう 隣接しない頂点がすぐ見つかって、頂点1つに対する チェックも結局は短時間でできるだろう 実験に用いたグラフ - 通常のランダムグラフ (確率 p で枝をはる) - 局所的に密なランダムなグラフ (自分と添え字が近い頂点のみに 確率1/2で枝を張る) - ランダムに作成したスケールフリーグラフ (頂点を順に追加し、次数に比例する確率で 他の頂点を定数本選び、枝を張る) - 現実のデータ (ソーシャルネットワークデータ) ランダムグラフ ・ 枝の確率が 0.1 で、頂点数が 200-2000。閾値は90%。時間は 百万個あたり。クリーク列挙と比べると10倍程度遅い r a ndom gr a ph p=0.1 #clique time per 1M clique time clique #p-clique 0.9 time per 1M 0.9 time 0.9 #p-clique 0.8 time per 1M 0.8 time 0.8 1000000000 100000000 10000000 1000000 100000 1000 100 10 1 0.1 6400 4524 3200 2262 1600 1131 800 565 400 282 0.01 200 time (sec) & #cliques 10000 #vertices 次数が大きくなるにつれて、ほぼ線形に時間が伸びる 局所的に密なランダムグラフ ・ 自分の回り±30頂点に確率が 0.5で枝を張る ・ 100~25600 頂点、閾値は90%。同じくクリークより10倍遅い locally dense random graph #clique 1000000000 time per 1M clique 100000000 10000000 time clique 1000000 #p-clique 0.9 time per 1M 0.9 10000 1000 time 0.9 100 #p-clique 0.8 10 time per 1M 0.8 1 0.1 time 0.8 3E+05 64000 16000 4000 0.01 1000 time (sec) & #cliques 100000 #vertices 次数が変化しないので、時間は伸びない ランダムに作成したスケールフリーグラフ ・ 大きさ10のクリークに1つずつ頂点を加える ・ 次数に比例する確率で他の頂点を10個選び、枝をはる 10000000 1000000 100000 #clique time per 1M clique time clique #p-clique 0.9 time per 1M 0.9 time 0.9 #p-clique 0.8 time per 1M 0.8 time 0.8 10000 1000 100 1 0.1 16 00 0 32 00 0 64 00 12 0 80 0 25 0 60 00 80 00 40 00 20 00 0.01 10 00 time & #cliques 10 時間は非常にゆっくりと増加 #vertices 現実問題 ・ 論文の共著関係を表すグラフ ・ 頂点数は3万、枝数は12万5千、スケールフリー 1000000000 real-world data 100000 #p-clique time time per 1M 1000 10 0.83 0.85 0.88 0.9 0.93 0.95 0.98 1 0.1 1 time & #p-cliques 10000000 threshold 1個あたりの計算時間は閾値によらないようだ 考察+α ・ 実際の列挙の時間は、ひとつあたりほぼ定数時間 ・ 理論的なバウンド、最大次数の2乗よりはるかに小さい ・ なぜ現実的には速いのか? - データの更新の時間は、追加された頂点の次数に線形 degK を小さくする頂点の次数が大きいとは思えない - 子どもかどうかチェックしなければならない頂点は少ない 子どもの数の定数倍 擬似頻出集合 頻出パターン列挙 ・ データベースの中に多く現れるパターンを全て見つける問題を 頻出パターン列挙(あるいは発見、マイニング)問題という データベース: トランザクション、ツリー、グラフ、多次元ベクトル パターン: 部分集合、木、パス・サイクル、グラフ、図形 データベース 実験1 実験2 実験3 実験4 ● ▲ ▲ ● ▲ ● ● ▲ ● ● ● ▲ ● ▲ ● ● ● ▲ ● ● ▲ ▲ ▲ ▲ 実験結果 頻出する パターンを抽出 ATGCGCCGTA TAGCGGGTGG TTCGCGTTAG GGATATAAAT GCGCCAAATA ATAATGTATTA TTGAAGGGCG ACAGTCTCTCA ATAAGCGGCT ゲノム情報 ・ 実験1● ,実験3 ▲ ・ 実験2● ,実験4● ・ 実験2●, 実験3 ▲, 実験4● ・ 実験2▲ ,実験3 ▲ . . . ・ ATGCAT ・ CCCGGGTAA ・ GGCGTTA ・ ATAAGGG . . . ここでは ・ いわゆる頻出集合列挙をターゲットにする 入力: トランザクションデータベース: 各トランザクション T がアイテム集合 E の部分集合 になっているようなデータベースD つまり、D, ∀T ∈D, T ⊆ E ・ 解が多い (大きくて面白いものは少ない) ・ 包含関係が厳密 「多くの項目になんとなく含まれている」ものを見つけたい アイテム集合に対して、あいまいな包含関係を考え、 頻出集合の列挙アルゴリズムを提案する 既存研究 ・ fault-tolerant pattern、degenerate pattern、soft occurrence など ① 包含関係を一般化:アイテムの含有率が閾値以上 含む 単調性がなくなる。ひどい場合、頻出集合の任意の部分集 合が頻出でない、という例がある。探索が極めて困難 ② アイテム集合・トランザクションの組で、アイテムが項目に含ま れない組合せが少ないもの - 密な部分グラフとイメージが同じ 1,2 2,3 1,3 ・ ヒューリスティックな探索が多く、 完全性を保証した列挙型の解法は少ない 包含関係の改善 ① 包含関係をアイテムの含有率で一般化 単調性がなくなる 含まないアイテムが閾値以下なら含む、に。単調性は保持 ・ アイテム集合 P に対して出現集合 Occ≦k(P) が定義できる Occ≦k(P∪e) = Occ≦k(P) ∩ Occ(e) が成り立つなど、 頻出集合の基本的な性質をすべて継承するため、頻出集合列挙 アルゴリズムがそのまま拡張できる ほぼ同じパフォーマンスのアルゴリズムが構築可能 ・ ほぼ同じパフォーマンスのアルゴリズムが構築可能 - しかし、小さい集合ほぼ全てが頻出となる k 擬似頻出集合 ・ k 頻出集合: D のσ個以上のトランザクションに k 擬似包含の意 味で含まれるアイテム集合 D = σ=3での1擬似頻出集合 1,2,5,6,7,9 {1,2,3} {1,2,4} {1,2,5} {1,2,7} {1,2,9} {1,3,7} 2,3,4,5 {1,3,9} {1,4,7} {1,4,9} {1,5,7} {1,5,9} {1,6,7} 1,2,7,8,9 {1,6,9} {1,7,8} {1,7,9} {1,8,9} {2,3,7} {2,3,9} 1,7,9 {2,4,7} {2,4,9} {2,5,7} {2,5,8} {2,5,9} {2,6,7} 2,7,9 {2,6,9} {2,7,8} {2,7,9} {2,8,9} {3,7,9} {4,7,9} 2 {5,7,9} {6,7,9} {7,8,9} {1,2,7,9} {1,3,7,9} {1,4,7,9}{1,5,7,9} {1,6,7,9} {1,7,8,9} {2,3,7,9} {2,4,7,9} {2,5,7,9} {2,6,7,9} {2,7,8,9} 密な包含 ② アイテム集合・トランザクションの組で、アイテムが項目に含ま れない組合せが少ないもの - 単調性はないが、「包含関係のあるアイテム、トランザクショ ンの組が○○%以上」であるアイテム集合・トランザクション集合 の組を見つける、と思うと、擬似クリークと同じ仕組みで、隣接性 が保証できる 密2部グラフの列挙です ・しかし、頻出集合の場合、注目しているのはアイテム集合だけ しアイテム集合が同じでトランザクション集合が異なるものは 同一視したい 平均包含率 ・ トランザクション t のアイテム集合 P に対する包含率 ⇔ |t ∩ P|/ |P| ・ トランザクション集合 T のアイテム集合 P に対する平均包含率 ⇔ T 内のトランザクションの包含率の平均 2部グラフ表現での密度と等価 1,3,4 2,350% 2,4,5 4,550% 1,2 1,266% ・ 閾値 θに対してアイテム集合 P の最大共起数(頻出度) ⇔ 平均包含率θ以上のトランザクション集合の最大の大きさ あいまい頻出集合: 最大共起数がσ以上のアイテム集合 問題の定式化 ・ 閾値 θに対してアイテム集合 P の最大共起数(頻出度) ⇔ 平均包含率θ以上のトランザクション集合の最大の大きさ あいまい頻出集合: 最大共起数がσ以上のアイテム集合 1,3,4 2,4,5 1,2 2,350% 4,550% 1,266% あいまい頻出集合列挙問題: 与えられたトランザクションデータベース D、密度閾値θ、最小 頻度 σに対し、D のあいまい頻出集合を全て出力する問題 擬似頻出集合の 多項式遅延列挙アルゴリズム 探索法と困難性 ・ 擬似クリークと同じように、あるアイテム集合を含むあいまい頻出 集合が存在するかどうかの判定はNP完全 分枝限定法的なアプローチではうまくいかなさそう ・ 逆探索を使いましょう 密度が一番小さいアイテムを抜いて親子関係が定義できそう 探索法と困難性 ・ あいまい頻出集合 P の正規出現 AmbiOcc(P) ⇔ 辞書順最小の、平均包含率θ以上の最大トランザクション集合 ・ e*(P): P のアイテムで AmbiOcc(P) に含まれる数が最小のもの ・ P の親: P\e*(P) 一意に定まり、あいまい頻出集合となる θ=66%, σ= 4 A: 1,3,4,7 B: 2,4,5 C: 1,2,7 D: 1,4,5,7 E: 2,3,6 F: 3,4,6 {1,4,5} D, A,B, C,F, E AmbiOcc({1,4,5}) = {D,A,B,C} e*(P) = 5 Prt({1,4,5}) {1,4} AmbiOcc({1,4}) = {D,A, B,C, F} 親子関係から列挙木 ・親は子どもより1小さい 親子関係は非巡回的 ・親は子どもより最大共起数が大きい 親もあいまい頻出集合 ・親子関係は木を導出 θ=66%, σ= 4 φ A: 1,3,4,7 B: 2,4,5, C: 1,2,7 D: 1,4,5,7 E: 2,3,6 F: 3,4,6 1 2 1,4 3 4 3,4 4,5 7 4,7 1,7 1,4,5 1,3,4 1,4,7 3,4,7 4,5,7 1,2,7 1,3,7 1,5,7 1,3,4,7 1,4,5,7 子ども列挙による深さ優先探索 ・ 列挙木を探索すれば、全てのあいまい頻出集合が見つけられる ・ 深さ優先で探索すれば、解をメモリに保持する必要もない(木の 深さは高々アイテム数) ・ このような、陽に与えられていない木を深さ優先探索するにはど うすればいいか? 与えられた頂点の、子どもが順に見つけられれば十分 見つけた子どもに対して、再帰的に子どもを見つければよい objects 親から子どもを作る ・ 親は、子どもからアイテムを1つ抜いて得られる 子どもは、親に1つアイテムを付け加えて得られる 与えられた親の子どもを見つけるには、各アイテムを加える ・ 親にアイテムを付け加えて得られるアイテム集合があいまい集合 であっても、子どもとは限らない 加えたアイテムが e* にならず、異なるものが親になる可能性 e* を計算して照合 objects 各アイテム追加の最大共起数 ・ アイテム集合 P の最大共起数は、包含率の高い順にトランザク ションを追加して得られる ・ アイテム追加による包含率の逆転はない(追いつくことはある) ・ AmbiOcc についてのみ、子ども候補の包含率を計算すればいい ・ e の最大共起数を計算するには、包含率の大きさでトランザクショ ンをグループ分けし、それぞれの中で e を含むものを調べると、トラ ンザクションを P∪e に対する包含率順で並べられる 最大共起数の計算 ・ P={1,4} に e=5 追加したときの AmbiOcc(P∪e) の計算 θ=66%, σ= 4 A: 1,3,4,7 B: 2,4,5 C: 1,2,7 D: 1,4,5,7 E: 2,3,6 F: 3,4,6 AmbiOcc({1,4}) = {D,A, B,C,F} ,E 全部含む 1つ含まない 全部含まない AmbiOcc({1,4,5})= {D, A,B, C} ,F ,E 全部含む 1つ含まない 2つ含まない AmbiOcc の計算 ・ よって、各 P∪e の最大共起数は計算するには、AmbiOcc(P) を 包含率 で分類し、各 e について、それを含むものを集め出す e を含むトランザクション集合との共通部分をとる 振り分け、という手法を使うと速い ・ 最大共起数が大きいアイテム集合はそれほど多くないと思われ るので、現実的には、一反復の実行時間は ||AmbiOcc(P)|| に依存 する程度だろう あいまい頻出集合計算機実験 実装 実験環境: Pentium M 1.1GHz、256MBメモリ + cywin & C ・ 実装は、単純なものを用いた - Occh を各 h について保持 - AmbiOcc と親は素朴に計算する 親の計算でアクセスする は、計算を工夫してもあまり減 少しないだろう - 実際、1/2 ~ 1/3 程度にしかならないようだ 実験に用いたデータ ・ FIMI repository のベンチマークデータ - BMS-WebView2: web 閲覧データ アイテム数 3500、トランザクション数 77000、平均サイズ 4.6 - mushroom: キノコの形状のデータ アイテム数 80、トランザクション数 8100、平均サイズ 23 ・ 両方とも実データ ・ 比較対象となる実装がないので、通常の頻出集合列挙と比較 (LCM) BMS-WebView2 10000000 BMS-WebView2 LCM time 1.0 number 1.0 time 1.0 time/M 0.9 number 0.9 time 0.9 time/M 0.8 number 0.8 time 1.0 time/M 1000000 100000 time(sec)/number 10000 1000 100 10 1 0.1 1% 0.50% 0.30% 0.15% 0.05% support 解1つあたりの計算時間は解の数によらない 密度の閾値を下げると、解の数が爆発的に増える 計算効率化の余力 100 BMS-WebView2 10 0.9 max 0.9 prt 0.9 occ 0.8 max 1000.8 prt 0.8 occ ratio 1 Mushroom 0.9 max 0.9 prt 0.9 occ 0.8 max 0.8 prt 0.8 occ 10 support ratio 0.1 5% 0.2 0% 0.3 0% 0.4 0% 0.5 0% 0.7 0% 1% 0.1 解が増えると、高速化 の効果が上がりそうだ 1 80% 70% 60% 50% 40% 30% support mushroom 10000000 Mushroom LCM time 1.0 number 1.0 time 1.0 time/M 0.9 number 0.9 time 0.9 time/M 0.8 number 0.8 time 1.0 time/M 1000000 100000 10000 time(sec)/number 1000 100 10 1 0.1 0.01 80% 70% 60% 50% 40% 30% 20% 密度・サポートが大きくなると、 解1つあたりの計算時間は増加する support 考察+α ・ 実際の列挙の時間は、ひとつあたりサポートと密度に比例す るように見える ・ 理論的なバウンドよりははるかに小さい ・ なぜ現実的には速いのか? - 1反復の更新の手間は、制限されたデータベースのサイズ サポートが小さくなれば平均的に小さい - 子どもの候補はそれほど多くなく、 親を調べる必要のある子どもの数も少ない 候補数は大き目の定数、子どももそのうちの定数割合 類似する部分文字列の発見 データベースから類似する項目を見つける ・ データベースの項目の中で、似た項目のペアを全て見つけたい (項目のペア全てについて、 2項関係が成り立つかを調べる) ・ 類似している項目の検出は、 データベース解析の基礎的な手法 基礎的なツールがあれば、使い方しだいで いろいろなことができる (大域的な類似性、データの局所的な関連の構造・・・) ・ ここでは、文字列について考えてみる 類似部分文字列 ・ 文字列データ(文書)はいたるところに存在 ・ 単なるキーワード検索でなく、文書間の類似構造が知りたい - web文書間の似た部分(引用?) - 多数のプログラムの解析 - ゲノム、たんぱく質の類似構造 ・ 類似検索は非常に時間がかかる - 文書数の2乗のオーダーはかけられない - 編集距離を求めるのに、文書の大きさの2乗かかる web、ゲノムで大きな問題 類似文字列に関する研究 ・ 全対比較して編集距離を計算 編集距離(挿入/削除/変化の最小数)は最短路で2乗時間 A*などの改良も有効だが、文字列が似ているという仮定が必要 ・ BLASTを始めとする相同発見アルゴリズム (例えば11文字の)短い完全一致領域を見つけ、そこを種として検索 文字列が長いと、大量の完全一致がある 11文字を長くすると精度が落ちる 良く現れる単語は候補から除外、遺伝子部分だけ注目 といった処理をしているようだ ・ その他ヒューリスティックサーチ - フーリエ変換を使った判定、指紋法による分類など ・ 類似検索 大量の、コストの高いクエリを実行 アルゴリズム的に簡単な問題設定を ・ 類似殿尺度には、編集距離でなくハミング距離を 線形時間でOK ・ 長さが可変だと大変なので、固定 ・ 長い文書は大変なので、短いものを ハミング距離の計算がますます容易 こういう条件で定式化してみる: 問題: 各項目が同じ長さ l の短い文字列(50文字程度)である データベースを入力したときに、文字列のペアで異なり数(ハミ ング距離)が d 文字以下である組を全て見つけよ 長い文字列の、ハミング距離でない比較 ・ 長くて、ある程度(ハミング距離の意味で)似ている配列は、短 く似ている部分列を必ずある一定数以上含む ・ 長くて、編集距離の意味で似ている配列も、短く似ている部分 列を必ずある一定数以上含むだろう 長い文字列は、オーバーラップするようにスライスして短い文 字列に分解すればよい 分解して比較 ・ 長い文字列を、オーバーラップさせてスライスし、全対比較 ・ 縦横に比較するゲノムをおき マトリクスを作って類似するペアが あるセルの色を白くする(各ピクセル内の 個数によって色の強弱をつける) ・ 長さα、幅βの領域にいくつかのペアが あるときのみ、色を白くする 長さαの部分配列が、誤差 k %弱で 似ているなら、必ず 誤差 k %で似て いる短い部分列がいくつかある 例:長さ3000で10%弱(間違い290)なら、 長さ30で間違い2の部分列を、少なくとも3つは含む 問題の難しさ ・ 全ての項目が同じだと、O(項目数2) 個の出力がある l を定数だと思えば、単純な全対比較のアルゴリズムが 計算量の意味では最適になる 計算量理論的には面白くない問題 ・ 現実には、やたらと似ているものがあるものを比較しても意味 が無い 出力は少ないと仮定する ATGCCGCG GCGTGTAC GCCTCTAT TGCGTTTC TGTAATGA ... ・ ATGCCGCG と AAGCCGCC ・ GCCTCTAT と GCTTCTAA ・ TGTAATGA と GGTAATGG ... 基本のアイディア:文字列の分割 ・ 各文字列を、k(>d) 個のブロックに分割する ・ k-d 個のブロックの場所を指定したときに、そこがまったく等しく て、かつハミング距離がd 以下となるようなペアを全て見つけよ、 という部分問題を考える 各文字列の k-d 個のブロックをつなげてキーにし、ソートをす る。同じものはグループになる。それを総当りで比較すればよい ・ k-d 個のグループ数が大きければ、平均的にグループのメン バー数は小さくなるので、総当りで比較してもたいしたことない 全ての場合を尽くす ・ 先の部分問題を、全ての場所の組合せについて解く 2つの文字列が似てれば、必ずどこか k-d 個のブロックが同じ 必ずどれかの組合せで見つかる ・ 部分問題は、バケツソートやRadixソートで速く解ける ・ 組合せの数は kCd 。のk=5 で d=2 なら10通り ソート10回 +α で解ける。全対比較よりもかなり高速 ・各文字の数から、1文字比較した場合に等しくなる確率を求め、 適切な分割数 k を使用する 例題 ・ ABC、ABD、ACC、EFG、FFG、AFG、GAB のペアでハミ ング距離が1以下のものを求めよ A A A E F A G B B C F F F A C D C G G G B G A A A E F A A B B C F F F B C D C G G G A A A A E F G B C B F F F A C C D G G G B A A A A E F G B B C F F F A C D C G G G B 重複の回避 ・ まったく同じ文字列があると、全てのブロックの組合せで見 つかるので、 kCd 。回出力される 重複を回避する必要がある ・ 各見つかったペアについて、選択されていないブロックが選 択したブロックの間にあったら出力しないようにする 等しいブロックが一番左端によっている場合にのみ出力 メモリに解を保持せずとも、重複が回避できる イメージ的には ・ 似ているもののペアを探す問題は、マトリクスのセルの中で必 要なものを全て見つける問題 ・ 全対比較は、マトリクスのセルをすべて見ていることに対応 ・ 分類によるアルゴリズムは、 分類を順々にしていると思えば、 木構造の探索を行っていることに対応 計算実験 実験:長さ20文字で異なり数 d を変化 人のY染色体から部分配列をとって実験。PenMのノートPC 10000 1000 d=0 d=1 d=2 d=3 10 20 00 70 00 22 95 3 0.1 70 0 1 20 0 計算時間(秒) 100 長さ(1000文字) ゲノムの比較 (1) ヒト21番染色体とチンパンジー22番染色体の比較 ・長さ3000万の配列×2 から、30文字の切片を3000万個取る ・ 似ている部分配列のペアの数に応じて、各ドットの明るさを変える ヒト 21番染色体 ・ 白い部分が 「似ている可能性のある部分」 チ ン ・ 黒い部分が パ 「(絶対に)似ていない部分」 ン ジ ・ 格子模様は、繰り返し 配列を拾っている PCで 1時間で可能 ー 22 番 染 色 体 ゲノムの比較 (2) X ヒトX染色体とマウスX染色体の比較 ・ 30文字で間違い2文 字以下のペアを列挙 ・ 長さ3000、幅300 の領域に3つペア があれば点を打つ マ (誤差10%弱で似て ウ ス いるものは、必ず3つ 染 のペアを含む) 色 体 ・ ノイズをかなり 除去できている PCで 2時間で可能 ヒトX番染色体 ゲノムの比較 (3) バクテリアを30種 ABC順の取得し つなげて比較 ・ 一度に複数の ゲノムを比較できる PCで 1時間で可能 (マイクロアレイ用の)固有な配列のデザイン ・ マイクロアレイの設計には、ゲノム配列中でなるべく他の部分と 似ていない配列が使えるとありがたい ・ 配列の長さは20文字、のように決まっているので、 対象となるゲノムの全て20文字の部分配列を比較し、 似ているものがないもの、を見つければよい ・ 似ている文字列の数、はある種の統計量として利用できるかも しれない 100Mベース、25文字、間違い2文字まで、くらいなら PCで 1時間で可能 (生物学的な)課題点 ・ マウス13番染色体の未解読領域に適用を行っている 既にいくつかの空白部分が埋まった ・ 比較は高速にできるようになった。だが、比較結果をどう使うか、何に 留意する必要があるか、といった点は、まだまだ明らかでない - 実験の指針を出すためには、 何を出力する必要があるか - どの程度の精度が必要か - どこまで処理を自動化すべきか - エラーをどのように扱うべきか 既存のアセンブリングソフト (phred/phrap/consed)では見つからない、 特殊な重なり方をしている相同領域が 見つかる。どう解釈すべきか? (情報学的・システム的な)課題点 ・ 相同検索としての能力は高い ・ しかし、細かい部分で既存のソフトに劣る - アラインメントが取れない - ゲノム固有の制限を入れていない - データベースと連携していない - インストーラ、GUIがない - 実験誤差データを考慮していない - オンラインサービスをするべき ・ 既存のソフトウェアとの連携を 進めていくべきだろう まとめ ・ 擬似クリーク・擬似頻出集合・あいまい頻出集合を列挙する初の 多項式遅延多項式空間アルゴリズムを提案 ・ 分枝限定法的の困難性を、子問題のNP困難性により証明 ・ 計算実験で、現実的な疎データに対する有効性を実証 将来の課題: ・ 計算量と現実的な計算時間のギャップを、より良く説明できるか ・ 計算量は減らせないか ・ 極大な擬似クリーク、または類するものが効率良く列挙可能か ・ 他の構造に技術の転用ができるか (グラフ、ツリー、ベクトルデータなどのあいまいマイニング、大規模 全対比較)
© Copyright 2025 ExpyDoc