演習3の課題 ■データマイニング 1) リンク情報を使ったランキング法 サイバーコミュニティ発見法 2) クラス分類法 決定木/Boosting/ 最適区間領域計算 ■ヒトゲノム解析 1) ドラフト配列アセンブラーの作成 2) 遺伝子写像ソフトの作成 3) 遺伝子発現量情報解析 ■論文の精読 1) XML データ処理 2) WEB グラフ解析 ■データマイニング 1) リンク情報を使ったランキング法 サイバーコミュニティ発見法 WWW全体を web page をノード、hyper-link を有向辺 とする有向グラフとみなす 各ページの重要度 (importance) を実数で表現 Ne 重要度順にページランキング MS Am 初期値を1 Ne0 1 MS 0 1 Am 1 0 Cyber Communities Cyber Community の核となる「コア」を探す • fan と center (Hub と authority) からなる二部グラフをコアとして 内部にもっていると「仮定」 i j • fan が i 個、center が j 個以上の 完全二部グラフを探す (i,j)-コア • center は類似した内容でも互いに リンクしないページ (Microsoft と Sun のような関係) • fan はポータルサイト fan center (i,j)-コア ■データマイニング 2) クラス分類法 決定木/Boosting/最適区間領域計算 Y<b1 ? Yes No X<a1 ? X<a2 ? Y<b2 ? 0 X<a3 ? 1 Y<b4 ? 0 0 1 Y<b3 ? 1 0 1 Copyright Whitehead/MIT Center for Genome Research ■ヒトゲノム解析 1) ドラフト配列アセンブラーの作成 Nature 409, 860 - 921 (2001) © Macmillan Publishers Ltd. Initial sequencing and analysis of the human genome International Human Genome Sequencing Consortium ■ヒトゲノム解析 2) 遺伝子写像ソフトの作成 DNAは約90%解読 約330万個のmRNA TGCTCTGTGGCTGCCAAGAGCCCCTCCTGCAGACAGGGGCCCTGCACTGGACCCCTGGTCTCTGCATCTGTGTGTAGGGGGTAGGTTGTAGGGTGGGGTGAGGAGGGGTTGGCAAAAGTG CCAACTCAGGGAGGACTTCTGGTGACCTGTGGGCCGCTCTCCCTCTTGTGTCTTTGCAGAGCTTGTCAGGAAGATCGGAGGTGCCAAGTAGCAGAGAAAGCATCCCCCAGCTCTGACAGG GAGACAGCACATGTCTAAGGCCCACAAGCCTTGGCCCTACCGGAGGAGAAGTCAATTTTCTTCTCGAAAATACCTGAAAAAAGAAATGAATTCCTTCCAGCAACAGCCACCGCCATTCGG CACAGTGCCACCACAAATGATGTTTCCTCCAAACTGGCAGGGGGCAGAGAAGGACGCTGCTTTCCTCGCCAAGGACTTCAACTTTCTCACTTTGAACAATCAGCCACCACCAGGAAACAG GAGCCAACCAAGGGCAATGGTAAGCCCGGTGGAGGGACGTTCAGAAAGGGTGCATTCTGGCTGCCGGTGCAGAGGGCTGTCATGTAAGCCCACCACAATAATAGAACCAGCCAGTCTGCT CCTCCAGCACAGCTGATGTCTCCAGCTCTCCTGGTCATGCCCAACAAGTACCAGGAACATACATAGACTCTCCTGCAGCAACGGGCTGCTGCGACGTGGGTCTGGGGCTTCTGTGTGCGG GGGTCCCCTTCCTGGAGCTTTTCTTTCAGCCTCCCCTGCAGCCATCACATTGCCAGCCCACCCACTTGCCACCCTCCCCAGCTCTGCAGCTCCCCAACCCAGAACCTCTCCTCCCTCTGG CTGGAGTCTCTGCCTCTTGGAACTTCTTCCTGGCTCAGTGCTCCCAGCCCCTCCCCAGGAGGCACACCCTGCACACCTGCAGCCAAATCCTCCCAGCATCTGCCCCTGTGAGGCCTCAAT AGGAACAGAACAGAAGGGCCCCTGAAAGCAGCAGCACCCCTCCATCCACCTTCTCACCTCCTGTCTGCAACCCAACCTAACATCATAGCCGCACAAACTCTGCCACACATCTCCATGACA CCAGGGACCCTATCAGGGGTCAAGGCAGTGGCATCTGTTCTGCCTTCTCCAGGGGCCCGAGAACAACCTGTACAGCCAGTACGAGCAGAAGGTGCGCCCCTGCATTGACCTCATCGACTC CCTGCGGGCTCTGGGTGTGGAGCAGGACCTGGCCCTGCCAGCCATCGCCGTCATCGGGGACCAGAGCTCGGGCAAGAGCTCTGTGCTGGAGGCACTGTCAGGAGTCGCGCTTCCCAGAGG CAGCGGTAAGTTCAACGGACCACCTTCCCTCCGCAGCAAGCAGCGCCACCTGTAAGCCACAAAGCTTCCCCAGGCACCAAGAGGTTTTAGAGACAGGCTGCTGGGTGAGAGAGCTGGGAA AGACAGGACGCTGGGAGAGAGGCCGCTGAGAGAGACAGGCCACTGGGAGAGACAGGCCGCTGGGAGACAGGCCTCTGGGAGACAGGCTGCTGGGAGAGACACGTTGCTGGGAGAGACAGG TCACTGGGAGAGACAGACCATTGGGAGAGACAGGCTGCTGGGAGGGACAGGCCATTGGGAGACAGGCTGCTGGGAGAGACAGATCACTGGGAGAGACAGGCCGCTGGGAGAGACAGGCCA CTGGGAGGGCCCTAGGAGGGCAGCTTCTCAGGCCTGGTGGCAGGGGGCTGGATTCCCCATACATGTTTAAATAGCTTTCACTGCCCGTGTGTCAGTCAGGTGCAGGGACCTTGCCACCTC TTCCTAGTGGTCTTTGTAAGAATGTAGAAGCATTTCTTTGATAAGTTGATAAGTTTTAGGTGACAGGCGAAGCCTTCTTAAAGAATTGTCTCAATGTTTTGAAAACCTCTTATTTAGGAT CATGATATGAGACACCTTTTCCTTGAACAAAAACTTTTAAAAGTCTGTTTAGAGTGAAGAAGCTGTTGTACATTCATAATTTAATAAAATAATTATAAAGGAAAATGATAAAGGCGGTAC CCTCAGAGTGGGTACTGGAGAGTGTTTAGAAAGGAGTTTTTAGGTAAGCAGGGCATAGGGAAGCCAGCAAGAAGGGGGTGGGACAGGAAGGGGAGCAGCTTCCAGAACCCAAGAAGGAGC AGCATGCAGGGGCCCTGGCAGGTGCAGCGGCAGCAGAGAGCGCCCAGCTCCTTCTCCTCCCTGGCTCCCCTCTCCTGCCACTGCTGCTTACTTCTCAACCCAACCAGAATGCTGGGGTGG CCGGGAGGCATCTGATGGTTTCTCCAAGGTTGCCCAGAGCAAGGTGGGGCTGCTGGAGGGCTGCCCGGACCCTGCACAGCCCCCTGCAACAACCGCAAAGCCACAGTGAGCCTGGGAGAG TGCCCCTCCCCTGGCCTCCCTGCTGCCACCTGCAGCCTGGTCCTTTACCCAGCGTGTCCCGTAAGATGGCCATCAGCCTGGGCACAAGGCAGGAGAGAGTAAGGGTGTGGGATGGCCAGT CCTTCTCCGTGCTCTGGGTTCAGCATTTGGGGCAGTGAGACTACGGGGTGGAGAGTCTGAATGCCAGAGGGCAGGCACGGGACCCTGGGCGAGTCCCATAGTTGGAAGACGGGACAATAC CTCCCTATAGGGCACGGGACAAAGGTCGCGGGTTCTCAGGGCTTCACGGCAGGAGCGTGAGGGCCCCCACCCCAAGGAACTCAGCACCGCTCCCACCTTTCCTGGGTTCAGTAGCATCGG AGGATCCTGCCTCAAAGGGCACTATCAGGATTCCCCTTGCTCCTCCTTCGGGATGTCCGGCTTCTCCTCCAGGCTTTCACCACCTTCTTCCCACTCCTTGAGAGGGGTTCCATGGCCCCT GGATGGGTCTCACTGCTCCACATTCCCGCCATCCCCCACCCCCCACACTAACCAGGGCTGCCCACCGGGACAATTACAGGGCCTGGGGCAGACACCTGACATGCTGACTCCAGCTGCAGA AAGACGGGGAGCCTGGACATGTACCGGAGCCCCAGCATCTGCCTCCATCACTTCCAGGGCAGTGTGGTGGGGGCTATGGCTGTGGTGAGGACTGTGGCTATAGCCACTTGCTCATGTCCA TCGGAGCTCAGGGTGCTTACTCCGGCAGCGAACACTTCCCAAGGATAGCAGCACCTCCCAGGGCCCTGTGCCCCTTTGCATCTGCTCAGTCCAGACCCCCTCACCTACTACCAGGCCCCA GGGAGAGCCAGAAAGTGCAGACGAGGCCTTTGGGGACAGCAGGGCAGGTTCTGGGAGCGAAGGGCCCAGTGCCACTTCTTTAAAAGGAAACTGAGGATATTTGGGGAACCTCTCGCTCAG GAATCGTAACCAGGTGTCCGCTGGTGCTGAAACTGAAAAAGCAGCCCTGTGAGGCATGGGCCGGAAGGATCAGCTACCGGAACACCGAGCTAGAGCTTCAGGACCCTGGCCAGGTGGAGA AAGAGATACACAAAGGTGGGCCCACGTCATTCTGAGGTTCGGATCTGGCAGCCGCTCCTCTCACTTCCTCGGTTCCTTCTCCTCTTCCTCAAGTCACCCCCACAGTGACCACTCAGCTCC CTAGCCCCATGTGCTCCCACATGGGGCTGAACCCATTGCTGTCACCTCCACCATCCCTCCAGGTCCTTGTCCAGGTCCCCTCTCATCGAGTCATCCCATGCCGAGGACCCTCTGGTGGCT TCCCTTAGCAGCCTGCAGCCCACGTGGCTGGCCTTACCTGTCCTCTCCCGCTCCCCGCCAGCCAGGCTTTCTCTACTCCACAGGGTACTCGCCCTCTCTTCCTTCCAGGTTTCTCCCCTT CACCTGCCCAATCCCTACTCGATCTTTGGATCTCAGGTCACCTGCGCCCCCTTTGGAAATGCTGCTGCAGGACCCCTGGTCCCACCCCAGGTGTCACAACCATGGCTTGTCTTCCTGAAG TTCAGCTCTAACCCTGGCCAGCCACCTTGTGGCCACCTTTCCTCCCAGCACCCCCTCCAA ATGTCTAAGGCCCACAAGCCTTGGCCCTACCGGAGGAGAAGTCAATTTTCTTCTCGAAAATACCTGAAAAAAGAAATGAATTCCTTCCAGCAACA GCCACCGCCATTCGGCACAGTGCCACCACAAATGATGTTTCCTCCAAACTGGCAGGGGGCAGAGAAGGACGCTGCTTTCCTCGCCAAGGACTTCA ACTTTCTCACTTTGAACAATCAGCCACCACCAGGAAACAGGAGCCAACCAAGGGCAATGGGGCCCGAGAACAACCTGTACAGCCAGTACGAGCAG AAGGTGCGCCCCTGCATTGACCTCATCGACTCCCTGCGGGCTCTGGGTGTGGAGCAGGACCTGGCCCTGCCAGCCATCGCCGTCATCGGGGACCA GAGCTCGGGCAAGAGCTCTGTGCTGGAGGCACTGTCAGGAGTCGCGCTTCCCAGAGGCAGCGGAATCGTAACCAGGTGTCCGCTGGTGCTGAAAC TGAAAAAGCAGCCCTGTGAGGCATGGGCCGGAAGGATCAGCTACCGGAACACCGAGCTAGAGCTTCAGGACCCTGGCCAGGTGGAGAAAGAGATA CACAAAG 遺伝子発現量データと配列構造のブリッジ 完全長 cDNA 転写コントロール 領域の解析 5’ EST 3’ EST Bodymap Microarray 組織別遺伝子発現量 Gene Resource Locator Project http://grl.gi.k.u-tokyo.ac.jp/ ■ヒトゲノム解析 3) 遺伝子発現量情報解析 growth hormone serum albumin cardiac myosin binding protein-C ribosomal protein L9 http://bodymap.ims.u-tokyo.ac.jp/ 18998 ヒト cDNAs iAFLP: PCR-based method Homo sapiens ribosomal protein L27a (RPL27A) mRNA. fibrinogen alpha chain Examples of Clusters fetal liver & liver Examples of Clusters ribosomal protein ■論文の精読 1) XML データ処理 <xml> <readinglist> <paper> <booktitle>SIGMOD’00</booktitle> <title>XML … </title> <authors> <author> <name>”John Doe”</name> </author> <author> <name>”Jim Watt”</name> </author> </authors> </paper> XML データの例 <paper> <booktitle>PODS’99</booktitle> <title>Database … </title> <authors> <author> <name>”Frank Guy”</name> <email>”[email protected]”</email> </author> </authors> </paper> <book> <title>Web … </title> <authors> <author><name>”Pete Moore”</name></author> </authors> </book> </readinglist> </xml> XML に関する研究の例 • データの問合せ • データの加工 • データ圧縮 XMLデータの木構造表示 paper booktitle 3 title readinglist 1 paper 10 2 booktitle 4 authors 11 17 title 12 authors 13 5 book title authors 18 19 “SIGMOD’00” “SIGMOD’00” “XML …” 6 author “John Doe” 8 author 7 name “XML …” 9 name “Jim Watt” “Web …” 14 author 20 author name email 15 “Franc Guy” name 21 16 “[email protected]” “Pete Moore” ■論文の精読 2) WEB グラフ解析 “Bow-tie” Theory Copyright http://www.almaden.ibm.com/cs/k53/www9.final/ Web Graph Structure Power Law の検証 「あるページを指しているリンクの数が i である確率は 1/xi に比例する」 Web Graph Structure 1 2.1i in-degree = in-coming arc の数 Copyright http://www.almaden.ibm.com/cs/k53/www9.final/ セミナー日程 毎週木曜日午後3-4時 場所 教官室(301号室) HP http://www.gi.k.u-tokyo.ac.jp/~moris/lecture/enshu3/index.htm
© Copyright 2024 ExpyDoc