ガイダンスに使った MS PowerPoint ファイル

演習3の課題
■データマイニング
1) リンク情報を使ったランキング法
サイバーコミュニティ発見法
2) クラス分類法 決定木/Boosting/
最適区間領域計算
■ヒトゲノム解析
1) ドラフト配列アセンブラーの作成
2) 遺伝子写像ソフトの作成
3) 遺伝子発現量情報解析
■論文の精読
1) XML データ処理
2) WEB グラフ解析
■データマイニング
1) リンク情報を使ったランキング法
サイバーコミュニティ発見法
WWW全体を web page をノード、hyper-link を有向辺
とする有向グラフとみなす
各ページの重要度
(importance) を実数で表現
Ne
重要度順にページランキング
MS
Am
初期値を1
 Ne0  1

  
 MS 0   1
 Am  1
 0  
Cyber Communities
Cyber Community の核となる「コア」を探す
• fan と center (Hub と authority)
からなる二部グラフをコアとして
内部にもっていると「仮定」
i
j
• fan が i 個、center が j 個以上の
完全二部グラフを探す (i,j)-コア
• center は類似した内容でも互いに
リンクしないページ
(Microsoft と Sun のような関係)
• fan はポータルサイト
fan
center
(i,j)-コア
■データマイニング
2) クラス分類法 決定木/Boosting/最適区間領域計算
Y<b1 ?
Yes
No
X<a1 ?
X<a2 ?
Y<b2 ?
0
X<a3 ?
1
Y<b4 ?
0
0
1
Y<b3 ?
1
0
1
Copyright Whitehead/MIT Center for Genome Research
■ヒトゲノム解析
1) ドラフト配列アセンブラーの作成
Nature 409, 860 - 921 (2001) © Macmillan Publishers Ltd.
Initial sequencing and analysis of the human genome
International Human Genome Sequencing Consortium
■ヒトゲノム解析
2) 遺伝子写像ソフトの作成
DNAは約90%解読
約330万個のmRNA
TGCTCTGTGGCTGCCAAGAGCCCCTCCTGCAGACAGGGGCCCTGCACTGGACCCCTGGTCTCTGCATCTGTGTGTAGGGGGTAGGTTGTAGGGTGGGGTGAGGAGGGGTTGGCAAAAGTG
CCAACTCAGGGAGGACTTCTGGTGACCTGTGGGCCGCTCTCCCTCTTGTGTCTTTGCAGAGCTTGTCAGGAAGATCGGAGGTGCCAAGTAGCAGAGAAAGCATCCCCCAGCTCTGACAGG
GAGACAGCACATGTCTAAGGCCCACAAGCCTTGGCCCTACCGGAGGAGAAGTCAATTTTCTTCTCGAAAATACCTGAAAAAAGAAATGAATTCCTTCCAGCAACAGCCACCGCCATTCGG
CACAGTGCCACCACAAATGATGTTTCCTCCAAACTGGCAGGGGGCAGAGAAGGACGCTGCTTTCCTCGCCAAGGACTTCAACTTTCTCACTTTGAACAATCAGCCACCACCAGGAAACAG
GAGCCAACCAAGGGCAATGGTAAGCCCGGTGGAGGGACGTTCAGAAAGGGTGCATTCTGGCTGCCGGTGCAGAGGGCTGTCATGTAAGCCCACCACAATAATAGAACCAGCCAGTCTGCT
CCTCCAGCACAGCTGATGTCTCCAGCTCTCCTGGTCATGCCCAACAAGTACCAGGAACATACATAGACTCTCCTGCAGCAACGGGCTGCTGCGACGTGGGTCTGGGGCTTCTGTGTGCGG
GGGTCCCCTTCCTGGAGCTTTTCTTTCAGCCTCCCCTGCAGCCATCACATTGCCAGCCCACCCACTTGCCACCCTCCCCAGCTCTGCAGCTCCCCAACCCAGAACCTCTCCTCCCTCTGG
CTGGAGTCTCTGCCTCTTGGAACTTCTTCCTGGCTCAGTGCTCCCAGCCCCTCCCCAGGAGGCACACCCTGCACACCTGCAGCCAAATCCTCCCAGCATCTGCCCCTGTGAGGCCTCAAT
AGGAACAGAACAGAAGGGCCCCTGAAAGCAGCAGCACCCCTCCATCCACCTTCTCACCTCCTGTCTGCAACCCAACCTAACATCATAGCCGCACAAACTCTGCCACACATCTCCATGACA
CCAGGGACCCTATCAGGGGTCAAGGCAGTGGCATCTGTTCTGCCTTCTCCAGGGGCCCGAGAACAACCTGTACAGCCAGTACGAGCAGAAGGTGCGCCCCTGCATTGACCTCATCGACTC
CCTGCGGGCTCTGGGTGTGGAGCAGGACCTGGCCCTGCCAGCCATCGCCGTCATCGGGGACCAGAGCTCGGGCAAGAGCTCTGTGCTGGAGGCACTGTCAGGAGTCGCGCTTCCCAGAGG
CAGCGGTAAGTTCAACGGACCACCTTCCCTCCGCAGCAAGCAGCGCCACCTGTAAGCCACAAAGCTTCCCCAGGCACCAAGAGGTTTTAGAGACAGGCTGCTGGGTGAGAGAGCTGGGAA
AGACAGGACGCTGGGAGAGAGGCCGCTGAGAGAGACAGGCCACTGGGAGAGACAGGCCGCTGGGAGACAGGCCTCTGGGAGACAGGCTGCTGGGAGAGACACGTTGCTGGGAGAGACAGG
TCACTGGGAGAGACAGACCATTGGGAGAGACAGGCTGCTGGGAGGGACAGGCCATTGGGAGACAGGCTGCTGGGAGAGACAGATCACTGGGAGAGACAGGCCGCTGGGAGAGACAGGCCA
CTGGGAGGGCCCTAGGAGGGCAGCTTCTCAGGCCTGGTGGCAGGGGGCTGGATTCCCCATACATGTTTAAATAGCTTTCACTGCCCGTGTGTCAGTCAGGTGCAGGGACCTTGCCACCTC
TTCCTAGTGGTCTTTGTAAGAATGTAGAAGCATTTCTTTGATAAGTTGATAAGTTTTAGGTGACAGGCGAAGCCTTCTTAAAGAATTGTCTCAATGTTTTGAAAACCTCTTATTTAGGAT
CATGATATGAGACACCTTTTCCTTGAACAAAAACTTTTAAAAGTCTGTTTAGAGTGAAGAAGCTGTTGTACATTCATAATTTAATAAAATAATTATAAAGGAAAATGATAAAGGCGGTAC
CCTCAGAGTGGGTACTGGAGAGTGTTTAGAAAGGAGTTTTTAGGTAAGCAGGGCATAGGGAAGCCAGCAAGAAGGGGGTGGGACAGGAAGGGGAGCAGCTTCCAGAACCCAAGAAGGAGC
AGCATGCAGGGGCCCTGGCAGGTGCAGCGGCAGCAGAGAGCGCCCAGCTCCTTCTCCTCCCTGGCTCCCCTCTCCTGCCACTGCTGCTTACTTCTCAACCCAACCAGAATGCTGGGGTGG
CCGGGAGGCATCTGATGGTTTCTCCAAGGTTGCCCAGAGCAAGGTGGGGCTGCTGGAGGGCTGCCCGGACCCTGCACAGCCCCCTGCAACAACCGCAAAGCCACAGTGAGCCTGGGAGAG
TGCCCCTCCCCTGGCCTCCCTGCTGCCACCTGCAGCCTGGTCCTTTACCCAGCGTGTCCCGTAAGATGGCCATCAGCCTGGGCACAAGGCAGGAGAGAGTAAGGGTGTGGGATGGCCAGT
CCTTCTCCGTGCTCTGGGTTCAGCATTTGGGGCAGTGAGACTACGGGGTGGAGAGTCTGAATGCCAGAGGGCAGGCACGGGACCCTGGGCGAGTCCCATAGTTGGAAGACGGGACAATAC
CTCCCTATAGGGCACGGGACAAAGGTCGCGGGTTCTCAGGGCTTCACGGCAGGAGCGTGAGGGCCCCCACCCCAAGGAACTCAGCACCGCTCCCACCTTTCCTGGGTTCAGTAGCATCGG
AGGATCCTGCCTCAAAGGGCACTATCAGGATTCCCCTTGCTCCTCCTTCGGGATGTCCGGCTTCTCCTCCAGGCTTTCACCACCTTCTTCCCACTCCTTGAGAGGGGTTCCATGGCCCCT
GGATGGGTCTCACTGCTCCACATTCCCGCCATCCCCCACCCCCCACACTAACCAGGGCTGCCCACCGGGACAATTACAGGGCCTGGGGCAGACACCTGACATGCTGACTCCAGCTGCAGA
AAGACGGGGAGCCTGGACATGTACCGGAGCCCCAGCATCTGCCTCCATCACTTCCAGGGCAGTGTGGTGGGGGCTATGGCTGTGGTGAGGACTGTGGCTATAGCCACTTGCTCATGTCCA
TCGGAGCTCAGGGTGCTTACTCCGGCAGCGAACACTTCCCAAGGATAGCAGCACCTCCCAGGGCCCTGTGCCCCTTTGCATCTGCTCAGTCCAGACCCCCTCACCTACTACCAGGCCCCA
GGGAGAGCCAGAAAGTGCAGACGAGGCCTTTGGGGACAGCAGGGCAGGTTCTGGGAGCGAAGGGCCCAGTGCCACTTCTTTAAAAGGAAACTGAGGATATTTGGGGAACCTCTCGCTCAG
GAATCGTAACCAGGTGTCCGCTGGTGCTGAAACTGAAAAAGCAGCCCTGTGAGGCATGGGCCGGAAGGATCAGCTACCGGAACACCGAGCTAGAGCTTCAGGACCCTGGCCAGGTGGAGA
AAGAGATACACAAAGGTGGGCCCACGTCATTCTGAGGTTCGGATCTGGCAGCCGCTCCTCTCACTTCCTCGGTTCCTTCTCCTCTTCCTCAAGTCACCCCCACAGTGACCACTCAGCTCC
CTAGCCCCATGTGCTCCCACATGGGGCTGAACCCATTGCTGTCACCTCCACCATCCCTCCAGGTCCTTGTCCAGGTCCCCTCTCATCGAGTCATCCCATGCCGAGGACCCTCTGGTGGCT
TCCCTTAGCAGCCTGCAGCCCACGTGGCTGGCCTTACCTGTCCTCTCCCGCTCCCCGCCAGCCAGGCTTTCTCTACTCCACAGGGTACTCGCCCTCTCTTCCTTCCAGGTTTCTCCCCTT
CACCTGCCCAATCCCTACTCGATCTTTGGATCTCAGGTCACCTGCGCCCCCTTTGGAAATGCTGCTGCAGGACCCCTGGTCCCACCCCAGGTGTCACAACCATGGCTTGTCTTCCTGAAG
TTCAGCTCTAACCCTGGCCAGCCACCTTGTGGCCACCTTTCCTCCCAGCACCCCCTCCAA
ATGTCTAAGGCCCACAAGCCTTGGCCCTACCGGAGGAGAAGTCAATTTTCTTCTCGAAAATACCTGAAAAAAGAAATGAATTCCTTCCAGCAACA
GCCACCGCCATTCGGCACAGTGCCACCACAAATGATGTTTCCTCCAAACTGGCAGGGGGCAGAGAAGGACGCTGCTTTCCTCGCCAAGGACTTCA
ACTTTCTCACTTTGAACAATCAGCCACCACCAGGAAACAGGAGCCAACCAAGGGCAATGGGGCCCGAGAACAACCTGTACAGCCAGTACGAGCAG
AAGGTGCGCCCCTGCATTGACCTCATCGACTCCCTGCGGGCTCTGGGTGTGGAGCAGGACCTGGCCCTGCCAGCCATCGCCGTCATCGGGGACCA
GAGCTCGGGCAAGAGCTCTGTGCTGGAGGCACTGTCAGGAGTCGCGCTTCCCAGAGGCAGCGGAATCGTAACCAGGTGTCCGCTGGTGCTGAAAC
TGAAAAAGCAGCCCTGTGAGGCATGGGCCGGAAGGATCAGCTACCGGAACACCGAGCTAGAGCTTCAGGACCCTGGCCAGGTGGAGAAAGAGATA
CACAAAG
遺伝子発現量データと配列構造のブリッジ
完全長 cDNA
転写コントロール
領域の解析
5’ EST
3’ EST
Bodymap
Microarray
組織別遺伝子発現量
Gene Resource Locator Project
http://grl.gi.k.u-tokyo.ac.jp/
■ヒトゲノム解析
3) 遺伝子発現量情報解析
growth
hormone
serum
albumin
cardiac myosin
binding protein-C
ribosomal
protein L9
http://bodymap.ims.u-tokyo.ac.jp/
18998 ヒト cDNAs
iAFLP: PCR-based method
Homo sapiens ribosomal protein L27a (RPL27A) mRNA.
fibrinogen alpha chain
Examples of Clusters
fetal liver &
liver
Examples of Clusters
ribosomal
protein
■論文の精読
1) XML データ処理
<xml>
<readinglist>
<paper>
<booktitle>SIGMOD’00</booktitle>
<title>XML … </title>
<authors>
<author>
<name>”John Doe”</name>
</author>
<author>
<name>”Jim Watt”</name>
</author>
</authors>
</paper>
XML データの例
<paper>
<booktitle>PODS’99</booktitle>
<title>Database … </title>
<authors>
<author>
<name>”Frank Guy”</name>
<email>”[email protected]”</email>
</author>
</authors>
</paper>
<book>
<title>Web … </title>
<authors>
<author><name>”Pete Moore”</name></author>
</authors>
</book>
</readinglist>
</xml>
XML に関する研究の例
• データの問合せ
• データの加工
• データ圧縮
XMLデータの木構造表示
paper
booktitle
3 title
readinglist
1
paper
10
2
booktitle
4
authors
11
17
title 12
authors 13
5
book
title
authors
18
19
“SIGMOD’00”
“SIGMOD’00”
“XML …”
6
author
“John Doe”
8
author
7
name
“XML …”
9
name
“Jim Watt”
“Web …”
14
author
20
author
name
email
15
“Franc Guy”
name 21
16
“[email protected]”
“Pete Moore”
■論文の精読
2) WEB グラフ解析
“Bow-tie” Theory
Copyright http://www.almaden.ibm.com/cs/k53/www9.final/
Web Graph Structure
Power Law の検証
「あるページを指しているリンクの数が
i である確率は 1/xi に比例する」
Web Graph Structure
1
2.1i
in-degree = in-coming arc の数
Copyright http://www.almaden.ibm.com/cs/k53/www9.final/
セミナー日程
毎週木曜日午後3-4時
場所 教官室(301号室)
HP http://www.gi.k.u-tokyo.ac.jp/~moris/lecture/enshu3/index.htm