DDBJ/CIB Report 2005 - 国立遺伝学研究所

DNA Data Bank of Japan (DDBJ)
National Institute of Genetics
Center for Information Biology and DNA Data Bank of Japan
March 2005
DDBJ/CIB
Report
DDBJ/CIB Report
March 2005
目次
DDBJ Report
救世主は生まれるか? ---------------------------------- 1
DDBJ 2004 年の動向 ------------------------------------ 2
DDBJ からのおしらせ ----------------------------------- 8
DDBJ における遺伝子発現データベース
(CIBEX) の取り扱いに関して --------------------- 10
H-Invitational Database CIB-DDBJ Flat File Server の構築 ---- 12
第 17 回国際実務者会議報告 ------------------------------ 16
DDBJ Statistics -------------------------------------- 17
DDBJ 活動に関連したアドレス一覧 -------------------------巻末
CIB-DDBJ Research Report
1.
2.
3.
4.
5.
News from CIB-DDBJ -----------------------------Research Activities in CIB-DDBJ ----------------CIB-DDBJ Staff Publications --------------------CIB-DDBJ Staff Oral Presentations --------------CIB-DDBJ Research Staff -------------------------
24
25
43
46
48
救世主は生まれるか?
大久保 公策
国立遺伝学研究所 生命情報・DDBJ 研究センター 遺伝子発現解析研究室
「20世紀の社会は本当に耐えられないような専門化の100年でした。これは科学の内部においても同じで
あって,たとえば同じ医学の内部でも,専門によって言葉も違うし,判断も違うという状況です。ですから
21世紀を何らかの意味での綜合の世紀にしなければ,
我々の知識そのものが空中分解してしまうでしょう。
」
(渡辺慧 知るということ 東京大学出版 1986 年)
生命科学分野に身をおく私どもにとっても今日のこの分野はまさに " 耐えられない " 状況です。蛸壺のよう
な専門領域の分断によって生じた分野全体の見通しの悪さにより「広い視野や深い洞察に基づく思考」は稀
有なものになり,この分野の健全な展開に暗い影を落としています。社会から見れば,その難解さの程度は
よりいっそうであると思われ,共有できない知識を産む分野であり続ければその存続自体が危ぶまれます。
歴史を振り返り,綜合法則を導いてくれる救世主のような知の巨人の出現を待つ風潮もありますが,この手
に負えない詳細化が研究の目や手の役割を機械化することによって増幅されているとしたら,果たしてこの
混沌に秩序をもたらす生身の救世主は生まれるでしょうか?
DDBJ は分野を横断して配列という共通語を蓄え配列による検索を提供してきました。分野の機械化がもた
らしたデータ生産性の向上は年々蓄えて維持する配列と付記されるそれぞれの専門知識の量を増大させ,多
様化させています。しかしながら配列と生物種以外に共通語を持たない分野においては,分野の知の集積で
あるはずの配列バンクを利用しつくすために不可欠な「配列以外による検索」の効果は疑問であり続けるで
しょう。
「こんな形の配列」を返すだけでなく「こんな役割の配列」を返すという当たり前の課題は,実は分
野を横断する新たな共通語なくしては果たせない課題です。配列バンクという新たな蛸壺を作らず,"耐えら
れなさ" をつねに感じ配列以外の共通語を紡ぎだすことこそはコレクターに課せられた使命であると同時に,
本来コレクターの楽しみでもあるはずです。今世紀,生命科学の救世主がこの共通語と配列データバンクを
使って洞察し,考え,綜合法則を導けるように,バンクの当たり前の機能として「こんな役割の配列」を返
せるように,私もバンクに貢献できればと思います。
= DDBJ Report 2005 = 1
DDBJ 2004 年の動向 2004年 DDBJ 活動の年次報告です。最新のおしらせは HP や DDBJ メールマガジンにてご案内しています。
メー
ルマガジンは次の URL からどうぞお申し込み下さい。 http://www.ddbj.nig.ac.jp/ddbjnew/mag/
■ 1. DDBJ の運営体制
■ 1-1. 法人化に伴う名称の変更
2004 年 4 月(平成 16 年度)より DDBJ を運営している国立遺伝学研究所が「大学共同利用機関法人 情報・システム研究機構」を構成する 4 研究所のうちのひとつに変わりました。国立遺伝学研究所以外
にこの機構を構成する研究所は,国立情報学研究所・統計数理研究所・国立極地研究所です。DDBJ で
はこの改革に関連したサービスの変更はありません。
変更後の名称
大学共同利用機関法人 情報・システム研究機構
国立遺伝学研究所
日本 DNA データバンク
Research Organization of Information and Systems
National Institute of Genetics
DNA Data Bank of Japan
変更前の名称
文部科学省
国立遺伝学研究所
日本 DNA データバンク
MEXT (Ministry of Education, Culture, Sports, Science and Technology)
National Institute of Genetics
DNA Data Bank of Japan
■ 2. DDBJ/EMBL/GenBank 国際塩基配列データベース
■ 2-1. データ量の動向(DDBJ リリースおよび DAD リリース)
国際塩基配列データベースは収集件数・収集総塩基数ともに増加を続け,2004 年 12 月には 440 億塩基,
4000 万件を超えました。このうち,件数ベースで 16.6%(塩基数ベースでは 10%)を DDBJ が収集して
います。DDBJ の最新リリースは 12 月に公開した DDBJ rel. 60 で,エントリ数は 40,583,945,総塩基数
は 44,416,752,273 塩基です。
DAD (DDBJ Amino acid Database) の最新リリース 30 は 2005 年 1 月に公開しています。エントリ数が
2,169,069,総アミノ残基数が 669,311,612 aa となっています。
これらの定期リリースおよびリリース公開後の新着データは,DDBJ の FTP サイトから取得することが
できます。フラットファイル形式に加え,FASTA 形式・XML 形式や CDS 配列の FASTA 形式など複数
の形式で提供していますので,どうぞご利用下さい。リリースに関する詳細は 17 ページからの「DDBJ
statistics」をご覧下さい。
●リリースデータ取得 http://www.ddbj.nig.ac.jp/anoftp-j.html
■ 2-2. 国際実務者会議・諮問委員会
CIB/DDBJ, EBI/EMBL, NCBI/GenBank 国際 DNA データバンクは,DDBJ/EMBL/GenBank 国際塩基配列
データベース共同構築の運営・推進をはかるために,国際諮問委員会と国際実務者会議を年1回開催し
ています。2004 年は EBI のあるケンブリッジで第 17 回国際実務者会議(5 月 17 日− 19 日)と,第 15 回
国際諮問委員会(5 月 20 日− 21 日)が開催されました。DDBJ からは国際実務者会議に5名の,国際諮
問委員会に4名のスタッフが出席しました。以下の記事 2-3・2-8・2-9 はこの会議での決定を踏まえての
変更事項です。会議の詳細は本号 16 ページの「第 17 回国際実務者会議報告」をご覧下さい。
■ 2-3. SAKURA で登録可能な塩基配列長増加
国際塩基配列データベースでは1エントリの最大塩基配列長に関する規約(最大 350,000 bp)がありま
したが,この制限を 6 月より撤廃しました。DDBJ の提供する塩基配列データ登録システム SAKURA で
は機能上の制約から登録可能な塩基配列長に制限がありますが,登録可能な配列長が増加しました。こ
れまでは 20 bp ∼ 350,000 bp でしたが,9 月より 20 bp ∼ 500,000 bp になりました。ただし 500,000 bp 以
下であっても,ご使用になるコンピュータシステム,web ブラウザなどの環境により入力できないこと
2 = DDBJ Report 2005 =
があります。詳細は SAKURA ページ左カラムにある「SAKURA の利用上の注意および制限」をご覧下
さい。500,000 bp を超える配列を登録される場合は大量登録システムをご利用下さい。
最大値 500,000 bp までの配列データを取り扱えるブラウザ
Windows
Internet Explorer 6.0, 5.5
Netscape 7.X, 6.2
Macintosh
Linux
Netscape 7.X, 6.2, 4.7
Netscape 7.X, 6.2, 4.7
Mozilla 1.7.2
● SAKURA http://sakura.ddbj.nig.ac.jp/
●大量登録
http://www.ddbj.nig.ac.jp/sub/masssub-j.html
■ 2-4. ヒトゲノム配列最新版公開
国際ヒトゲノムシーケンス決定コンソーシアムによってヒトゲノム配列の最新版が 10 月 21 日発行の
Nature (vol.431, pp.931 - 945; Oct. 21, 2004) に発表されました。既に同コンソーシアムは 2001 年にヒトゲ
ノムを概要配列を発表し,2003 年 4 月にヒトゲノム全配列解読完了を宣言していましたが,今回,全配
列の 99%以上を決定した最新版が発表されました。上記最新版の配列を,セレラ社が決定した配列とと
もに,DDBJ の以下の web サイトから入手できます。
●ヒトゲノム完成配列 (Build 35.1) 取得 http://studio.nig.ac.jp/human_genome-j.html
■ 2-5. H-Invitational データベースの公開
H-Invitational (Human Full-length cDNA Annotation Invitational) はヒト完全長 cDNA (complementaryDNA)
に対してさまざまなバイオインフォマティクス解析を実行し,機能アノテーションを付与した国際的プ
ロジェクトで,国立遺伝学研究所(現:大学共同利用機関法人 情報・システム研究機構 国立遺伝学
研究所)生命情報・DDBJ 研究センター(CIB-DDBJ)
,産業技術研究
所 生物情報解析研究センター(AIST/JBIRC)
,社団法人バイオ産業
情報化コンソーシアム(JBIC)によって共同主催されてきました。
CIB-DDBJ では H-Invitational で解析されたヒト完全長 cDNA データ
セットの機能アノテーションの成果を公開するためのデータベース,
H-Invitational Database CIB-DDBJ Flat File Server を構築し,4 月に公
開しました。
このデータベースでは H-Invitational で付与された機能アノテーショ
ンを国際塩基配列データベースの形式に準拠した形式のフラット
ファイルで表示しています(DDBJ 版フラットファイル)。さらに,
本サイトでは cDNA がマップされたヒトゲノム上の Locus 情報も提
供しています。全てのデータに対して,DDBJ 版フラットファイルだ
けでなく,JBIRC によって作成されたフラットファイル(JBIRC 版
フラットファイル)および XML ファイルも提供しています。これ
▲ H-Invitational Database CIBDDBJ Flat File Server トップページ
らのデータは FTP サイトから取得することができます。また,JBIRC で公開されている H-Invitational
Database (H-Inv DB) のミラーサイトも合わせて CIB-DDBJ から公開しています。同サービスについては
本号 12 ページからの「H-Invitational Database CIB-DDBJ Flat File Server の構築」をご覧下さい。
● H-Invitational Database CIB-DDBJ Flat File Server http://hinv.ddbj.nig.ac.jp/
■ 2-6. Mus musculus molossinus データの大幅な増加について
9月公開のDDBJ リリース 59 でマウス (Mus musculus molossinus) の登録塩基数が 44,452 bp から 279,762,931
bp に大幅に増加しました。これは,6 月にそれまでに公開されていた Mus musculus molossinus の登録塩
基数 (44,452 bp) に,理化学研究所ゲノムサイエンスセンターにより公開された,337,471 エントリ分の
塩基数が追加されたためです。この配列は理化学研究所バイオリソースセンター,阿部訓也先生が作成
した Mus musculus molossinus-MSM mouse BAC clone library の末端の配列であり,以下の論文でそれら
のデータの詳細が発表されました。データのアクセッション番号は AG275743-AG613213 です。これら
の配列は,DDBJ の getentry で取得することができます。各々の MSM BAC クローンは,寄託先である
理化学研究所バイオリソースセンター遺伝子材料開発室から入手できます。詳しくは MSM Mouse BAC
clones & Library をご覧下さい。
●論文情報 Contribution of Asian mouse subspecies Mus musculus molossinus to genomic constitution of strain C57BL/
6J, as defined by BAC-end sequence-SNP analysis. Genome Res. 2004 Dec;14(12):2439-47.
= DDBJ Report 2005 = 3
● getentry
http://getentry.ddbj.nig.ac.jp/
● MSM Mouse BAC clones & Library http://www.brc.riken.jp/lab/dna/ja/MSMbac.html
■ 2-7. カイコゲノムデータ公開
DDBJ は 4 月に,WGS (Whole Genome Shotgun) 方式を用いて登録されたカイコ (Bombyx mori) ゲノムの
塩基配列を公開しました。
この塩基配列は,
独立行政法人 農業生物資源研究所 Silkworm Genome Research Program が Whole Genome
Shotgun 方式で決定しました。データのアクセッション番号は BAAB01000001-BAAB01213289 (213,289
エントリ・381,906,524 bp) で,カイコゲノムの約 80% に相当します。これらの配列は,DDBJ の getentry
で取得することができます。
WGS データは FTP サイトから提供しています。WGS 用のディレクトリに,テキスト版と HTML 版の
WGS ORGANISM LIST が用意してありますのでご覧下さい。
●論文情報 Abstract The genome sequence of silkworm, Bombyx mori. DNA Res. 2004 Feb 29;11(1):27-35.
● WGS 配列データについて http://www.ddbj.nig.ac.jp/sub/wgs-j.html
● getentry
http://getentry.ddbj.nig.ac.jp/
● FTP サイト WGS データ
ftp://ftp.ddbj.nig.ac.jp/database/wgs/
■ 2-8. 一部 CON エントリの修正のおしらせ
国際塩基配列データベースに登録する際の1エントリ当たりの配列長は,以前まで 350 kbp 以下に制限
されていました。そのため,これを超える長さの配列を登録する場合には 350 kbp 以下に分断したエン
トリ(ピースエントリ)として登録し,ピースエントリを統合する情報を CON (Contig/Constructed) エ
ントリとして構築し公開していました。
しかしながら,6 月に配列長制限を撤廃したことにに伴い,過去に登録を受け付ける際,ピースエント
リとして分割した配列を元の連続した配列に集約し1エントリとして再公開を行なうことになりました。
以下の要領でピースエントリと CON エントリを集約し,1エントリに修正いたします。
■ CON エントリのアクセッション番号を残し,これに集約します。
■ ピースエントリ自体は非公開化され,そのアクセッション番号はセカンダリアクセッション番
号 * となります。
■ ピースエントリに記載されていた feature 情報と配列は集約された1つのエントリに継承されます。
■集約後は CON エントリではなく,各生物に対応した division に移行します。
*修正後に getentry などの検索ツールでピースエントリのアクセッション番号を検索した場合,CON エ
ントリのアクセッション番号を持つ集約されたエントリが結果として返ります。
● CON エントリの詳細 http://www.ddbj.nig.ac.jp/sub/locus-j.html
■ 2-9. SEGMENT で記述されている登録データの修正について
国際塩基配列データベースに登録する際,配列に不明部位が含まれる場合は配列不明部位で分断されて
いる1つ1つの配列に対して各々アクセッション番号を発行し,その旨 SEGMENT で記述する形式を採
用していました。
しかしながら,DDBJ/EMBL/GenBank の査定方針の変更に伴い,7月以降の登録において配列不明部位
が含れる場合,
配列が不明な領域に "n" を挿入した1つの配列として登録して頂くこととなりました。挿
入される "n" の長さは,配列の不明な領域の長さが予測される場合は,その長さ分の "n" を,長さが予
測出来ない場合は,100 個の "n" としております。7月以前に登録された SEGMENT で記述されている
エントリにつきましても,上記の方針に従い配列不明部位で分断されている1つ1つの配列を配列が不
明な領域に "n" を挿入した1つの配列にし,1つのエントリに集約する形式に修正させて頂いておりま
す。集約に際しては,SEGMENT で記述されているエントリのアクセッション番号は,集約先のエント
リのセカンダリアクセッション番号とさせて頂きます。また,既に公開されている登録データにつきま
しては,修正後のエントリを順次公開していく予定です。
SEGMENT で記述されているエントリの修正例:
集約前: D85375 D85376 集約後: D85376
配列不明部位のある配列のご登録について:
配列の不明な領域の長さが予測出来ない配列を SAKURA から登録する場合は,
「登録データ種類」で
4 = DDBJ Report 2005 =
"multi-exons with unknown gaps" を選択して,配列決定された部位のみを登録して下さい。配列不明部位
に自動的に 100 個の "n" が挿入された形で登録されます。
■ 2-10. 磁気テープによるリリースデータ配付終了
DDBJ では磁気テープによる塩基配列データ (DDBJ) とアミノ酸配列データ (Swiss-Prot) の配布サービス
を行なっていましたが,平成 16 年度(2005 年 3 月まで)のリリース公開を最後に終了することになりま
した。
定期リリースおよび新着データは,FTP サイトで提供していますのでこちらをご利用下さい。DDBJ HP
左カラムにあるボタン「リリース取得」をクリックしてアクセスできます。通常のフラットファイル
フォーマットの他に,配列データを抜き出した FASTA 形式・フラットファイルの内容にタグとアトリ
ビュートをつけた XML 形式・CDS 配列の FASTA 形式でも提供しています。
●リリースデータ取得 http://www.ddbj.nig.ac.jp/anoftp-j.html
3. 検索・解析サービス
■ 3-1. 新キーワード検索システムのテスト公開
DDBJ 新キーワード検索システム ARSA (All-round Retrieval of Sequence and Annotation・アルサ) のプロ
トタイプ版を12月からテスト公開いたしました。富士通製の高速 XML 型データベース検索エンジン
「イ
ンターステージシュンサク(Interstage Shunsaku)
」を基盤技術として採用しております。
第1の特徴は,
複雑な検索条件や大量のヒットがある条件で検索しても,
これまで提供してきたキーワー
ド検索システムに比べて遥かに短時間で検索結果を返すことができる点です。どのような条件でも約 5
∼ 10 秒で検索結果を出力します。
第2の特徴は,
国際塩基配列データベースのフラットファイル (FF)
形式で定義されている Feature/ Qualifier を個々に選択して詳細な検
索条件を指定することができる点です。
■検索対象は,
DDBJ 定期リリースと DDBJ 新着データです。
■DDBJ フラットファイル形式に沿った詳細な検索条件を指
定することができます。
■検索条件やヒット件数に依らず,ほぼ一定(約5秒∼10秒)
の検索レスポンスが得られます。
■検索結果は,フラットファイル,DDBJ-XML,FASTA の
3つの形式で取得することができます。
※定期メンテナンスの為、毎日夜間に2,3時間程度サービスを停
止いたします。
▲ ARSA トップページ
● ARSA http://arsa.ddbj.nig.ac.jp/index.jsp
■ 3-2. BLAST に tblastx プログラム追加
DDBJ が web サーバと E-mail サーバで提供している相同性検索サービス BLAST に,tblastx プログラム
を追加しました。tblastx プログラムは塩基配列を表裏合わせて6通りの読み枠で翻訳しながら,同様に
翻訳された塩基配列データベースと比較します。7 月より従来の blastn,blastp,blastx,tblastn に tblastx
を加えた5つのプログラムが利用可能となりました。どうぞご利用下さい。
● BLAST web
● BLAST e-mail
http://www.ddbj.nig.ac.jp/search/blast-j.html
[email protected]
■ 3-3. 検索・解析サービスのオプション追加
メールを送信する方法でご利用いただく検索・解析サービスに,5 月より受付通知メールの請求を選択
できるオプション,email_request_id を追加しました。対象サービス,指定例は以下の通りです。どうぞ
ご利用下さい。
対象サービス:FASTA, BLAST, SSEARCH, S&W SEARCH, ClustalW
指定例(受付通知を請求する場合):email_request_id 1
このオプションで受付通知メールの請求を指定をすると,
Request ID が記載された受付通知メールがユー
= DDBJ Report 2005 = 5
ザに送信されます。この Request ID により Search and Analysis の Traffic のページで混雑状況の確認がで
きます。指定しない場合,受付通知は送信されません。なお,現在は自動的に受付通知メールを送信し
ている ClustalW につきましては,email_request_id の指定が必要になりますのでご注意下さい。
■ 3-4. DDBJ のホームページ更新
6 月に DDBJ のホームページを一新し,デザイン・機能ともに見や
すく,また使いやすくなりました。
新機能のひとつとして,各ページの Search 機能に,従来からのサ
イトサーチに加えて SRS の全文検索機能を追加しました。Search
ボタンの横にあるプルダウンメニューで,
DNA もしくは Protein を
選択してからご利用下さい。
なお,一部のサイトの URL を変更しましたので,ブックマークを
されていらっしゃる方は変更をお願いいたします。
今後も DDBJ をどうぞご利用下さい。
● DDBJ トップページ http://www.ddbj.nig.ac.jp/
▲ DDBJ トップページ
■ 3-5. Gopher サービス終了
DDBJ では 2003年12月をもって Gopher サービスを停止致しました。
リリースデータなどの取得には FTP
サイトをご利用下さい。
● Anonymous-ftp server ftp.ddbj.nig.ac.jp
4. 広報・教育活動
■ 4-1. DDBJing 講習会&寺子屋『情報生物学』開催
DDBJ-CIB では全国各地で「DDBJing 講習会」と「寺子屋情報生物学」というワークショップを開催し
ています。DDBJing 講習会は DDBJ が提供しているツールの講習を,寺子屋は若手研究者の育成を目的
としています。
3 月 28 日に国立情報学研究所学術総合センターにて
第 9 回 DDBJing 講習会&第 6 回寺子屋『情報生物学』
in 東京を開催し,43名の方にご参加いただきました。
また,7 月 7-8日に国立遺伝学研究所(静岡県三島市)
にて第10回 DDBJing 講習会を開催しました。今回は
入門編と応用編を設けて,初心者の方にもわかりや
すい講習を目的としました。新潟から長崎まで,全国
各地から 23 名の参加がありました。
これまで要望の多かった資料ダウンロードページを
新設しましたので,ご利用下さい。
DDBJing 講習会および寺子屋は今後も全国各地で開
催いたします。2005 年 3 月 2 日に大阪大学中ノ島セ
▲第 10 回 DDBJing 講習会の様子
ンターで第11回 DDBJing 講習会を開催しました。続
いて 6 月の開催を検討しています。詳細が決定しましたらメールマガジンと web でご案内いたしますの
で興味をお持ちの方はどうぞご参加下さい。また,開催のご要望がありましたら検討いたしますので,以
下のメールアドレスにお問い合わせ下さい。
●寺子屋『情報生物学』
[email protected] http://www.ddbj.nig.ac.jp/terakoya/
● DDBJing 講習会
[email protected]
http://www.ddbj.nig.ac.jp/ddbjing/
●同資料ダウンロード
http://www.ddbj.nig.ac.jp/ddbjing/dl.html
6 = DDBJ Report 2005 =
■ 4-2. 日韓バイオインフォマティクストレーニングコース開催
CIB-DDBJ と KRIBB (Korea Research Institute of Bioscience and Biotechnology) は 3 月 16 日− 19 日に国立
遺伝学研究所にて第3回日韓バイオインフォマティ
クストレーニングコースを開催しました。日韓の若
手研究者 30 名が,4日間にわたり英語での講議およ
び実習を受けました。
また,2005 年 3 月 7 日− 10 日に韓国大田市の韓国生
命工学研究院にて第4回を開催しました。このコース
では,これまでの日韓若手研究者に加え,中国の若手
研究者も参加しました。また,日韓友情年 2005 の記
念行事 の一つとしてエントリしていました。
●日韓バイオインフォマティクストレーニングコース
http://www.ddbj.nig.ac.jp/japan-korea/
▲第 3 回 日韓バイオインフォマティクス
トレーニングコース集合写真
■ 4-3. 分子生物学会 ブース出展
12 月 8 日− 11 日に神戸で開催された第 27 回日本分子生物学会年会の附設展示会に DDBJ ブースを出展
しました。神戸国際展示場 2 号館 1 階 341 番ブースで,DDBJ 活動に関するポスター展示と資料の配布な
どを行ないました。また,スタッフ・アノテータがポスター発表を行ないました。
■ 4-4. 国際バイオ EXPO ポスター参加
5 月 19 日− 21 日に東京ビッグサイトで第4回国際バイオ EXPO(リードエグジビションジャパン株式会
社主催)が開催されました。DDBJ は大学・国公立研究所による研究成果発表フォーラムで金城玲助手
(大量遺伝情報研究室)が「日本 DNA データバンク (DDBJ) の活動紹介」という発表を行なったほか,
ポスターセッションに参加しました。
■ 4-5. DDBJ メールマガジン
DDBJ メールマガジンでは,
データベースに関するおしらせやサービスに関する機能拡張などの案内,
講
習会の開催情報などのおしらせを奇数月末に配信しています。
2004
年は号外を含め7号を配信しました。2004年の第12号からはDDBJ
を運営する国立遺伝学研究所教官 12 名がよしなしごとを綴る小欄
の連載もはじまりました。
配信は無料で,必要な手続きはメールアドレスや氏名・所属を web
から申込んでいただくだけです。
登録されたアドレスに記事の見出
しと URL を掲載したメールを配信し,興味のある記事をサイトに
アクセスして読んでいただく形式をとっています。次の URL から
どうぞお申し込み下さい。
● DDBJ メールマガジン
http://www.ddbj.nig.ac.jp/ddbjnew/mag/
▲ DDBJ メールマガジン
= DDBJ Report 2005 = 7
D D B J からのおしらせ (2005 年 3 月まで)
■新規創設データカテゴリー(MGA)の超大量データの公開
国際塩基配列データベース (INSD) では,超大量の転写物配列に対応するために登録・公開についての
検討を進めています。その一環として,ゲノム配列のアノテーションに有意義な情報を提供する超大量
の配列群を受け入れるためのカテゴリ MGA (Mass sequence for Genome Annotation) を創設しました。
MGA
は既に存在している超大量のゲノム断片配列を格納している WGS (Whole Genome Shotgun) と同様に
Division ではなく,カテゴリに分類されます。INSD の定める MGA の定義は以下の通りです。
Definition of MGA
MGA is defined as those sequences which are produced in
large quantity in view of genome annotation.
1 月 24 日にこの MGA カテゴリに属するデータを公開しました。配列データは独立行政法人理化学研究
所の林崎良英博士をリーダーとする研究グループから登録されたエントリーです。このデータは CAGE
(Cap Analysis Genome Expression) 法によって作出された Mus musculus 由来の転写物 (cDNA) 領域 5' 末
端,約 20bp の長さの配列でエントリー数は 383,264 となっています。MGA データは ftp サイトより取
得できます。公開された配列は生命情報・DDBJ 研究センターが運営する国際共同遺伝子発現データベー
ス CIBEX (Center for Information Biology gene EXpression database) にて公開されているデータとも連携し
ています。
● WGS について
http://www.ddbj.nig.ac.jp/sub/wgs-j.html
● MGA FTP サイト ftp://ftp.ddbj.nig.ac.jp/database/mga/project_index.html
● CIBEX
http://cibex.nig.ac.jp/index.jsp
■ ClustalW と ClustalW DDBJ 拡張版の統合
ClustalW は DDBJ が web サーバと e-mail サーバで提供している解析サービスです。Web 版はバージョ
ン番号およびオプションの異なる ClustalW (ver.1.83) と ClustalW DDBJ 拡張版 (ver.1.80) の2種類を提供
していますが,このサービスを以下の日程で統合することになりました。統合後のバージョンは 1.83 と
なり,ClustalW DDBJ 拡張版だけにあったオプション(DOTSINOUTPUT と DISTANCE)をより新しい
バージョンでご利用いただくことができます。この統合にともない,ユーザインタフェイスの一部を変
更し,URL も現在 ClustalW が使用しているものに統一いたしますのでご注意下さい。日程とバージョ
ン情報は以下の通りです。サービスの中断などはありません。どうぞご利用下さい。
●日程
●統合後の URL
2005 年 4 月 1 日(金)
http://www.ddbj.nig.ac.jp/search/clustalw-j.html
■ S&W SEARCH サービス終了のおしらせ
DDBJ が web サーバと e-mail サーバで提供している相同性検索サービス S&W SEARCH は,ハードウェ
ア製造社が解散してしまいました。これにともない 4/1 以降サービスに支障をきたすようなハードウェ
ア障害が発生した時点で,S&W SEARCH のサービスを終了することになりました。
なお,S&W SEARCH と同様なアルゴリズムを用いた検索サービスとして,SSEARCH を提供していま
す。皆様にはご不便をお掛けすることになり誠に申し訳ございませんが何卒ご理解とご協力の程よろし
くお願い申し上げます。
● SSEARCH web
http://www.ddbj.nig.ac.jp/search/ssearch-j.html
● SSEARCH e-mail [email protected]
■ Swiss-Prot (現 UniProt) からの FTP の不具合についてのお詫び
2005 年 1 月 1 日から Swiss-Prot が正式に UniProt になりました。これに伴い,UniProt のリリースの FTP
サイト 名が Swiss-Prot から UniProt に変わったのですが,私ども DDBJ はそのことに気づくのが遅れま
して,2 月 2 日の UniProt からのリリースの FTP に不具合をもたらしてしまいました。つまり,その時
点での UniProt からの FTP にはリリース分が入っておらず,更新分のみとなってしまいました。従いま
して,2 月 2 日から 2 月 25 日までの間に DDBJ がサービスしている UniProt データベースを検索された
8 = DDBJ Report 2005 =
方は,不具合のある検索結果を得られたと考えられます。このような不具合をもたらしまして,大変申
し訳ありません。現在は UniProt のリリースにも更新分にも不具合はございません。今後とも DDBJ を
宜しくご支援くださいますようお願いいたします。
●リリースデータダウンロードサイト
http://www.ddbj.nig.ac.jp/anoftp-j.html
■ DDBJ サービスの UniProt への対応
タンパク質データベースである PIR は,Swiss-Prot に吸収合併されました。さらにSwiss-Prot は,TrEMBL
と統合され,2005 年 1 月 1 日をもって UniProt となっております。つまり UniProt は Swiss-Prot に由来
する UniProt/Swiss-Prot,TrEMBL に由来する UniProt/TrEMBL という 2 つのデータベースから構成され
ることになります。
これまで DDBJ では PIR,Swiss-Prot を別データベースとして検索解析サービスを行なって参りました
が,以上のような状況を踏まえ,4 月 15 日を持ちまして Swiss-Prot の表記を UniProt/Swiss-Prot と変更
し,すでに UniProt/Swiss-Prot に含まれている PIR を削除することと致します。
また 6 月 15 日には,UniProt/Swiss-Prot に UniProt/TrEMBL を加え,UniProt として利用していただくよ
うにする予定です。皆様のご理解とご協力をよろしくお願い申し上げます。
● UniProt
http://www.ebi.uniprot.org/
国立遺伝学研究所大型計算機システム(supernig, minerva)利用者各位
継続申請書未提出の方へ
国立遺伝学研究所の大型計算機利用者の皆様に 2005年 2月上旬にお送りした「国立遺伝学研究所大型計算機利用申
請書(継続)
」という書類は,2005年4月から始まる平成17年度も国立遺伝学研究所の大型計算機 (supernig, minerva)
を継続して利用するために必要な書類です。この書類は,一事業年度単位で利用申請をしていただく必要がありま
す。未提出の方は例年通り押印をして早急に国立遺伝学研究所管理部総務課(共同研究係)までお送り下さい。所
属などの変更がおありでしたら,書類中の該当箇所を朱書で訂正して下さい。minerva を利用されている方は,継
続申請書提出時に「国立遺伝学研究所大型計算機 (minerva) 利用報告書」も提出していただく必要がありますので,
こちらもお送り下さい。
大型計算機システムの利用を終了される方は継続用の申請書類に同封した「国立遺伝学研究所大型計算機利用終了・
中止届」を提出して下さいますようお願い申し上げます。これらの書類には押印が必要です。E-mail や FAX で送
ることはできませんので,以下の宛先まで郵送して下さい。継続申請書の受理作業終了後,国立遺伝学研究所管理
部総務課共同研究係からユーザ登録証をお送りいたします。
申請書郵送先: 〒 411-8540(郵便番号のみで届きます)国立遺伝学研究所 管理部総務課 共同研究係
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
supernig, minerva の新規利用のための手続き
それぞれの計算機の利用申請書を提出して下さい。申請書は国立遺伝学研究所ホームページの「データベース・サー
ビス/計算機ネットワークシステム」にある「国立遺伝学研究所計算機利用に関する申請書」をプリントアウトし
て必要事項を記入し,押印のうえ,上記宛先にお送り下さい。
■解析サーバ supernig の利用申請:「国立遺伝学研究所大型計算機利用申請書(supernig の項目をチェック)
」を
提出して利用者登録を行なって下さい。一事業年度単位で利用申請をしていただく必要があります。
■数値計算サーバ minerva の利用申請:
「国立遺伝学研究所大型計算機利用申請書(minerva の項目をチェック)
」
を提出して利用者登録を行なって下さい。一事業年度単位で利用申請をしていただくほか,利用報告提出の必
要もあります。
大学共同利用機関法人化にともない「支出科目」欄の削除や名称の変更など,記入項目と利用規程の内容にも若干
の変更がありました。「情報・システム研究機構国立遺伝学研究所 DDBJ 塩基配列データベース等利用規程」を今
一度ご確認下さい。
●国立遺伝学研究所計算機利用に関する申請書 http://www.ddbj.nig.ac.jp/ddbjing/nigapl-j.html
*現在,この申請手続きを簡素化する方策を検討中です。詳細が決まりましたらホームページ上でおしらせします。
= DDBJ Report 2005 = 9
D D B J における遺伝子発現データ
ベース
(CIBEX) の取り扱いに関して
ス(CIBEX)
http://cibex.nig.ac.jp/index.jsp 生命情報・DDBJ 研究センター
遺伝情報分析研究室 池尾 一穂
ゲノム機能研究において大規模遺伝子発現研究は年々その重要性を増してきている。ヨーロッパの EBI により,マイ
クロアレイに代表される遺伝子発現に関する大規模データを標準化されたデータフォーマットに基づいて,DNA 配列
と同じように国際協力の下で国際データベースの構築を行うことが提唱された。
MGED (Microarray Gene Expression Data
Society - MGED Society) と呼ばれるこの活動は,生命科学者だけでなくコンピューター科学者やデータ解析を目的と
する統計研究者等も参加した国際組織である。機能ゲノミックスやプロテオミクスを目的としたマイクロアレイ実験
に代表される大規模データの利用の促進が目的とされる。
現在設定されているタスクは,標準化フォーマットの作成,データアノテ―ションと国際データ交換,データベース
およびツールの作成である。MGED ソサイエティー (http://www.mged.org/) では,各ジャーナルに交渉することにより,
大規模遺伝子発現研究結果を含む論文の発表には MGED の作成した標準化フォーマットの採用を提唱してきた。
現在,
Science をはじめとして Nature group, The Lancet, Cell そして EMBO journal 等が MGED の提唱するフォーマットを論文
の投稿に当たって採用するようになっている。この数は今後,増加していくことが期待される。また,Affymetrix に代
表される様々なメーカーでもこのフォーマットの採用が薦められている。また,MGED ソサイエティーでは,データ
登録にあたって,公的なデータ登録サイトとして日本では CIBEX (cibex.nig.ac.jp),ヨーロッパでは ArrayExpress,米
国では GEO (Gene Expression Omnibus) の3データベースをアナウンスしている。
これら3つのデータベースでは,標準化フォーマットに乗っ取った近い将来のデータ交換を含めて,遺伝子発現デー
タベースの共有環境の構築を目指して活動を進めている。DDBJ では,上記の目的のため,遺伝子発現データベースの
作成を進めている (CIBEX)。本システムでは,データの登録と標準フォーマット化,またキーワード,著者名等によ
る検索システムが用意されている。
図1に CIBEX のトップページを示す。
CIBEX では,既に,理研マウス遺伝子発現データをはじめとしてデータの登録の受付を開始しており,一部について
は公開も行なっている。また,データの登録に関しては,現在,ウェブベースのツールの作成を進めているが,大多
数の研究者がまだ発現データの登録に不馴れである点や,標準化フォーマットに対応したツールが未整備である点を
考慮して,直接 CIBEX 管理者 ([email protected]) にコンタクトをとっていただき,データのフォーマット変換から
図1.CIBEX トップページ http://cibex.nig.ac.jp/index.jsp
10 = DDBJ Report 2005 =
お手伝いする形でデータ登録を進めている。
もちろん,近い将来には,配列データの登録と同様に,
研究者自らがデータ登録を行なえるようにツールの整
備を進めている。CIBEX に登録することにより MGED
が提唱し各ジャーナルが採用している M A G E - M L
フォーマット形式のデータが作成されるとともに,パ
ブリックサイトへの登録が完了される仕組みになって
いる。上述したように,欧州,米国のパブリックサイ
トである ArrayExpress,GEO とのデータ交換も予定さ
れており(本年中には計画が確定する)
,CIBEX への登
録で,パブリックサイトへの登録が公的に終了すると
いうわけである。一方,登録されたデータは,CIBEX
以外の公的機関からの公開はもちろん,CIBEX から公
開,検索可能となる。(図2)
図2.CIBEX 登録実験データの例
更には,CIBEX では,ゲノム機能発現研究会(http://
www.ddbj.nig.ac.jp/gxpress/intro-j.html) と共同して,日本
国内発の論文を中心として独自の遺伝子発現研究に関
する論文データベースも作成している (http://www.ddbj.
nig.ac.jp/gxpress/index.html) (図3)。
以上,DDBJ における遺伝子発現データへの取り組み
と国際協力態勢の概略を手短かではあるが紹介させて
いただきました。現在,遺伝子発現データをお持ちで
あったり,論文作成中の方は是非,CIBEX への登録を
ご検討頂ければと思います。
図3.
文献リスト http://www.ddbj.nig.ac.jp/gxpress/index.html
参考文献
Ball CA, Brazma A, Causton H, Chervitz S, Edgar R, Hingamp P, Matese JC, Parkinson H, Quackenbush J, Ringwald M, Sansone
SA, Sherlock G, Spellman P, Stoeckert C, Tateno Y, Taylor R, White J, Winegarden N. Submission of microarray data to public
repositories. PLoS Biol. 2004 Sep;2(9):E317. Epub 2004 Aug 31.
Tateno Y, Ikeo K. International public gene expression database (CIBEX) and data submission. Tanpakushitsu Kakusan Koso.
2004 Dec;49(17 Suppl):2678-83.
Ikeo K, Ishi-i J, Tamura T, Gojobori T, Tateno Y. CIBEX: center for information biology gene expression database. C R Biol. 2003
Oct-Nov;326(10-11):1079-82.
= DDBJ Report 2005 = 11
H-Invitational Database
CIB-DDBJ Flat File Server の 構 築
http://hinv.ddbj.nig.ac.jp/index-j.html DDBJ 大城戸 利久
1.H-Invitational プロジェクトと H-Invitational Database CIB-DDBJ Flat File Server
様々な生物のゲノム配列が次々と公表され,ゲノム上の遺伝子領域が in silico あるいは配列相同性に基づいた方法な
どを組み合わせることによって記述されているものの,全ての遺伝子の領域を特定することは容易ではない。コン
ピュータ予測だけでは確定しないゲノム上の遺伝子を実験的に同定する効率的な方法として転写物配列,即ち,cDNA
や EST (Expressed sequence tag) の利用が挙げられる。また,様々な組織や細胞から取得された cDNA はタンパク質を
コードする転写産物に加えて,遺伝子発現調節などの重要な役割が明らかにされつつある non-coding RNA が含まれて
おり,生命現象の理解において有用な資源である。わが国ではヒトにおいて,KDRI *1 の先導的でユニークな長鎖 cDNA
プロジェクト,
および経済産業省主導で行われた国家プロジェクトである完全長ヒト cDNA プロジェクト
(FL プロジェ
クトと略称される)が,NEDO *2 事業として実施された。FL プロジェクトでは,IMSUT *3・HRI *4・KDRI が cDNA 資
源を提供し,世界中のこの種のデータの約 60%以上を占めるという高い貢献率を誇っている。わが国におけるこれら
の貢献率とバイオインフォマティクス技術の先進性を背景に,2002 年には,IMSUT および AIST/JBIRC *5 によって,
世界の他の大量データ生成拠点である米国保健研究センター (NIH)・エネルギー省 (DOE),
ドイツがんセンター (DKFZ),
中国上海ゲノムセンター (CHGC) に対し,完全長ヒト cDNA の配列情報とヒトゲノム配列との対応や機能予測などの
有用情報の付加,ヒト全遺伝子の同定,およびその国際的標準化を目指して,大規模アノテーションジャンボリーと
いわれるワークショップを日本主導で開催することが呼びかけられた。その結果,世界中の大部分にあたる約42,000個
の完全長ヒト cDNA の配列情報の収集に成功した。これらの完全長ヒト cDNA の配列情報に対し,国内外,合わせて
44 の研究機関から約 120 名の研究者が結集し,2002 年の夏,10 日間にわたって,世界最大規模のヒト遺伝子アノテー
ションジャンボリー大会 (H-Invitational) が開かれた。
H-Invitational では主に 5 つの解析が行われている。ヒト遺伝子(cDNA, ゲノム上の遺伝子座)の配列に対する機能ア
ノテーション,病気に関連する遺伝子の探索,進化学的 (Orthologue) 解析,タンパク質の立体構造および遺伝子発現
H-Invitational の共同主催機関の一つである CIB-DDBJ *6 は配列に対する機能アノテー
情報である (Imanishi et al., 2004)。
ションに着目し,この情報の内容を加工し,表示・公開するデータベース,H-Invitational Database CIB-DDBJ Flat File
Server を構築した。H-Invitational Database CIB-DDBJ Flat File Server は配列の生物学的特性(機能アノテーション)に
特化するとともに,保持されているデータを利用しやすいように構成されている (Okido, et al., 2004)。本稿ではデータ
ベースの内容と使い方について紹介する。
2.データ内容
2-1.cDNA, LOCUS エントリ
H-Invitational プロジェクトで解析された cDNA 数は 41,118 個である。これら cDNA には冗長性 (redundancy) があるこ
とが事前にわかっていたので,ヒトゲノムアセンブル (NCBI build 34) へのマッピング結果を元にクラスタリングされ
ている。クラスタリングされた一群の単位を "LOCUS" と呼ぶ。マッピング結果のサマリーがー表 1 に示されている。
表1.cDNA のゲノムへのマッピング結果のサマリおよびデータベースで検索・閲覧できるデータセット
内 容
染色体にマップされた数
座乗染色体既知の contig にマップされた数
座乗染色体不明の contig にマップされた数 (UN)
全くマップされなかった数 (UM)
合 計
cDNA
39,967
LOCUS
20,085
127
46
(73)
(32)
(847)
21,037
978
41,118
まずは,本データベースで閲覧できるデータの内容を紹介する。
閲覧できる情報としては 2 つのデータセット,cDNA および LOCUS エントリである。これらには H-Invitational でそ
れぞれ Prefix "HIT","HIX" が振られ,以降 9 桁もしくは 7 桁の数字を組み合わせた Identifier が付与されている。両者
に共通な情報は生物分類,文献,登録者情報,生物学的特徴,外部データベースへのリンク,塩基配列の 6 つである。
その他は,cDNA あるいは LOCUS エントリそれぞれに記載されている情報である。cDNA エントリでは配列が取得
12 = DDBJ Report 2005 =
されたソース情報,タンパク質コード領域,タンパク
質モチーフ領域(遺伝子機能分類情報も付与されてい
る)である。さらに,塩基多型,配列の修正に関する
情報である。
H-Invitational ID または国際塩基
配列 DB のアクセッション番号に
よる検索が可能.
一方,LOCUS エントリは配列のソース情報,ローカス
内の転写物情報,タンパク質コード領域,および非翻
訳領域が記載されている。LOCUS エントリのうち,一
部(表 1 の斜体数字)のデータについてはゲノム上の
位置が不確定であるために,本データベースには含ま
れていない。
2-2.HIT (cDNA) エントリの内容
トップページの上部の検索ボックスに H-Invitational
Identifier もしくは国際塩基配列データベースのアク
セッション番号を入力することによって,簡易的に
データの検索ができる。検索ボックスの下には検索可
能な ID の例が表示されている。それでは cDNA エン
トリを検索してみる。検索ボックスに "HIT00000001"
データベース
メニュー
図1.H-Invitational Database CIB-DDBJ Flat File Server の
トップページ http://hinv.ddbj.nig.ac.jp/index.jsp
H-Invitational Project に関する説明とデータベースの概要を紹介している."cDNA FF につ
いて " および "LOCUS FF について " をクリックすると,フラットファイルの記載内容の説
明がされている.ページ上部には簡易検索機能が用意されている.国際塩基配列データベー
スのアクセッション番号,もしくは H-Invitational Identifier を入力することによりエントリ
の検索ができる.
を入力し,"Search" をクリックすると,HIT000000011 エントリが表示される。データの表示形式は国際塩基配列デー
タベースである DDBJ *7 の公開フラットファイルに準拠した形式である(表示省略)
。
エントリの一般的な表示内容としては配列長,配列の分子タイプと形態,最終更新日付,エントリの内容を簡易的に
表す DEFINITION (産物情報),H-Invitational Identifier のバージョン情報,生物分類情報である。文献情報としては
塩基配列の生産者や論文情報が記載されている。COMMENT 行には配列の修正に関する情報が記載される。解析に用
いた cDNA 配列はゲノム配列とのアライメント情報などを参考に一部修正しているので,オリジナルの配列とは一部
異なっているエントリが存在する。次いで,配列の生物学的特徴はフィーチャーと呼ばれる記述 Key によって記載さ
れており,フィーチャーを補完する情報をクオリファイアという項目で記載している。
cDNA エントリでは配列の由来は "source" フィーチャーを用いて,配列の取得組織,細胞株,性別,発育ステージ,座
乗染色体情報などが記載されている。また,外部データベースへのリンクとして H-InvDB(後述)および National Center
for Biotechnology Information (NCBI) の Online Mendelian Inheritance in Man (OMIM) の情報も記載されている。
cDNA 配列上のタンパク質コード領域は "CDS" フィーチャーを用いて領域が指定され,その下位にはクオリファイア
によって産物名,翻訳開始位置(読み枠)や翻訳用のコドン表が記載されている。
塩基多型情報は "variation" フィーチャーを用いて該当位置が示される。HIT000000011 では複数の位置で塩基多型情報
が記載されている。例えば,259 番目の情報を見ると「replace=t」と記述されている。259 番目の塩基は a(アデニン)
であるが,当該配列と同じ機能を持つと考えられる配列群と比較した時に他の配列では当該位置に対応する塩基が「t
(チミン)
」であることを表している。さらに NCBI で提供されている dbSNPs (Single Nucleotide Polymorphisms) データ
ベースとのリンク情報も記載されている。
タンパク質機能モチーフは "misc_feature" フィーチャーによって記述される。
InterPro のモチーフ名とモチーフのタイプ,およびモチーフに関連した機能分類情報が Gene Ontology (GO) によって
表示されており,リンクも張られている。
BASE COUNT 行には塩基の数,即ちアデニン,グアニン,シトシン,チミン,それぞれの数が表示されている。これ
ら 4 種以外の塩基が存在している場合には,それらの数は表示されない。
最後は塩基配列が記載されている。1 行当たり60文字で記載され,10塩基ごとにスペースで区切られている。cDNA エ
ントリの表示内容についての説明はトップページ左のデータベースメニューから "cDNA FFについて " をクリックし,
ご覧下さい (http://hinv.ddbj.nig.ac.jp/manual_cdna-j.html)。
2-3.LOCUS (HIX)エントリ
本データベースで閲覧できる LOCUS エントリは cDNA がマッピングされたゲノム上の領域である。マッピングに用
いた cDNA は H-Inv cDNA もしくは NCBI で提供されている Refseq (Reference Sequence) データベース由来のヒト cDNA
配列である。LOCUS エントリの領域は H-Inv または RefSeq cDNA がゲノムにマップされた配列部分の 5' 端より上流
2kbp から 3' 端の下流 2kbp までの範囲である。
LOCUS エントリはゲノムアセンブルにマップされた領域であるために 2 つの方向,すなわち順 (forward) 鎖側と相補
(complement) 鎖側が存在する。この点についてはロケーションの表記を工夫することにより,一見して,どちら側に
= DDBJ Report 2005 = 13
マップされたローカスなのかがわかるようにしている。
順鎖側のエントリのフィーチャーのロケーションには
特に何もないが,相補鎖側にマップされたエントリの
フィーチャーのロケーションには "complement" を付与
LOCUS 配列の source
情報
Forward 鎖側にマップされた
LOCUS の Location 表記
source 1..75299
している。また,各LOCSU エントリ内のフィーチャー
の方向はすべて同じである。
図2は順鎖側にマップされた "HIX0004994" の表示例で
ある。cDNA エントリと同様に一般的な情報として配
転写物情報 (1)
Alternative splicing 転写物
情報
列長,配列の分子タイプと形態,最終更新日付,DEFINITION(産物情報)
,H-Invitational Identifier,生物分類
情報が記載されている。Reference 1には H-Invitational
プロジェクトによって構築されたデータベース H -
5'UTR 情報
InvDB にこのデータを登録した人,即ち,H-Invitational
コンソーシアムと記載されている。Reference 2以降に
転写物情報 (2)
は文献情報が記載されている。COMMENT 行には
cDNA のマッピングに用いたヒトゲノムアセンブル情
報が記載されている(内容省略)
。
HIX0004994 は 順鎖側にマップされたローカスである
ので,エントリの領域を示す "source" フィーチャーの
ロケーションは "1..75299" と表示される。"source"
フィーチャーの下位には細胞遺伝学的位置およびゲノ
ムアセンブル上の絶対位置,LocusLink の identifier と
データベースへのリンクが表示されている。転写物情
報は "mRNA" フィーチャーによって表示されており,
LOCUS の代表転写物情報
エクソン情報
図2.LOCUS エントリの表示例 (HIX0004994)
生物学的特徴に関する部分を抜粋.source 情報,転写物情報,alternative splicing 情報,非
翻訳領域などが表示される.各フィーチャーの Location の向きは全て同じになっている.
遺伝子産物名,該当する c D N A エントリ
(HIT000000011),OMIM 情報が記載されている。
LOCUS エントリでは一定のルールに基づいて当該遺伝子座の代表転写物を選んでいる。また,選択的スプライシング
によって生成される転写物が存在することのあるので,1つの LOCUS エントリでは複数の転写物が存在する場合が
ある。HIX0004994 エントリでは 2 個の転写物が存在する。該当転写物には当該遺伝子座の代表転写物であることが表
示されている。HIX0004994 エントリでは HIT000000011 が代表転写物であることが記載されている。
もう一つの転写物,HIT000041454 は H-Invitational で alternative splicing と判定された転写物であることが示されてい
る。その他にエクソンや 5’UTR 情報も記載されている。
一方,相補鎖側のにマップされた LOCUS エントリの例としては HIX0004990 がある。ここでの紹介は割愛するが実
際に当データベースにて検索し,表示内容をご覧下さい。LOCUS エントリの表示内容についての説明は cDNA の FF
と同様にトップページ左のデータベースメニューから "LOCUS FF について " をクリックし,ご一読して下さい (http:/
/hinv.ddbj.nig.ac.jp/manual_locus-j.html) 。
また LOCUS エントリのうち 952 件 がゲノムアセンブルにマップされなかった(表 1)。表示例について割愛するが,
例としては HIX0000007 があります。
2-4.H-Invitational Database (H-InvDB) との連携
CIB-DDBJ は H-Invitational プロジェクトの共同開催機関として,H-Invitational で付与されたアノテーションを格納し,
データを提供するためのデータベース H-Invitational Database (H-InvDB) のミラーサイトの一つを担っている。以下の
URL (http://hinvdb.ddbj.nig.ac.jp/index.jsp) よりアクセスすることができる。
H-Invitational Database CIB-DDBJ Flat File Server
全てのエントリは H-InvDB とリンクが張られている。H-InvDB では配列に対する機能アノテーションの他に遺伝子発
現データベース,病気・疾患関連のデータ,系統発生学的解析データなど様々タイプのデータが格納されている。デー
タ内容は本体の H-InvDB とはほとんど時間差なく,ほぼ同じタイミングで更新が行われている。
3.データ検索システム
次にデータ検索システムを紹介する。検索システムは DDBJ でサービスしている getentry を基本にした,H-Inv getentry
(http://hinv.ddbj.nig.ac.jp/gethinv/gethinv.html) である。cDNA エントリ,または LOCUS エントリのどちらかをラジオボ
タンで選択し,それぞれのエントリで表示する内容をプルダウンメニューから選択する。閲覧できる情報は cDNA,
14 = DDBJ Report 2005 =
LOCUS エントリで図3に示す内容である。
cDNA エントリ,LOCUS エントリそれぞれで全ての内
cDNA か LOCUS の一方を選択する
ID を入力する
容,もしくは見たい部分のみの表示が選択できる。
"Flat file" を選択するとエントリの全ての内容が表示さ
れる。一方,"CDS","misc_feature","variation" を選択
すると当該フィーチャー情報のみが表示される。
"CDS" の場合には当該領域のアミノ酸配列あるいは塩
基配列のみを閲覧することもできる。好みの表示メ
ニューを選択し,ボックス内に cDNA あるいは LOCUS
エントリの I D をバージョン番号も含めて入力し,
"SEARCH" ボタンをクリックする。図3には cDNA エ
ントリで "Flat file" を選択した時の結果が示されてい
る。
4.データ取得サイト (Anonymous FTP)
最後に取得できるデータについて紹介する。H-Invitational Database CIB-DDBJ Flat File Server ではデータ取
得のための Anonymous FTP サイトを提供している (ftp:/
/hinv.ddbj.nig.ac.jp/)。
構成として大きく cDNA エントリと LOCUS エントリ
HIT (cDNA) エントリ用 HIX (LOCUS) エントリ用
表示内容の
選択
用のディレクトリがある。それぞれのディレクトリに
は全てのデータセットおよび特定のデータのみの各
セットを提供している。
また,ここで公開されている cDNA 配列 41,118 件は全
そのアクセッショ
て INSD *8 から公開されているので,
ン番号と H-Invitational の Identifier である HIT_ID およ
び HIX_ID の対応,および cDNA の産生機関の対応表
を "acc2hinv_id.txt.gz" ファイルに記載している。
図3.データベース検索システム H-Inv getentry
http://hinv.ddbj.nig.ac.jp/gethinv/gethinv.html
cDNA,ローカスエントリそれぞれで表示内容の選択が可能できる.例は HIT000000017.2
(cDNA) エントリの Flat file を選択した場合の表示である.
さらに,H-Invitational Database CIB-DDBJ Flat File Server は上述した H-InvDB のデータ取得サイトを担っている。ここ
で取得できるデータは全てテキストもしくは XML 形式である。これらのデータはそれぞれ以下のディレクトリの配
下に全て格納されている(ftp://hinv.ddbj.nig.ac.jp/jbirc_ff/,ftp://hinv.ddbj.nig.ac.jp/jbirc_xml/)
。
5.終わりに
H-Invitational Database CIB-DDBJ Flat File Server で提供しているフラットファイルデータは DDBJ の公開フォーマット
に準拠している。それゆえ,一部分を変換することにより,DDBJ フォーマットを読み込んでグラフィカルー表示がで
きるアプリケーションなどでも閲覧が可能であり,こういったフォーマットに慣れている利用者には利便性があるよ
うに思われる。本文中でも触れたが,CIB-DDBJ は H-InvDB のミラーリングサイトも提供しているので,H-Invitational
Database CIB-DDBJ Flat File Server との 間で相互にデータを閲覧・取得することができる。統一的な方法によって機
能アノテーションを付与された cDNA は利用価値の高いリソースであり,これらの情報を閲覧できる DB の開発・公
開によってポストゲノム研究が効率的に促進されることが期待される。
略称
*1 KDRI:かずさ DNA 研究所
*2 NEDO:新エネルギー・産業技術総合開発機構
*3 IMSUT:東京大学医科学研究所
*4 HRI:へリックス研究所
*5 AIST/JBIRC:産業技術総合研究所 生物情報解析研究センター
*6 CIB-DDBJ:国立遺伝学研究所 生命情報学・DDBJ 研究センター
*7 DDBJ:DNA Data Bank of Japan
*8 INSD:国際塩基配列データベース; DDBJ/EMBL/GenBank
文献
- Imanishi T., et al., Integrative annotation of 21,037 human genes validated by full-length cDNA clones. PLoS Biol. 2(6), 856-875, 2004.
- Okido T., et al., Construction of H-Invitational Database CIB-DDBJ Flat File Server. The 15th International Conference on Genome Informatics,
GIW2004, Yokohama, Japan.
= DDBJ Report 2005 = 15
第 1 7 回国際実務者会議報告
DDBJ 真島 淳
CIB/DDBJ, EBI/EMBL, NCBI/GenBank 国際 DNA データバンクは,DDBJ/EMBL/GenBank 国際塩基配列データベース共
同構築の運営・推進をはかるために,国際諮問委員会と国際実務者会議を年1回開催しています。2004 年は EBI のあ
るケンブリッジで第 17 回国際実務者会議(5 月 17 日− 19 日)と,第 15 回国際諮問委員会(5 月 20 日− 21 日)が開催
されました。DDBJ からは国際実務者会議に5名の,国際諮問委員会に4名のスタッフが出席しました。
国際実務者会議では,DDBJ, EMBL, GenBank 三極の活動の年次報告が行なわれた後,国際塩基配列データベース運用
上の実務的な問題を検討しました。会議で決定した主な事項は次の通りです。
動向
■一昨年の会議を受けて,1 エントリを 350kb 以下にするという,塩基配列長の制限を撤廃することを検
討して来ましたが,特に大きな問題は予想されないと結論し,これを進めることで合意しました。この
制限の廃止に伴い,過去に長さを理由に分割したエントリは,適宜,結合する方針です。
■環境サンプル由来の塩基配列の登録が,近年,急増しています。これに対応すべく,ENV (環境サンプ
ル)division を新設し,これまで主として BCT(バクテリア)division に含まれていた環境サンプル由来
エントリを明示的に区別します。
■一昨年より TPA の登録を受け付けていますが,引用配列と TPA 登録配列の違いをどの程度許容するか
という点を明確に出来ていませんでした。この違いが整列される範囲の 10% 未満に収まることを目安と
する方向で合意しました。
■昨年の決定を受けて,DDBJ, EMBL, GenBank において共通の XML フォーマットを提供する準備を進め
ておりましたが,共通化した DTD と XML フォーマットのテスト運用を内部的に進める予定です。
■ gap を含む配列に関して,これまで恣意的な個数の連続した 'n' を挿入した上で,配列を受け付けていま
した。今後は gap の長さが不明の場合は 100 個の連続した 'n' を,長さの推定が為されている場合はそ
の数分の連続した n を,対応する location に挿入することを規則とします。
Feature に関する決定
■環境サンプル由来登録の増加に関連し,採集地情報を記載する /country qualifier の記載の在り方につい
て再検討しています。
■ /bound_moiety を使用可能な feature は,これまで protein_bind のみでしたが,今後は,promoter, enhancer,
oriT, misc_bind にも使用可能とする予定です。
■一昨年,特定ゲノムプロジェクト用に feature 継承用の ID 情報を記述するための /locus_tag qualifier を追
加しましたが,履歴管理のために /old_locus_tag qualifier を更に追加する予定です。
■配列比較に基づいて記載される一群の feature (variation, misc_difference, conflict, unsure, old_sequence) に
ついて比較対象の配列を記載するための /compare qualifier (/compare=[accession].[version]) を追加する予
定です。
その他
■Feature,特に CDS の根拠が実験的であるか,
相同性に基づく推定か,単なる読み枠の予測
によるか,などを示すことが利用者から求め
られております。これに関連して,/evidence
qualifier の規定値の追加,再分類と再定義の
検討を進めています。
▲会議参加者集合写真
16 = DDBJ Report 2005 =
DDBJ Statistics
■ DDBJ データベースリリースの推移(1987/07-2004/12)
リリース(日付)
エントリ数 60
59
58
57
56
55
54
53
52
51
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
(2004/12)
(2004/09)
(2004/06)
(2004/03)
(2003/12)
(2003/09)
(2003/06)
(2003/02)
(2002/12)
(2002/09)
(2002/06)
(2002/04)
(2002/01)
(2001/10)
(2001/07)
(2001/04)
(2001/01)
(2000/10)
(2000/07)
(2000/04)
(2000/01)
(1999/10)
(1999/07)
(1999/03)
(1999/01)
(1998/10)
(1998/07)
(1998/04)
(1998/01)
(1997/10)
40,583,945
37,926,117
34,917,581
32,693,678
30,405,173
27,753,140
25,149,821
23,250,813
20,354,812
18,401,358
17,260,693
16,503,157
15,016,100
13,266,610
12,313,759
11,434,113
10,165,597
8,666,551
7,554,995
5,962,608
5,388,125
4,810,773
4,294,369
3,311,627
3,073,166
2,759,261
2,412,785
2,174,769
1,956,669
1,731,532
塩基数 リリース(日付) エントリ数 44,416,752,273
42,245,956,937
39,812,635,108
38,008,449,840
36,079,046,032
34,280,225,489
32,162,041,177
29,711,299,332
26,931,456,316
22,782,404,136
20,158,357,982
18,579,627,226
16,197,713,855
14,145,671,645
13,037,646,166
12,207,092,905
11,136,298,841
10,034,532,698
8,880,721,093
6,409,581,885
4,762,696,173
3,728,000,562
3,098,519,597
2,375,261,951
2,190,425,560
1,957,341,169
1,708,580,623
1,479,303,279
1,300,950,613
1,139,869,464
30
29
28
27
26
25
24
23
22
21
20
19
18
17
15
14
13
12
11
10
09
08
07
06
05
04
03
02
01
(1997/07)
(1997/04)
(1997/01)
(1996/10)
(1996/07)
(1996/04)
(1996/01)
(1995/10)
(1995/07)
(1995/04)
(1995/01)
(1994/10)
(1994/07)
(1994/04)
(1993/10)
(1993/07)
(1993/04)
(1993/01)
(1992/07)
(1992/01)
(1991/07)
(1991/01)
(1990/07)
(1990/01)
(1989/07)
(1989/01)
(1988/07)
(1988/01)
(1987/07)
1,534,115
1,270,194
1,154,120
936,697
835,552
744,490
637,508
569,757
437,588
274,596
239,689
204,332
185,230
154,626
131,649
120,350
112,067
97,683
65,693
59,317
1,130
879
681
496
395
302
230
142
66
塩基数
992,788,339
841,415,232
756,785,219
608,103,057
551,932,448
499,300,364
431,771,652
390,694,350
322,982,425
250,875,023
231,299,557
205,274,131
192,473,021
165,017,628
147,224,690
138,686,333
129,784,445
120,815,244
84,839,075
77,805,556
2,002,124
1,573,442
1,154,211
841,236
679,378
535,985
345,850
199,392
108,970
□リリース 31 から 60(1997/10-2004/12) の推移 エントリ数 45,000,000
塩基数
500 億
40,000,000
エントリ数(左めもり)
35,000,000
塩基数(右めもり)
450 億
400 億
350 億
30,000,000
300 億
25,000,000
250 億
20,000,000
200 億
15,000,000
150 億
10,000,000
100 億
5,000,000
50 億
0
31(1997/10)
32(1998/01)
33(1998/04)
34(1998/07)
35(1998/10)
36(1999/01)
37(1999/03)
38(1999/07)
39(1999/10)
40(2000/01)
41(2000/04)
42(2000/07)
43(2000/10)
44(2001/01)
45(2001/04)
46(2001/07)
47(2001/10)
48(2002/01)
49(2002/04)
50(2002/06)
51(2002/09)
52(2002/12)
53(2003/02)
54(2003/06)
55(2003/09)
56(2003/12)
57(2004/06)
58(2004/06)
59(2004/09)
60(2004/12)
0
= DDBJ Report 2005 = 17
■日米欧における収集件数の推移 (1992-2004)
エントリ数 エントリ数
(日本・欧州)
(米国)
日本(DDBJ + 特許庁)左めもり
6,000,000
25,000,000
欧州(EMBL + 欧州特許局)左めもり
5,000,000
米国(GenBank + 米国特許局)右めもり
20,000,000
4,000,000
15,000,000
3,000,000
15,000,000
2,000,000
5,000,000
1,000,000
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
0
1992
0
□ 2004 年(DDBJ リリース 60) 日米欧のデータ割合 日本 1 6 . 6 %
日本 1 0 . 4 %
欧 州 11.9%
欧 州 16.7%
エントリ数
米 国 71.5 %
40,583,945
米国 72.9%
塩基数
44,416,752,273
■日米欧における収集総塩基数の推移 (1992-2004)
塩基数 塩基数
(日本・欧州)
(米国)
70 億
日本(DDBJ + 特許庁)左めもり
300 億
60 億
欧州(EMBL + 欧州特許局)左めもり
250 億
50 億
米国(GenBank + 米国特許局)右めもり
200 億
40 億
150 億
30 億
100 億
20 億
50 億
10 億
0
18 = DDBJ Report 2005 =
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
0
■ Division ごとの登録件数と登録塩基数(DDBJ release 60 にもとづく)
エントリ数
Division
BCT (bacteria)
塩基数 284,120
999,579,709
24,482,794
10,727,160
12,838,269,347
6,608,930,949
HTC (high throughput cDNA)
HTG (high throughput genome sequence)
369,681
68,655
421,483,756
11,629,791,796
HUM (human)
INV (invertebrates)
311,108
252,743
4,145,219,297
733,647,723
66,390
2,499,017
109,362,831
1,441,006,989
PHG (phages)
PLN (plants and fungi)
2,767
488,305
13,409,931
1,403,225,946
PRI (primates, exclude HUM)
ROD (rodents)
31,663
137,858
251,540,883
2,445,359,847
STS (sequence tagged site)
SYN (synthetic DNAs)
380,367
16,055
168,536,426
23,889,562
UNA (unannotated sequences)
VRL (viruses)
1,409
262,167
629,862
240,927,773
VRT (vertebrates, exclude HUM, MAN, PRI, ROD)
201,686
941,939,646
40,583,945
44,416,752,273
EST (expressed sequence tag)
GSS (genome survey sequence)
MAN (mammals, exclude HUM, PRI, ROD)
PAT (patents)
total
□登録件数の割合
40,583,945 エントリ
EST
EST, GSS, PAT を除く
2,874,974 エントリ
PLN
0%
GSS
STS
HTC
20%
HUM
40%
BCT
60%
PAT
VRL
INV VRT
ROD, HTG, MAN,
PRI, SYN, PHG,
UNA
100%
□登録塩基数の割合
EST
44,416,752,273 bp
EST, HTG, GSS, HUM,
ROD を除く
6,749,181,037 bp
HTG
PAT
0%
PLN
20%
GSS
BCT
40%
VRT
60%
HUM
INV
ROD
HTC
PRI, VRL, STS,
MAN, SYN, PHG,
UNA 80%
100%
= DDBJ Report 2005 = 19
■国ごとの登録件数と登録塩基数(DDBJ release 60 にもとづく)
*このページの統計は,主としてフラットファイルの REFERENCE 欄「JOURNAL」行を参照して作成しています。国名の表
記方法が複数あるため国名に若干の重複があります。 出典:国立遺伝学研究所 遺伝子発現解析研究室 飯塚 高康・渡邊 康司
□登録件数の割合
残りの 5%(件数の多い順)
Canada 2%
Germany 3%
Brazil 4%
UK
5%
France 5%
Japan 16%
China
People's Republic of China
Sweden
Republic of
Korea
Korea
not_matched
New Zealand
Australia
Italy
Singapore
Finland
USA 60%
PAT division を除く 38,481,350 エントリ
(CON, TPA division を含む)
Spain
Norway
Netherlands
Denmark
Switzerland
Argentina
India
Taiwan
Belgium
Ireland
South Africa
Austria
その他 93ヶ国
□登録塩基数の割合
残りの 5%(件数の多い順)
Germany 2%
France
3%
Japan
7%
UK
USA
8%
Canada
Brazil
not_matched
People's Republic of China
China
Sweden
Taiwan
Republic of
Korea
Korea
Australia
Italy
Singapore
75%
PAT division を除く 59,315,383,518 bp
(CON, TPA division を含む)
New Zealand
Switzerland
Spain
Netherlands
Finland
India
Norway
Denmark
Belgium
Austria
Argentina
Ireland
South Africa
その他 93ヶ国
□各データバンクへの登録状況
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
People's Republic of China
DDBJ への E M B L への
登録
登 録 9%
録
16%
PAT division を
除く 38,481,350
GenBank
エントリ
への登録
(CON,
TPA
75%
division
を含む)
DDBJ
Japan
EMBL
France
GenBank
USA
UK
China
Sweden
Republic of Korea
Korea
not_matched
New Zealand
Australia
Italy
Singapore
Finland
Spain
Norway
ほか 103ヶ国
Germany
Brazil
Canada
0%
20 = DDBJ Report 2005 =
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
■ DAD (DDBJ Amino Acid Database) リリースの推移(1997/11-2005/01)
DAD リリース(日付)
エントリ数
残基数 DAD リリース(日付)
エントリ数
残基数 30 (2005/01)
29 (2004/10)
2,169,069
1,990,271
669,311,612
612,044,833
15 (2001/04)
741,845
228,137,184
28 (2004/07)
27 (2004/03)
1,837,664
1,743,365
563,381,750
534,642,804
14 (2001/01)
13 (2000/11)
662,374
627,154
205,640,609
195,397,467
26 (2003/12)
25 (2003/10)
1,632,775
1,547,330
503,160,878
478,115,729
12 (2000/07)
11 (2000/04)
567,195
514,763
176,496,181
158,049,461
24 (2003/06)
23 (2003/03)
1,429,344
1,324,437
441,769,888
410,343,359
10 (2000/02)
09 (1999/11)
473,525
445,579
145,010,460
136,352,568
22 (2003/01)
21 (2002/11)
1,218,918
1,139,458
376,251,148
349,308,832
08 (1999/07)
06 (1999/02)
419,300
361,018
128,581,164
1110,06,215
20 (2002/06)
19 (2002/04)
1,062,430
1,012,203
325,626,765
309,708,601
05 (1998/11)
04 (1998/08)
343,271
325,816
105,546,945
99,852,596
18 (2002/01)
17 (2001/10)
945,852
863,193
290,665,398
265,285,159
03 (1998/05)
02 (1998/02)
305,799
286,358
93,855,083
87,755,825
01 (1997/11)
242,538
74,829,275
16 (2001/07)
797,764
245,236,540
* DAD リリース 7 は公開していません
□ DAD リリースの推移グラフ版 (1997/11-2004/01)
エントリ数 残基数
2,500,000
7億
エントリ数(左めもり)
2,000,000
6億
残基数(右めもり)
5億
1,500,000
4億
3億
1,000,000
2億
500,000
1億
30 (2005/01)
28 (2004/07)
26 (2003/12)
24 (2003/06)
22 (2003/01)
20 (2002/06)
18 (2002/01)
16 (2001/07)
14 (2001/01)
12 (2000/07)
10 (2000/02)
08 (1999/07)
05 (1998/11)
03 (1998/05)
01 (1997/11)
0
0
= DDBJ Report 2005 = 21
■ DDBJ release 60 登録塩基数の多い生物上位 100
2002
2003
2004
学名(一般名)
塩基数 エントリ数
001
003
002
007
011
004
018
005
034
006
036
023
033
013
009
008
***
027
020
017
019
010
***
025
012
001
002
003
004
005
006
012
007
009
010
008
019
031
013
015
011
014
029
020
016
018
017
***
027
023
001
002
003
004
005
006
007
008
009
010
011
012
013
014
015
016
017
018
019
020
021
022
023
024
025
Homo sapiens(ヒト)
11,048,379,419
Mus musculus(マウス)
6,820,876,862
Rattus norvegicus(ラット)
5,649,577,024
Danio rerio(ゼブラフィッシュ)
2,018,521,902
Zea mays(トウモロコシ)
1,460,995,438
Drosophila melanogaster(ショウジョウバエ)
757,868,020
Bos taurus(ウシ)
713,942,628
Oryza sativa (japonica cultivar-group) (イネ・日本晴)705,457,467
Gallus gallus(ニワトリ)
608,308,053
Arabidopsis thaliana(シロイヌナズナ)
593,362,072
Canis familiaris(イヌ)
583,709,214
Xenopus tropicalis(アフリカツメガエルの一種)
468,721,111
Sorghum bicolor(ソルガム)
451,111,852
Pan troglodytes(チンパンジー)
444,850,275
Ciona intestinalis(カタユウレイボヤ)
418,561,678
Brassica oleracea(アブラナ科植物)
404,142,771
Macaca mulatta(アカゲザル)
375,957,846
Sus scrofa(ブタ)
347,814,219
Medicago truncatula(アルファルファの仲間)
336,061,103
Triticum aestivum(コムギ)
333,560,138
Xenopus laevis(アフリカツメガエルの一種)
300,098,375
Caenorhabditis elegans(エレガンス線虫)
283,726,789
Mus musculus molossinus(野生ハツカネズミ)
279,764,851
Unknown.(種名不明)
261,836,591
Tetraodon nigroviridis(ミドリフグ)
260,296,378
8,451,279
6,136,020
991,551
773,022
2,296,116
483,567
921,859
348,991
700,960
856,993
1,015,767
562,938
766,783
193,604
693,357
596,041
55,950
553,817
351,814
595,966
456,840
309,879
337,556
623,568
278,109
2002
2003
2004
学名(一般名)
塩基数 エントリ数
016
021
***
***
022
015
***
***
035
***
045
051
049
***
031
026
028
030
024
063
042
***
***
088
039
021
024
028
026
030
025
065
***
045
***
040
041
046
***
037
033
034
042
032
049
036
035
***
038
043
026
027
028
029
030
031
032
033
034
035
036
037
038
039
040
041
042
043
044
045
046
047
048
049
050
Glycine max(ダイズ)
196,014,353
Anopheles gambiae(ガンビエハマダラカ)
172,908,691
Hordeum vulgare subsp. vulgare(オオムギの亜種)
162,244,556
Saccharum officinarum(サトウキビ)
156,963,394
synthetic construct
149,659,407
Oryza sativa(イネ)
138,890,321
Oryza sativa (indica cultivar-group)(イネ・インディカ)138,752,902
Oryza rufipogon(イネ・野生種)
120,155,980
Solanum tuberosum(ジャガイモ)
119,154,879
Drosophila sp.(ショウジョウバエの一種)
102,868,049
Oncorhynchus mykiss(ニジマス)
100,216,897
Lotus corniculatus var. japonicus(ミヤコグサ)
99,181,246
Pinus taeda(テーダマツ)
98,230,127
Oryza australiensis
92,983,936
Strongylocentrotus purpuratus(ムラサキウニ)
92,235,473
Lycopersicon esculentum(トマト)
91,370,274
Chlamydomonas reinhardtii(クラミドモナス)
90,989,429
Oryzias latipes(メダカ)
90,850,781
Dictyostelium discoideum(細胞性粘菌)
90,321,097
Papio anubis(アヌビスヒヒ)
88,381,013
Schistosoma mansoni(マンソン住血吸虫)
86,086,907
Aedes aegypti(ネッタイシマカ)
85,842,492
Malus x domestica(リンゴ)
82,582,224
Vitis vinifera(ブドウ)
80,314,873
Human immunodeficiency virus 1(HIV 1)
75,666,971
405,919
275,314
291,381
246,560
412,360
70,229
169,206
177,291
192,443
29,192
161,087
158,714
174,677
137,555
129,458
170,999
168,782
150,605
156,614
780
195,385
125,982
179,082
145,722
116,983
22 = DDBJ Report 2005 =
2002
2003
2004
学名(一般名)
029
066
068
***
***
***
070
032
***
054
037
***
***
048
***
041
***
***
080
***
***
***
053
050
***
039
059
072
083
078
071
057
044
***
058
048
***
***
047
***
054
063
***
053
***
***
***
052
055
075
051
052
053
054
055
056
057
058
059
060
061
062
063
064
065
066
067
068
069
070
071
072
073
074
075
Entamoeba histolytica(赤痢アメーバ)
Pristionchus pacificus(線虫の一種)
Bombyx mori(カイコ)
unidentified(種名未同定)
Otolemur garnettii(オオガラゴの一種)
Hydra magnipapillata(日本産チクビヒドラ)
Toxoplasma gondii(トキソプラズマ原虫)
Trypanosoma brucei(トリパノソーマ)
Callithrix jacchus(コモンマーモセット)
Salmo salar(タイセイヨウサケ)
Takifugu rubripes(トラフグ)
Pongo pygmaeus(オランウータン)
Oryza punctata
Physcomitrella patens subsp. patens(ヒメツリガネゴケ)
Gossypium raimondii
Saccharomyces cerevisiae(パン酵母)
Schistosoma japonicum(日本住血吸虫)
Coccidioides posadasii
Apis mellifera(セイヨウミツバチ)
Dasypus novemcinctus(ココノオビアルマジロ)
Cryptococcus neoformans var. neoformans
Oryza brachyantha
Felis catus(ネコ)
Hordeum vulgare(オオムギ)
Gasterosteus aculeatus(イトヨ)
塩基数 エントリ数
72,244,133
67,018,345
66,311,626
63,243,715
62,285,088
60,148,633
59,406,145
57,227,380
57,027,063
52,937,297
52,510,476
49,205,860
47,174,463
46,643,361
45,440,271
43,966,485
43,082,000
43,045,273
42,441,865
42,428,767
41,803,957
41,401,499
40,484,376
40,163,660
39,621,126
80,728
92,505
117,862
161,412
389
123,948
126,712
92,025
1,008
94,053
78,919
53,324
66,085
82,434
63,697
40,400
69,131
53,751
27,935
1,109
59,455
64,620
5,227
80,193
27,668
2002
2003
2004
学名(一般名)
塩基数 エントリ数
038
***
***
040
***
057
***
071
***
***
043
***
***
052
056
059
060
***
047
089
***
078
***
***
***
050
051
***
056
***
066
060
095
093
***
062
061
***
070
074
069
067
***
068
086
***
085
***
073
***
076
077
078
079
080
081
082
083
084
085
086
087
088
089
090
091
092
093
094
095
096
097
098
099
100
Leishmania major(リーシュマニア)
39,435,594
Pseudomonas aeruginosa(緑膿菌)
39,297,524
Ciona savignyi(ユウレイボヤ)
38,778,666
Lactuca sativa(レタス)
36,703,730
Oryza glaberrima(イネ)
35,404,635
Magnaporthe grisea(イネいもち病菌)
34,655,621
Hypocrea jecorina(ボタンタケ属の一種)
33,908,975
Populus balsamifera subsp. trichocarpa(バルサムポプラの亜種) 33,758,972
Citrus sinensis(スイートオレンジ)
33,652,527
Picea glauca
32,243,227
Rattus sp.(ラットの亜種)
31,047,666
Plasmodium falciparum 3D7(熱帯熱マラリア原虫)
31,006,510
Fundulus heteroclitus(マミチョグ)
30,029,824
Populus tremula x Populus tremuloides
29,258,302
Escherichia coli(大腸菌)
28,550,090
Neurospora crassa(アカパンカビ)
27,338,109
Helianthus annuus(ヒマワリ)
27,258,900
Acyrthosiphon pisum(エンドウヒゲナガアブラムシ)
26,845,484
Gossypium arboreum(キワタ)
26,261,571
uncultured bacterium
26,229,352
Ictalurus punctatus(アメリカナマズ)
26,080,334
Sorghum propinquum(ソルガムの一種)
25,507,839
Ajellomyces capsulatus
23,773,998
Brassica napus(セイヨウアブラナ)
23,319,985
Cyanidioschyzon merolae(原始紅藻)
21,853,226
21,358
33,953
84,437
69,078
62,315
66,173
49,913
55,077
56,540
55,243
70,056
17,974
49,780
66,179
27,946
29,035
63,123
43,816
39,077
38,040
35,253
44,865
44,703
38,586
8,877
■ 2004 年 12 月に公開した DDBJ rel. 60 と1年前(DDBJ rel. 56)2年前(DDBJ rel.52)の順位と比較しています。 ■ *** はそのリリースでの順位が 100 位以下であった
ことを示しています。 ■ * Xenopus tropicalis は DDBJ rel. 57 以前は Silurana tropicalis という学名でした。2002, 2003 年は Silurana tropicalis の順位を示しています。 ■ 23 位の Mus musculus molossinus は国立遺伝学研究所で作られた系統,三島産の野生ハツカネズミ(MSM/Ms)です。
= DDBJ Report 2005 = 23
CIB-DDBJ Research
Report 2005
Published by the Center for Information Biology and DNA Data Bank of Japan,
National Institute of Genetics
Mishima, Japan
Vol. 8
March 2005
Contents
1. News from CIB-DDBJ ------------------------------------------------24
2. Research Activities in CIB-DDBJ ------------------------------------ 25
2.1 Laboratory for DNA Data Analysis ------------------------------- 25
2.2 Laboratory for Gene Function Research-------------------------- 32
2.3 Laboratory for Gene-Product Informatics ------------------------ 37
2.4 Laboratory for Research and
Development of Biological Databases -------------------------- 39
2.5 Laboratory for Gene-Expression Analysis ----------------------- 42
3. CIB-DDBJ Staff Publications ----------------------------------------- 43
4. CIB-DDBJ Staff Oral Presentations ---------------------------------- 46
5. CIB-DDBJ Research Staff --------------------------------------------- 48
1. News from CIB-DDBJ
The Terakoya Lecture Series and DDBJing Seminar
The sixth seminar of the "Terakoya" lecture series and the ninth DDBJing Seminar was held on Sunday, March 28,
2004 (10:00 - 17:00) at National Institute of Informatics, Kanda, Tokyo. The aim of the Terakoya lecture series is to
give students and researchers not only the established knowledge of the fields but also some ideas on how to break and
expand the limit of the current studies.
We had six lectures as follows.
(1) Use of DDBJ through web service (by Satoru Miyazaki)
(2) How to submit nucleotide sequences to DDBJ (by Katsunaga Sakai)
(3) Role of DDBJ on bioinformatics research (by Takashi Gojobori)
(4) How we should handle biological knowledge? (by Kosaku Okubo)
(5) GTOP database for estimating genome wide protein 3D structure (by Satoshi Fukuchi)
A total of 43 persons attended this seminar, and they gave many questions to DDBJ lecturers.
24 = CIB-DDBJ Research Report 2005 =
SOKENDAI International Lecture on Bioinformatics in Shanghai
We at CIB-DDBJ held the SOKENDAI international lecture on bioinformatics in collaboration with the Shanghai
Center for Bioinformation Technology (SCBT) at the Olympic Hotel in Shanghai from October 20 to 22, 2004. The
international lecture was planned and sponsored by SOKENDAI (the Graduate School of Advanced Studies). The
main purpose of the international lecture this time was to educate SOKENDAI students and young Chinese researchers
together about bioinformatics and to let them strike up a friendship.
The individual lectures were delivered by five Japanese (Drs. Takashi Gojobori of CIB-DDBJ, Susumu Goto of
Kyoto University, Tadashi Imanishi of JBIRC, Kazuho Ikeo of CIB-DDBJ and Yoshio Tateno of CIB-DDBJ) and five
Chinese researchers (Drs. Yixue Li of SCBT, Wayne He of SCBT, Tieliu Shi of SCBI, Zhiwei Cao of SCBT and Yang
Zhong of Fudan University) on genome evolution, human cDNA annotation, functional genomics of microorganisms
and bio-databases including DNA, protein, gene-expression, pathways and proteome. The participants in the international lecture were four SOKENDAI students and twenty young Chinese researchers.
This was not the first SOKENDAI international lecture, but was the first case in which its students actually participated. During the lectures and excursion trip, the lecturers and participants mixed well with one another, which made
the international lecture half successful. The Chinese hospitality offered by Dr. Yixue Li, director of SCBT, and his
colleagues contributed to the other half, not to mention the ten excellent lectures.
2. Research Activities in CIB-DDBJ
2.1 Laboratory for DNA Data Analysis
Prof. Takashi Gojobori
Assoc. Prof. Kazuho Ikeo
Assist. Prof. Yoshiyuki Suzuki
We have three faculty members, seven postdocs, four visiting researchers, five graduate students, seven technicians, and six secretaries. Each researcher has his or her
own research project, and faculty members and secretaries are also engaged in DDBJ activities.
The researchers and the research projects in our
laboratory can largely be classified into three groups. The
first group studies evolution of nervous systems using
expression profiles of genes. They have sequenced tens
of thousands of ESTs from the cave and surface fish, and
compared the expression profiles (N. Tanaka). The second group is studying the mechanisms of genome evolution in silico. It was found that the evolutionary rate of
proteins was influenced by their positions and the properties of their interacting partners in the protein-protein
interaction network (T. Makino). The third group is interested in the theoretical study of molecular evolution.
They developed a method for detecting positive selection efficiently by incorporating the information of the
three-dimensional structures of proteins (Y. Suzuki).
Followings are detailed descriptions of some of
our research activities. The readers who are interested in
other subjects are invited to visit our homepage
(http://www.cib.nig.ac.jp/dda/home.html).
= CIB-DDBJ Research Report 2005 = 25
1. Strong positive selection and recombination drive the antigenic variation of the PilE protein of the human pathogen Neisseria meningitidis
(Andrews DT and Gojobori T)
The PilE protein is the major component of the Neisseria
meningitidis pilus, which is encoded by the pilE/pilS locus that includes an expressed gene and eight homologous silent fragments. The silent gene fragments have been
shown to recombine through gene conversion with the
expressed gene and thereby provide a means by which
novel antigenic variants of the PilE protein can be generated. We have analyzed the evolutionary rate of the pilE
gene using the nucleotide sequence of two complete pilE/
pilS loci. The very high rate of evolution displayed by
the PilE protein appears driven by both recombination
and positive selection. Within the semivariable region of
the pilE and pilS genes, recombination appears to occur
within multiple small sequence blocks that lie between
conserved sequence elements. Within the hypervariable
region, positive selection was identified from comparison of the silent and expressed genes. The unusual gene
conversion mechanism that operates at the pilE/pilS locus is a strategy employed by N. meningitidis to enhance
mutation of certain regions of the PilE protein. The silent
copies of the gene effectively allow "parallelized" evolution of pilE, thus enabling the encoded protein to rapidly
explore a large area of sequence space in an effort to find
novel antigenic variants.
2. Difference of organelles involved in membrane traffic
(Ohyanagi H and Gojobori T)
Contrary to prokaryotes, eukaryotes have a number of
membranous organelles involved in membrane traffic in
cells. Therefore, the gain of membrane system could be
one of the most epochal events in the evolution of eukaryotes. However, detail about the evolution of membrane
system is still unclear. Each proteins involved in membrane system must have been evolved with each bias of its
own, so proteins which are localized in the same position
in cells may show the same characteristics in the context
of molecular evolution. With motivation to give insight
to the evolutionary studies of membrane system, we are
conducting the following analyses. First, we obtained subcellular localization data of yeast proteins, which have already published (http://yeastgfp.ucsf.edu/).
Second, in order to classify these yeast proteins into classes
according to their evolutionary emergence times, we performed the BLAST reciprocal best hit analysis of yeast
proteome against the proteomes of other species. Combining these two datasets with each other, it is observed
that protein sets of endoplasmic reticulum and Golgi apparatus--major components of the membrane traffic system-- show different evolutionary emergence times between each other, like nucleus or mitochondrion between
cytoplasm. From this result, it is suggested that endoplasmic reticulum and Golgi apparatus appeared in eukaryotes independently. We are examining the result and further analyses are underway.
3. Computational prediction of microRNA (miRNA) target gene in human
and its experimental varidation (Sakurai H, Barrero RA, Hayakawa S,
Tamura T, Tateno Y, Ikeo K, Imanishi T and Gojobori T)
MicroRNAs (miRNAs) form a novel class of small RNA
genes of 21-25 nucleotides derived from highly conserved
hairpin precursors (pre-miRNAs) present from mollusc
to mammals. miRNAs act as post-transcriptional repressors of target transcripts via mRNA degradation or translation inhibition. We present a novel large scale RNAaffinity screening tool combined with the evaluation of
RNA secondary structures to identify putative microRNA
recognition elements (MREs) on target mRNAs. We identified 1,476 MREs for 115 known mammalian miRNAs.
Eleven top predicted MREs for Let-7a, miR-20, miR-97
26 = CIB-DDBJ Research Report 2005 =
and miR-182a were analyzed using a reporter assay. As a
result, seven MREs mediated inhibition of reporter expression. It is suggested that our target prediction algorithm, RNAFFY, identifies highly reliable miRNA targets.
4. Detection of apoptosis during planarian regeneration by the expression of apoptosis-related genes and TUNEL assay
(Hwang JS, Kobayashi C, Agata K, Ikeo K and Gojobori T)
Apoptosis is a tightly organized cell death process that
plays a crucial role in metazoan development, but it has
not yet been revealed whether apoptotic events are involved in the process of regeneration. Here, we tried to
detect apoptotic cells during planarian regeneration using the TdT-mediated dUTP nick-end labeling (TUNEL)
assay as well as the expression of apoptosis-related genes.
Three novel cDNAs were isolated from a planarian cDNA
library and shown to be closely related to other metazoan
caspases at the amino acid sequence level. One of these
cDNAs, Caspase-like gene 3 (DjClg3), was expressed
primarily in apoptotic cells by double detections with the
TUNEL assay. Whole mount in situ studies indicated that
DjClg3 was expressed in the cells of the mesenchymal
space and also around the pharynx of the intact body. Its
expression in the regenerating head piece was seen in the
blastema and less significantly in the brain, while in the
regenerating tail piece, DjClg3 expression was detected
uniformly throughout the entire region. In parallel experiments, we performed in situ TUNEL assays to localize
the regions where cell death occurred during regeneration and comparable results to the DjClg3 expression patterns were obtained. This is the first report to show that
planarians have apoptosis-related genes and the results
suggest that the apoptotic mechanism probably takes place
to a large extent in normal intact worms as well as during
their regeneration. We hypothesize that the presence of
apoptosis in planarians may have a role in controlling cell
numbers, eliminating unnecessary tissues or cells and remodeling the old tissues of regenerating body parts.
5. Analysis of sexual dimorphism of gene expression in mouse brain
(Yuge K, Ikeo K and Gojobori T)
There are sexual differences in morphological features of
the mammalian brain. The so-called sexual dimorphism
of mammalian brains is thought to be determined by the
gonadal hormones; this view is called “gonadal origin
theory”. However, recent studies suggest that differences
in gene expression of sex-liked genes in neuronal cells
directly generate sexual dimorphism in the brain. To examine this possibility we conducted microarray experiments to screen the genes that were expressed differen-
tially in the brain between male and female mice before
gonadal hormone secretion. In this study we have identified 57 female enhanced genes and 24 male enhanced
genes in brains at embryonic day 10.5 (E 10.5). These
results indicate that sexual differences in gene expression in neuronal cells before gonadal hormone secretion
would play an important role in sexual dimorphism in the
brain.
6. Seeking for signs of aging in Hydra, a primitive metazoan
(Yoshida K, Hwang JS, Fujisawa C, Fujisawa T, Ikeo K and Gojobori T)
Aging occurs in a variety of organisms including yeast,
nematode, fly, and mammals. However, hydra belonging
to phylum Cnidaria has been considered to be immortal
(Martinez 1998). This apparent immortality was observed
when hydra were maintained so that they underwent
asexual reproduction, budding. Do they remain immortal
if they undergo sexual reproduction? A previous study
using Hydra Oligactis showed that the depression occurred after sexual reproduction (Littlefield 1985). To seek
for possible signs of aging in hydra, we studied the pro-
cess of the depression in detail. As a result, reduction in
the capacity of food capture, digestive movements and
contractile movements was all observed. Moreover, exponential increase in mortality rate of population was also
observed. From these observations, we conclude that aging-like phenomenon occurs in hydra. Aging research on
hydra, one of the most primitive metazoans, has potential
for providing further insight into the understanding of
evolution of aging.
7. Evolutionary processes of gene splicing and gene silencing
(Jin L, Suzuki Y, Ikeo K and Gojobori T)
Both gene splicing and gene silencing have become known
to contribute significantly to functional diversification of
genes and gene networks. For gene splicing, we con-
ducted an evolutionary study of the relationship between
gene duplication and alternative splicing. For gene silencing, we studied the evolutionary process of small
= CIB-DDBJ Research Report 2005 = 27
RNA-guided pathways, focusing on the Rnase III family
enzymes. For the first topic, we mentioned that gene duplication and alternative splicing (AS) were the two major evolutionary mechanisms that could bring the functional variation through the diversification of genes and
gene products. The purpose of this research is to understand the evolutionary relationship between the two different mechanisms, utilizing the available data resources.
The results of this study showed that the proportion of
the AS loci in the singleton gene group was less than that
in the duplicated gene group. Moreover, we found that
the duplicated genes tended to have more AS isoforms
than singleton genes. These results suggest that gene duplication would induce more alternative splicing events
on duplicated copies than on singletons possibly by reducing the functional constraints on the duplicates. For
the second topic, we pointed out that the RNA-mediated
gene silencing pathways were evolutionarily conserved
processes. It highlights a fundamental role of short RNAs
in eukaryotic gene regulation and antiviral defense. Recently, three distinct small RNA-directed silencing pathways were observed, such as the destruction of mRNA
via siRNA, inhibition of mRNA translation via miRNA,
and epigenetic gene silencing via siRNA. It was also
found that in these pathways, the members of ribonuclease
III family played important roles in diverse RNA maturation and decay. Here we investigated the evolution of
Rnase III nucleases, Dicer as representative, to further
figure out the evolutionary relationship among the three
gene silencing pathways. With the advantage of using
genomic sequences as the subjects of homology search
in the annotated and un-annotated genomic regions, we
were able to detect possible candidates for a gene of dicer
and its two functional domains. Moreover, we found that
representative prokaryotes including eubacteria and
archbacteria lacked completely the PAZ domain of Dicer.
These results clearly show the taxonomy-dependent evolution of the RNA-mediated gene silencing pathways. The
results obtained in this study provide the information for
the understanding of the evolutionary origin and relationships of the three pathways. The information may also
be useful for the conducting of the relevant experiments.
As a summary, these results suggested that changes in
the genome and regulatory network were closely related
evolutionary events, implying that gene multiplication and
functional constraints were the two important sources for
the change in gene function in the networks of transcription and gene regulation in evolution.
8. Various adaptations for the perpetual darkness in the diversification
process from an eyed surface-dwelling form to an eyeless cave-dwelling form of Mexican tetra, Astyanax mexicanus, by cDNA microarrays
(Tanaka N, Yokoyama S, Ikeo K and Gojobori T)
Mexican tetra (Astyanax mexicanus), a single species with
eyed surface and eyeless cave dwelling forms, gives a
unique opportunity of the evolutionary process of gene
diversification during a short period of time. In this study,
we tried to find genes related to the evolution of eyeless
cave form from the eyed surface form by cDNA
microarrays, each of which has 3,070 non-redundant
clones from an entire body of an eyed adult fish. Target
genes for the microarrays were made from an entire body
of each an eyed fish and an eyeless fish. On the basis of
the results of comparative microarray analysis for 716
functionally known genes, relatively highly expressed
genes in the surface fish and in the cavefish were listed
up, respectively. In the surface fish, relatively highly expression of eye formation-related genes, digestive system-related genes, energy metabolism-related genes,
lipocalin-type prostaglandin D synthase gene, elastase
genes, etc were found. The eye formation-related genes
must be highly expressed because surface fish have welldeveloped eyes whereas cavefish have degenerated eyes.
The digestive system-related and energy metabolism-related genes must be also highly expressed because the
surface fish are more active than the cavefish. The
lipocalin-type prostaglandin D synthase protein is related
to the regulation of circadian sleep-wake cycles. The
28 = CIB-DDBJ Research Report 2005 =
highly expression of the protein gene corresponds to the
regressive circadian activity in the cavefish. The elastase
digests elastin fibers in the skin, when the ultraviolet (UV)
light reaches the dermis in the skin. It is suggested that
the elastase genes is highly expressed because the surface fish has been exposed to sufficiently sunny conditions compared with the cavefish. On the other hand, in
the cavefish, relatively highly expression of transferrin
genes, lipid metabolism-related genes, sex differentiationrelated genes, etc were observed. Transferrin proteins are
related to the oxygen transportation in the blood. To effectively transport oxygen in the blood of the cavefish
living in the water with the lower concentration of oxygen at the dark cave environments, transferrin genes may
be required to have relatively highly expression in the
cavefish. The highly expression of lipid metabolism-related genes would be due to efficient acquirement of the
energy under circumstances of at least temporary shortness in food. The highly expressions of the sex differentiation-related genes (diazepam binding inhibitor gene and
granulin 1 gene) in the cavefish would be related to negative sex differentiation because of the lack of any kind of
display/courtship in the cavefish. In conclusion, various
adaptations for the perpetual darkness were evolutionarily
raised in the diversification process from the surface fish
to the cavefish. This is the first report that differences of
gene expression between the surface fish and the cavefish
are extensively examined.
9. Evolutionary analysis of transcriptional coactivator MBF1
(Liu Q-X, Ikeo K, Hirose S and Gojobori T)
Transcriptional coactivators play a crucial role in gene
expression by communicating between regulatory factors
and the basal transcription machinery. How a coactivator
evolves was poorly understood. We have taken a phylogenetic approach to analyze the evolutionarily history of
coactivator MBF1 and TATA element-binding protein TBP.
We found the following points. (1)MBF1 and TBP are
evolutionarily conserved from Archaea to human to
achieve transcription initiation. (2) Archaeal MBF1 carries a DNA-binding domain consisting of a Zn-ribbon
which is absent from its eukaryotic counterparts. Thus,
Eukaryotic MBF1 can interact with various regulatory
factors while archaeal MBF1 has a single partner. (3) The
interaction between MBF1 and TBP is also conserved from
Archaea to human. In Archaea, MBF1 binds to TBP
through Lysine or Asparagine to Glutamic acid interaction; In eukaryotes, MBF1 binds to TBP through Asparatic
acid or Glutamic acid to Glutamine interaction. (4) The
phylogenetic tree of MBF1 is very similar to that of TBP,
indicating that MBF1 coevolved with TBP.
10. The evolutionary rate of a protein influenced by features of the
interacting partners (Makino T and Gojobori T)
We focused upon how the evolutionary rates of proteins
were influenced by the characteristic features of PPIs. Because the recent advancement of molecular technologies
enables us to understand actual features of protein · protein interactions (PPIs), it becomes possible to make objective descriptions about the characteristic features of the
proteins in the PPI networks. In this analysis, we defined
a protein having a larger number of PPI partners of the
same functional class as the SF (Same Function) protein,
and a protein having a larger number of PPI partners of
different functional classes as the DF (Different Function)
protein. We also classified proteins in the PPI networks
into respective proteins in dense and sparse parts of the
PPI network, denoting these proteins as the DP (Dense
part) and SP (Sparse Part) proteins, respectively. Because
these two classifications were independent of each other,
we classified the proteins in PPIs further into the four categories, the SF-DP, SF-SP, DF-DP and DF-SP proteins.
Then, we compared the evolutionary rates between the
SF and DF proteins, between the DP and SP proteins, and
among the four categories. As a result, we found that the
DF proteins evolved at a slower rate than the SF proteins.
We also found that the SP proteins evolved at a slower
rate than the DP proteins. In particular, we pointed out
that the DF-SP proteins evolved at the slowest rate in the
proteins examined. Because all these differences in the
evolutionary rates are statistically significant, it is suggested that the proteins with their PPI partners belonging
to different functional classes and occupying a sparse part
of the PPI network are under strong functional constraints.
It follows that those proteins are very important for the
maintenance and survival of the PPI network.
11. Japanese domesticated chickens derived from Shamo traditional
fighting cocks (Komiyama T, Ikeo K, Tateno Y and Gojobori T)
With the aim of elucidating the evolutionary origin of Japanese domesticated chickens, we examined 85 chicken
mtDNA sequences. Thirty-four various ornamental chickens, 42 fighting cocks (Shamo), and nine long-crowing
chickens (Naganakidori) were included in these samples.
Of the Shamo, 18 were sampled from Okinawa, while the
remaining 24 were collected in other islands around Japan. In addition, three Southeast Asian Junglefowls were
used as a reference to determine the common ancestor of
from Okinawa that clearly diverged from the other Japanese domesticated chickens studied. We found that all Japanese domesticated chickens, including the ornamental
varieties and Naganakidori, were derived from the ancestors of the Shamo in Okinawa. To create novel varieties of
ornamental chickens, intensive artificial selection is imposed on ancestral Shamo population, resulting in profoundly differentiation of Japanese domesticated chickens.
= CIB-DDBJ Research Report 2005 = 29
12. The evolutionary origin of long-crowing chicken: its evolutionary relationship with fighting cocks disclosed by the mtDNA sequence analysis
(Komiyama T, Ikeo K, Tateno Y and T. Gojobori)
Chickens with exceptionally long crow are often favored
all over the world, and connoisseur breeders have bred
certain types of chicken exclusively for this trait. In Japan, three chicken varieties have been specifically bred to
develop an exceptionally long crow of over 15 s. Although
these three long-crowing chickens, Naganakidori, are honored as heritage varieties of Japan, the domestication process and genealogical origin of long-crowing chickens
remain unclear. The purpose of this study is to clarify these
issues using nucleotide sequences of the mitochondrial
DNA D-loop region. Blood samples from a total of nine
long-crowing chickens and 74 chickens from 11 Japanese
native varieties were collected. DNA sequence data of two
Junglefowl species were also collected from the International DNA database (DDBJ /EMBL/GenBank) for use
as the outgroup. A phylogenetic tree was then constructed
revealing that all three Naganakidori varieties were monophyletic and originated from a fighting cock, a Shamo,
for cockfighting. These results suggest that these three
long-crowing chickens share a common origin in spite of
their conspicuously different characters, and that human
cultures favoring long-crowing chickens might have been
preceded by a tradition of cockfighting. Moreover, these
long-crowing varieties first separated from the fighting
cocks of Okinawa, which is geographically closer to Southern China and Indochina than Mainland Japan (Honshu/
Kyushu). This implies that Japanese long-crowing chickens were first brought to Mainland Japan as fighting cocks
from the surrounding regions of Southern China or
Indochina and through Okinawa.
13. Evolution of vitamin b6 (pyridoxine) metabolism by gain and loss of
genes (Tanaka T, Tateno Y and Gojobori T)
Vitamin B(6) (VB6) functions as a cofactor of many diverse enzymes in amino acid metabolism. Three metabolic pathways for pyridoxal 5'-phosphate (PLP; the active form of VB6) are known: the de novo pathway, the
salvage pathway, and the fungal type pathway. Most unicellular organisms and plants biosynthesize VB6 using one
or two of these three biosynthetic pathways. However,
animals such as insects and mammals do not possess any
of the pathways and, thus, need to intake VB6 in their diet
to survive. It is conceivable that breakdowns of these pathways occurred in the evolutionary lineages of insects and
mammals, and one of the major reasons for this would be
the loss of pertinent genes. We studied the evolution of
VB6 biosynthesis from the view of the gain and loss of 10
pertinent genes in 122 species whose genome sequences
were completely determined. The results revealed that each
gene in the pathways was lost more than once in the entire
evolutionary lineages of the 122 species. We also found
the following three points regarding the evolution of PLP
biosynthesis: (1) the breakdown of the PLP biosynthetic
pathways occurred independently at least three times in
animal lineages, (2) the de novo pathway was formed by
the generation of pdxB in gamma-proteobacteria, and (3)
the order of the gene loss in VB6 metabolism was conserved among different evolutionary lineages. These results suggest that the evolution of VB6 metabolism was
subject to gains and frequent losses of related genes in the
122 species examined. This dynamic nature of the evolutionary changes must have been responsible for the breakdowns of the pathways, resulting in profound differentiation of heterotrophy among the species.
14. Biased biological functions of horizontally transferred genes in
prokaryotic genomes (Nakamura Y, Itoh T, Matsuda H and Gojobori T)
Horizontal gene transfer is one of the main mechanisms
contributing to microbial genome diversification. To
clarify the overall picture of interspecific gene flow among
prokaryotes, we developed a new method for detecting
horizontally transferred genes and their possible donors
by Bayesian inference with training models for nucleotide
composition. Our method gives the average posterior probability (horizontal transfer index) for each gene sequence,
with a low horizontal transfer index indicating recent hori-
30 = CIB-DDBJ Research Report 2005 =
zontal transfer. We found that 14% of open reading frames
in 116 prokaryotic complete genomes were subjected to
recent horizontal transfer. Based on this data set, we quantitatively determined that the biological functions of horizontally transferred genes, except mobile element genes,
are biased to three categories: cell surface, DNA binding
and pathogenicity-related functions. Thus, the transferability of genes seems to depend heavily on their functions.
15. Negative selection on neutralization epitopes of poliovirus surface
proteins: implications for prediction of candidate epitopes for immunization (Suzuki Y)
For development of effective vaccines against viruses, it
is of importance to choose appropriate epitopes as the target for immunization. These epitopes should eventually
be determined experimentally, but it would be helpful if
we could predict candidate epitopes computationally because it accelerates the entire process. To predict candidate epitopes for immunization, it is of great interest to
characterize the target epitopes of poliovirus vaccine,
which has empirically proven to be the most effective
among all vaccines available. Here I show that almost all
amino acid sites of poliovirus surface proteins VP1, VP2,
and VP3 including neutralization epitopes are negatively
selected and no site is under positive selection. These
results, together with those obtained in previous studies,
indicate that vaccines directed against epitopes which
consist of negatively selected sites protect vaccinees more
effectively than those directed against epitopes which
contain positively selected sites. These observations suggest that candidate epitopes for immunization are predicted
by the molecular evolutionary analysis of viral protein
(and its coding nucleotide) sequences, as the epitopes
which consist exclusively of negatively selected amino
acid sites.
16. New Methods for Detecting Positive Selection at Single Amino Acid
Sites (Suzuki Y)
Inferring positive selection at single amino acid sites is of
particular importance for studying evolutionary mechanisms of a protein. For this purpose, Suzuki and Gojobori
(1999) developed a method (SG method) for comparing
the rates of synonymous and nonsynonymous substitutions at each codon site in a protein-coding nucleotide
sequence, using ancestral codons at interior nodes of the
phylogenetic tree as inferred by the maximum parsimony
method. In the SG method, however, selective neutrality
of nucleotide substitutions cannot be tested at codon sites,
where only termination codons are inferred at any interior node or the number of equally parsimonious inferences of ancestral codons at all interior nodes exceeds
10,000. Here I present a modified SG method which is
free from these problems. Specifically, I use the distance-
based Bayesian method for inferring the single most likely
ancestral codon from 61 sense codons at each interior
node. In the computer simulation and real data analysis,
the modified SG method showed a higher overall efficiency of detecting positive selection than the original SG
method particularly at highly polymorphic codon sites.
These results indicate that the modified SG method is
useful for inferring positive selection at codon sites where
neutrality cannot be tested by the original SG method. I
also discuss that the p-distance is preferable to the number of synonymous substitutions for inferring the phylogenetic tree in the SG method, and present a maximum
likelihood method for detecting positive selection at single
amino acid sites, which produced reasonable results in
the real data analysis.
17. Three-dimensional window analysis for detecting positive selection at structural regions of proteins (Suzuki Y)
Detection of natural selection operating at the amino acid
sequence level is important in the study of molecular evolution. Single site analysis and one-dimensional window
analysis can be used to detect selection when the biological functions of amino acid sites are unknown. Single
site analysis is useful when selection operates more or
less constantly over evolutionary time, but less so when
it operates temporarily. One-dimensional window analysis is more sensitive than single site analysis when the
functions of amino acid sites in close proximity in the
linear sequence are similar although this is not always the
case. Here I present a three-dimensional window analysis method for detecting selection given the three-dimen-
sional structure of the protein of interest. In the threedimensional structure, the window is defined as the sphere
centered on the alpha-carbon of an amino acid site. The
window size is the radius of the sphere. The sites whose
alpha-carbons are included in the window are grouped
for the neutrality test. The window is moved within the
three-dimensional structure by sequentially moving the
central site along the primary amino acid sequence. To
detect positive selection, it may also be useful to group
the surface-exposed sites in the window separately. Threedimensional window analysis appears to be not only more
sensitive than single site analysis and one-dimensional
window analysis, but also provides similar specificity for
= CIB-DDBJ Research Report 2005 = 31
inferring positive selection in the analyses of the hemagglutinin and neuraminidase genes of human influenza A
viruses. This method, however, may fail to detect selec-
tion when it operates only on a particular site, in which
case single site analysis may be preferred although a large
number of sequences is required.
18. Evolutionary process of amino acid biosynthesis in corynebacterium at the whole genome level
(Nishio Y, Nakamura Y, Usuda Y, Sugimoto S, Matsui K, Kawarabayasi Y,
Kikuchi H, Gojobori T and Ikeo K)
Corynebacterium glutamicum, which is the closest relative of Corynebacterium efficiens, is widely used for the
large scale production of many kinds of amino acids, particularly glutamic acid and lysine, by fermentation.
Corynebacterium diphtheriae, which is well known as a
human pathogen, is also closely related to these two species of Corynebacteria, but it lacks such productivity of
amino acids. It is an important and interesting question to
ask how those closely related bacterial species have undergone such significant functional differentiation in
amino acid biosynthesis. The main purpose of the present
study is to clarify the evolutionary process of functional
differentiation among the three species of Corynebacteria by conducting a comparative analysis of genome se-
quences. When Mycobacterium and Streptomyces were
used as out groups, our comparative study suggested that
the common ancestor of Corynebacteria already possessed
almost all of the gene sets necessary for amino acid production. However, C. diphtheriae was found to have lost
the genes responsible for amino acid production. Moreover, we found that the common ancestor of C. efficiens
and C. glutamicum have acquired some of genes responsible for amino acid production by horizontal gene transfer. Thus, we conclude that the evolutionary events of gene
loss and horizontal gene transfer must have been responsible for functional differentiation in amino acid biosynthesis of the three species of Corynebacteria.
(Suzuki Y)
2.2 Laboratory for Gene Function Research
Prof. Yoshio Tateno
Assist. Prof. Roberto A. Barrero
The laboratory consists of three members: Dr. Yoshio
Tateno (Professor), Dr. Roberto Antonio Barrero Gumiel
(Assistant Professor) and Ms. Naoko Murakata (Secretary). We aim at the elucidation of the origin, evolution
and function of genes and proteins in view of molecular
evolution, structural biology and information biology in
collaboration with other research groups in the institute
and out. Besides the research activities summarized below, we take part in the DDBJ activity in particular in the
database construction and public relations.
1. Submission of microarray data to public repositories
(Ball CA, Brazma A, Causton H, Chervitz S, Edgar R, Hingamp P, Matese JC,
Parkinson H, Quackenbush J, Ringwald M, Sansone SA, Sherlock G, Spellman P,
Stoeckert C, Tateno Y, Taylor R, White J and Winegarden N)
What this work states is a change in the way in which we
approach the publication of microarray-based studies.
Both authors and journals have a responsibility to assure
that the requisite data are available, and because submitting MIAME-compliant data can take considerable time
and effort, this process should be factored into review and
publication timelines. However, while this process may
be time consuming and painful at first, we believe that
32 = CIB-DDBJ Research Report 2005 =
the benefits of building an open repository of microarray
data will far outweigh any initial disadvantages. As always,
it is our sincere hope that these suggestions stimulate discussion within the community and that together we can
arrive at a consensus that ensures that microarray data are
widely and easily accessible. Finally we would like to
urge the DDBJ, EBI, and NCBI to work together towards
exchanging all MIAME-compliant microarray data.
2. The origin of eukaryotes is suggested as the symbiosis of pyrococcus
into proteobacteria by phylogenetic tree based on gene content
(Horiike T, Hamada K, Miyata D and Shinozawa T)
Attempts were made to define the relationship among the
three domains (eukaryotes, archaea, and eubacteria) using phylogenetic tree analyses of 16S rRNA sequences as
well as of other protein sequences. Since the results are
inconsistent, it is implied that the eukaryotic genome has
a chimeric structure. In our previous studies, the origin of
eukaryotes to be the symbiosis of archaea into eubacteria
using the whole open reading frames (ORF) of many genomes was suggested. In these studies, the species participating in the symbiosis were not clarified, and the effect of gene duplication after speciation (in-paralog) was
not addressed. To avoid the influence of the in-paralog,
we developed a new method to calculate orthologous
ORFs. Furthermore, we separated eukaryotic in-paralogs
into three groups by sequence similarity to archaea,
eubacteria (other than -proteobacteria), and -proteobacteria
and treated them as individual organisms. The relationship between the three ORF groups and the functional
classification was clarified by this analysis. The introduction of this new method into the phylogenetic tree analysis of 66 organisms (4 eukaryotes, 13 archaea, and 49
eubacteria) based on gene content suggests the symbiosis
of pyrococcus into -proteobacteria as the origin of eukaryotes.
3. Integrative annotation of 21,037 human genes validated by full-length
cDNA clones
(Imanishi T et al, including Suzuki Y, Fukuchi S, Barrero RA, Ikeo K, Saitou N,
Nishikawa K, Sugawara H, Tateno Y, Okubo K and Gojobori T)
The human genome sequence defines our inherent biological potential; the realization of the biology encoded therein
requires knowledge of the function of each gene. Currently,
our knowledge in this area is still limited. Several lines of
investigation have been used to elucidate the structure and
function of the genes in the human genome. Even so, gene
prediction remains a difficult task, as the varieties of transcripts of a gene may vary to a great extent. We thus performed an exhaustive integrative characterization of 41,118
full-length cDNAs that capture the gene transcripts as complete functional cassettes, providing an unequivocal report
of structural and functional diversity at the gene level. Our
international collaboration has validated 21,037 human
gene candidates by analysis of high-quality full-length
cDNA clones through curation using unified criteria. This
led to the identification of 5,155 new gene candidates. It
also manifested the most reliable way to control the quality of the cDNA clones. We have developed a human gene
database, called the H-Invitational Database (H-InvDB;
http://www.h-invitational.jp/). It provides the
following: integrative annotation of human genes, description of gene structures, details of novel alternative splicing isoforms, non-protein-coding RNAs, functional do-
mains, subcellular localizations, metabolic pathways, predictions of protein three-dimensional structure, mapping
of known single nucleotide polymorphisms (SNPs), identification of polymorphic microsatellite repeats within
human genes, and comparative results with mouse fulllength cDNAs. The H-InvDB analysis has shown that up
to 4% of the human genome sequence (National Center
for Biotechnology Information build 34 assembly) may
contain misassembled or missing regions. We found that
6.5% of the human gene candidates (1,377 loci) did not
have a good protein-coding open reading frame, of which
296 loci are strong candidates for non-protein-coding RNA
genes. In addition, among 72,027 uniquely mapped SNPs
and insertions/deletions localized within human genes,
13,215 nonsynonymous SNPs, 315 nonsense SNPs, and
452 indels occurred in coding regions. Together with 25
polymorphic microsatellite repeats present in coding regions, they may alter protein structure, causing phenotypic effects or resulting in disease. The H-InvDB platform represents a substantial contribution to resources
needed for the exploration of human biology and pathology.
4. Structural and functional differences in two cyclic bacteriocins with
the same sequences produced by lactobacilli
(Kawai Y, Ishii Y, Arakawa K, Uemura K, Saitoh B, Nishimura J, Kitazawa H,
Yamazaki Y, Tateno Y, Itoh T and Saito T)
Lactobacillus gasseri LA39 and L. reuteri LA6 isolated
from feces of the same human infant were found to pro-
= CIB-DDBJ Research Report 2005 = 33
duce similar cyclic bacteriocins (named gassericin A and
reutericin 6, respectively) that cannot be distinguished by
molecular weights or primary amino acid sequences.
However, reutericin 6 has a narrower spectrum than
gassericin A. In this study, gassericin A inhibited the
growth of L. reuteri LA6, but reutericin 6 did not inhibit
the growth of L. gasseri LA39. Both bacteriocins caused
potassium ion efflux from indicator cells and liposomes,
but the amounts of efflux and patterns of action were different. Although circular dichroism spectra of purified
bacteriocins revealed that both antibacterial peptides are
composed mainly of alpha-helices, the spectra of the bac-
teriocins did not coincide. The results of D- and L-amino
acid composition analysis showed that two residues and
one residue of D-Ala were detected among 18 Ala residues of gassericin A and reutericin 6, respectively. These
findings suggest that the different D-alanine contents of
the bacteriocins may cause the differences in modes of
action, amounts of potassium ion efflux, and secondary
structures. This is the first report that characteristics of
native bacteriocins produced by wild lactobacillus strains
having the same structural genes are influenced by a difference in D-amino acid contents in the molecules.
5. Japanese domesticated chickens have been derived from Shamo
traditional fighting cocks (Komiyama T, Ikeo K, Tateno Y and Gojobori T)
With the aim of elucidating the evolutionary origin of
Japanese domesticated chickens, this study evolutionarily
analyzed 85 chicken mtDNA sequences. Thirty-four various ornamental chickens, 42 fighting cocks (Shamo), and
nine long-crowing chickens (Naganakidori) were included. Of the Shamo, 18 were sampled from Okinawa,
while the remaining 24 were collected in other islands
around Japan. In addition, three Southeast Asian
Junglefowls were used as a reference to determine the
common ancestor of Japanese domesticated chickens. A
phylogenetic tree was constructed for the 88 mtDNA sequences revealing that the Shamo group from Okinawa
clearly diverged from the other Japanese domesticated
chickens studied. This strongly suggests that all Japanese
domesticated chickens, including the ornamental varieties and Naganakidori, derived from the ancestors of the
Shamo in Okinawa. To create novel varieties of ornamental chickens, intensive artificial selection is imposed on
ancestral Shamo populations, resulting in profoundly differentiated Japanese domesticated chickens.
6. DDBJ in the stream of various biological data
(Miyazaki S, Sugawara H, Ikeo K, Gojobori T and Tateno Y)
In the past year we at DDBJ (http://www.ddbj.nig.
ac.jp) have made a steady increase in the number of data
submissions with a 50.6% increment in the number of
bases or 46.5% increment in the number of entries.
Among them the genome data of man, ascidian and rice
hold the top three. Our activity has extended to provid-
ing a tool that enables sequence retrieval using regular
expressions, and to launching our SOAP server and web
services to facilitate the acquisition of proper data and
tools from a huge number of biological data resources on
websites worldwide. We have also opened our public gene
expression database, CIBEX.
7. Molecular chaperones: proposal of a systematic computer-oriented
nomenclature and construction of a centralized database
(Sghaier H, Ai TL, Horiike T and Shinozawa T)
Molecular chaperones are a wide group of unrelated protein families whose role is to assist others proteins. Comparably, under environmental stress, stress proteins behave as biocatalysts of protein stabilization. Stress proteins include a large class of proteins that were originally
termed heat shock proteins (HSPs) due to their initial discovery in tissues exposed to elevated temperatures. Many,
but not all, stress proteins and HSPs are molecular chaperones. Moreover, not all HSPs are derivable from stress.
HSPs are structurally diversified by the contribution of
34 = CIB-DDBJ Research Report 2005 =
various domains having specific roles. HSPs have been
grouped, mainly on the basis of their molecular masses,
into specific families that include small HSPs (sHSPs)/acrystallins, HSP10s, HSP40s, HSP60s, HSP70s, HSP90s,
HSP100s and HSP110s. The names of these major families are historical artefacts with limited information content. Using the current databases, names and proteic domains of many molecular chaperones in different species
were analyzed. Although traditional names of HSPs are
trivial, it is unrealistic to suggest replacing them, because
they are preferred and widely used. Here we suggest that
these traditional names be chaperoned, in silico, by a systematic nomenclature. Thus, for example, with the same
intent of use of [trioxygen: O3] for ozone, we propose
here C7HSP70[Ehsa]ER-P11021 for GRP78 (78 kDa endoplasmic Human molecular chaperone in HSP70 superfamily with P11021 as its accession number in the database of the National Center for Biotechnology Information (NCBI)). The proposed systematic computer-oriented
naming and classification method is designed for HSPs
and also their partners based on the number of amino ac-
ids, domain structure, phylogenetic domain, localization
in the cell and accession number as stated in the NCBI.
Arabidopsis thaliana was analyzed as a model, because it
contains a large number of various HSPs localized in several organelles. Overall, this naming system helps in building, optimizing and managing a novel online database
entirely devoted to HSPs. The purported taxonomy,
coupled with the newly constructed database, can contribute to studies involving large amounts of stored data
on HSPs.
8. Extensive analysis of ORF sequences from two different cichlid species in Lake Victoria provides molecular evidence for a recent radiation event of the Victoria species flock Identity of EST sequences between Haplochromis chilotes and Haplochromis sp. "Redtailsheller"
(Watanabe M, Kobayashi N, Shin-I T, Horiike T, Tateno Y, Kohara Y and Okada N)
The Lake Victoria Cichlid fishes have diverged very rapidly. The estimated 500 species inhabiting the lake are
believed to have arisen within the last 14,000 years. The
fishes' jaws and teeth have diverged markedly to adapt to
different feeding behaviors and environments. To examine how the genomes of these fishes differentiated during
speciation, we performed comparative analysis of expressed sequenced tag (EST) sequences. We constructed
cDNA libraries derived only from the jaw portions of two
cichlid species endemic to Lake Victoria. We sequenced
17,280 cDNA clones from Haplochromis chilotes and
9600 cDNA clones from Haplochromis sp.
"Redtailsheller" and obtained 543 different genes common to both species. Of these genes, 441 were essentially identical between species and 102 contained base
replacements in their open reading frame (ORF) or
untranslated (UTR) regions. Comparative analysis of
71selected sequences has revealed that while the degree
of polymorphism is 0.0054/site for H. chilotes and 0.0047/
site for H. sp. "Redtailsheller", genetic distance between
the two species is 0.0031/site. The genetic distance particularly indicates that the two species diverged about
890,000 years ago.
9. International public gene expression database (CIBEX) and data
submission (Tateno Y and Ikeo K)
We have opened our gene expression database, CIBEX,
to the public. CIBEX has been developed as an international public database with the aim of the collaboration
with ArrayExpress at EBI and GEO at NCBI. The collaboration mainly means to share the annotation manual
and to exchange the data collected and annotated among
the three databases. The data collection will hopefully be
promoted by the open letter issued by the MGED society
to the editors of relevant journals.
10. Analysis of biological networks in eukaryotes using the whole genome sequences (Tanaka T and Gojobori T)
Since the whole genome sequencing of Haemophilus
influenzae was completed in 1995, the number of species
whose genomes were completely sequenced has steeply
been increased. As of January 2005, the number of such
species is more than 210 in the Genome Information Broker (GIB) of the Center for Information Biology and DNA
Data Bank of Japan. The information on the whole genome sequences enables us to study the origins and evolutionary processes of various biological networks such
as metabolic pathways and signal transductions. We analyzed biological networks such as amino acid metabolic
pathways by conducting comparative analysis of the complete genome sequences of six eukaryotic species including man, fly, nematode, yeasts and plant, and found that a
particular pathway had evolved independently in multiple
lineages of the species studied.
= CIB-DDBJ Research Report 2005 = 35
11. Microarray gene expression database (Ikeo K and Tateno Y)
As the international standardizations of microarray data
description and data sharing have been promoted by the
MGED society, researchers conducting microarray experiments are encouraged to submit their data to one of the
international gene expression databases, ArrayEpress,
GEO and CIBEX. CIBEX being developed by us is in
compliance with the international standard, MIAME, and
equipped with several search functions.
12. Discovery and annotation of forty seven non-protein coding human RNAs (Barrero RA, Dubchak I, Auffray C, Wilming L, Takeda J, Suzuki
Y, Harada E, Debily MA, Graudens E, Quackenbush J, Tamura T, Ryaboy DV,
Imbeaud S, Ikeo K, Tonellato P, Nomura N, Sugano S, Imanishi T, Gojobori T
and Jia L)
Non-coding RNAs (ncRNAs) play crucial roles in a variety of procsses including replication, transcriptional regulation, splicing, dosage compensation, genetic imprinting, translational regulation, and modulation of protein
function. Here we report the discovery and annotation of
ncRNAs from the human full-length cDNA dataset evaluated at the first International Human Full-length cDNA
Annotation Meeting. A total of 1,485 cDNA transcripts,
mapped onto 1,300 loci on the human genome, were found
to encode putative open reading frames (ORFs) equal to
or less than 80 amino acids (aa). To select putative ncRNAs
all cDNA sequences were mapped to the human genome
to study the genomic neighbourhood for the presence of
ab initio predicted genes and neighbouring genes, and
compared to Expressed Sequence Tag (EST) databases
for supporting evidence. This method yielded 296 putative ncRNAs that were analyzed for conservation by determining mouse DNA and RNA sequence similarities.
Putative ncRNAs with mouse ortholog support were further analyzed using QRNA. We found 47 ncRNAs containing a conserved RNA secondary structure. Of these,
60% were found to be expressed in up to eight human
tissues, implying that ncRNAs are seemingly tissue-specifically regulated.
13. Evolutionary rate of enzymes in the metabolic network
(Tanaka T, Ikeo K and Gojobori T)
An enzyme interacts not only with the other proteins but
also with low-weight molecules called substrates in the
metabolic network. To understand an evolutionary process of interactions of enzymes, we studied the relationship between the evolutionary rate of the enzyme and these
interacting partners. When we focused on the 498 enzymes in Saccharomyces cerevisiae that have orthologous
pairs in Ashbya gossypii, we discovered the significant
negative correlation between the evolutionary rate of the
enzyme and the number of interacting proteins (proteinprotein interaction; PPI). On the other hand, we found no
correlation between the evolutionary rate of the enzyme
and the number of interacting substrates (protein-substrate
interaction; PSI). Therefore, we conclude that the number of interacting proteins is the most affective to the evolutionary rate of the enzyme compared with that of the
other interacting partners such as the substrates.
14. Development of a method for constructing a phylogenetic tree using a comprehensive orthologous gene cluster, and phylogenetic
analysis of cyanobacteria (Horiike T and Tateno Y)
Phylogenetic trees are constructed using DNA, RNA or
amino acid sequences for estimating evolutionary relationships of genes or species. Currently, there are two
problems with the tree construction. One is that horizontal gene transfer disturbs the estimation of the true relationships of genes or species. The other is that the construction sometimes depends on the choice of sequences.
We occasionally observe that changing one sequence to
another erroneously alters the reconstructed tree. There36 = CIB-DDBJ Research Report 2005 =
fore, we are developing a method of the tree construction
which is to reduce the interference caused by the two problems. In the method we can incorporate all available
prokaryotic ORFs. We will then clarify the phylogenetic
position of cyanobacteria by applying our method to as
many pertinent sequences as possible.
15. We are in collaboration with Prof. Tadao Saito of Tohoku University
on the function and evolution of glucosidase and galactosidase genes
in Lactobcillus (Saito, T, Yamazaki Y and Tateno Y)
16. We are in collaboration with Prof. Shintou Eguchi of the Institute of
Mathematical Statistics and his laboratory on the statistical analyses of
SNP and gene expression data (Eguchi S, Ikeo K and Tateno Y)
(Tateno Y)
2.3 Laboratory for Gene-Product Informatics
Prof. Ken Nishikawa
Assist. Prof. Satoshi Fukuchi
Assist. Prof. Akira Kinjo
The Laboratory for Gene-Product Informatics consists of
Professor Ken Nishikawa, Assistant Professors Satoshi
Fukuchi and Akira Kinjo together with three postdoctoral
fellows (Homma K, Nagashima T and Minezaki Y), tech-
nical assistants (Mimura K, Kuromaru M, Yamamoto K,
Itoh N, Abe T, Hongo K, Suzuki E, Yoshikawa M and
SakamotoS), and a secretary, Sugiyama F.
1. Eigenvalue analysis of amino acid substitution matrices reveals a
sharp transition of the mode of sequence conservation in proteins
(Kinjo AR and Nishikawa K)
The pattern of amino acid substitutions and sequence conservation over many structure-based alignments of protein sequences was analyzed as a function of percentage
sequence identity. The statistics of the amino acid substitutions were converted into the form of log-odds amino
acid substitution matrices to which eigenvalue decomposition was applied. It was found that the most important
component of the substitution matrices exhibited a sharp
transition at the sequence identity of 30-35%, which coincides with the twilight zone. Above the transition point,
the most dominant component is related to the mutability
of amino acids and it acts to disfavor any substitutions,
whereas below the transition point, the most dominant
component is related to the hydrophobicity of amino acids and substitutions between residues of similar hydrophobic character are positively favored. Implications for
protein evolution and sequence analysis are discussed.
= CIB-DDBJ Research Report 2005 = 37
2. Estimation of the number of authentic orphan genes in bacterial
genomes (Fukuchi S and Nishikawa K)
Genome annotation produces a considerable number of
putative proteins lacking sequence similarity to known
proteins. These are referred to as "orphans." The proportion of orphan genes varies among genomes, and is independent of genome size. In the present study, we show
that the proportion of orphan genes roughly correlates with
the isolation index of organisms (IIO), an indicator introduced in the present study, which represents the degree of
isolation of a given genome as measured by sequence similarity. However, there are outlier genomes with respect to
the linear correlation, consisting of those genomes that
may contain excess amounts of orphan genes. Compari-
sons of genome sequences among closely related strains
revealed that some of the annotated genes are not conserved, suggesting that they are ORFs occurring by chance.
Exclusion of these non-conserved ORFs within closely
related genomes improved the correlation between the
proportion of orphan genes and the IIO values. Assuming
that the correlation holds in general, this relationship was
used to estimate the number of "authentic" orphan genes
in a genome. Using this definition of authentic orphan
genes, the anomalies arising from over-assignments, e.g.,
the percentages of structural annotations, were corrected
for 16 genomes, including those of five archaea.
3. Alternative splice variants encoding unstable protein domains exist
in the human brain (Homma K, Kikuno RF, Nagase T, Ohara O and
Nishikawa K)
Alternative splicing has been recognized as a major mechanism by which protein diversity is increased without significantly increasing genome size in animals and has crucial medical implications, as many alternative splice variants are known to cause diseases. Despite the importance
of knowing what structural changes alternative splicing
introduces to the encoded proteins for the consideration
of its significance, the problem has not been adequately
explored. Therefore, we systematically examined the structures of the proteins encoded by the alternative splice variants in the HUGE protein database derived from long (>4
kb) human brain cDNAs. Limiting our analyses to reliable alternative splice junctions, we found alternative
splice junctions to have a slight tendency to avoid the interior of SCOP domains and a strong statistically signifi-
cant tendency to coincide with SCOP domain boundaries.
These findings reflect the occurrence of some alternative
splicing events that utilize protein structural units as a
cassette. However, 50 cases were identified in which SCOP
domains are disrupted in the middle by alternative splicing. In six of the cases, insertions are introduced at the
molecular surface, presumably affecting protein functions,
while in 11 of the cases alternatively spliced variants were
found to encode pairs of stable and unstable proteins. The
mRNAs encoding such unstable proteins are much less
abundant than those encoding stable proteins and tend not
to have corresponding mRNAs in non-primate species.
We propose that most unstable proteins encoded by alternative splice variants lack normal functions and are an
evolutionary dead-end.
4. Construction and characterization of chimeric proteins composed
of type-1 and type-2 periplasmic binding proteins MglB and ArgT
(Kashiwagi K, Fukami-Kobayashi K, Shiba K and Nishikawa K)
The respective type-1 and type-2 periplasmic binding proteins (PBPs) MglB and ArgT are believed to have evolved
from a common ancestor into siblings showing topological differences in their main chain connectivity. At first
glance, they show similar structure. But, more detailed
examination reveals that the chain connectivity of ArgT is
more convoluted than that of MglB. Reflecting that complexity, the folding of ArgT is complicated and involves
intermediate folds. On the other hand, the folding of MglB
is a simple two-state transition. In the present study, we
constructed and characterized several chimeras made up
of various subdomains of MglB and ArgT with the aim of
gaining insight into the evolution of protein folding and
protein structure. Although these chimeras did not fold as
compactly as their parental proteins, some did exhibit cooperative folding, which suggests that novel proteins with
new connectivity and new folding pathways could have
emerged at a fairly high rate throughout the evolution of
proteins.
(Fukuchi S)
38 = CIB-DDBJ Research Report 2005 =
2.4 Laboratory for Research and Development of
Biological Databases
Prof. Hideaki Sugawara
Assist. Prof. Takashi Abe
1. Information systems for molecular biology and its related disciplines
1-1. From Web services to a Bioportal
†
(Shigemoto Y , Sakai H, Abe T, Miyazaki
††
S and Sugawara H)
††
†
Fujitsu, Tokyo Univ. of Sci.
The publicly available bioinformatics resources, comprising databases and analytical tools, have expanded in recent years. While the information environment for life
sciences has gradually become more abounding, it is still
difficult to combine multiple, heterogeneous
bioinformatics resources for a specific research purpose.
To set up and run an integrated system, it is often necessary to write and update custom programs. In addition,
different research groups continually write programs that
have overlapping functions. We need an information environment that is conducive to efficient and appropriate
bioinformatics resource utilization for a wide range of
users. Therefore, the Center for Information Biology and
DNA Data Bank of Japan, in alliance with the National
Institute of Informatics (NII) and the Mitsubisi Research
Institute, Inc. (MRI) have started a three years long project
since 2003, "Research and Development of the New Generation of Bio-portal", to enhance the information environment for the relevant user communities. In this project,
the Laboratory for Research and Development of Biological Databases is responsible for the development of
biological Web services. The project site is open at http:/
/www.bioportal.jp/ in 2004. From there, a Web page for
links to sites complete genome sequence and annotation
are also prepared and accessible, in addition to the biological Web services. The former is named “Genome
Menu”.
1-2. Expansion of Genome Information Broker (GIB) (Hirahata M, Tanaka
†
N, Abe T, Miyazaki S and Sugawara H)
†
Tokyo Univ. of Sci.
GIB was originally created for the retrieval and analysis of
E. coli genomic information in a set. We implemented microbial genome data into GIB whenever genome sequencing was
completed and the data is made open to the public. At the
GIB Web page (http://gib.genes.nig.ac.jp/),
key word search, homology search, links to DBGET, KEGG
and GTOP and visualization of the data are available for
more than 200 strains as of December 2004. We have utilized XML, CORBA and a distributed database in order to
cope with the explosion of microbial genome information.
2. Information systems on microbes
2-1. WFCC-MIRCEN World Data Centre for Microorganisms (WDCM)
of the data by culture collections funded by the American
Society for Microbiology and UNESCO.
(Shigemoto S , Nagaya J and Sugawara H)
†
Fujitsu.
2-2. Development of an e-Workbench for Biological Classification
and Identification (InforBIO)
†
WFCC and MIRCEN stand for World Federation for Culture Collections and Microbial Resource Centers network
respectively. The laboratory is the host of WDCM and
maintains the World Directory of microbial resource centers. The on-line World Directory contains the detailed
information of 469 centers in 65 countries and also the
list of their holdings. Any culture collection is able to register, update and delete the information at http://
www.wdcm.org/. WDCM could promote the update
†
(Tanaka N, Koorikawa K , Abe T,
††
Miyazaki S and Sugawara H)
†
††
Hitachi soft, Tokyo Univ. of Sci.
We continued the development of an e-Workbench named
InforBIO by use of JAVA, XML and a relational database
management system in the public domain. We have distributed InforBIO to several laboratories that study microbes and improved the utility and robustness of InforBIO
= CIB-DDBJ Research Report 2005 = 39
based on the feedback (http://lilium.genes.nig.ac.jp/
index_e.html).
2-3. An information system for pathogenic microorganisms
(Hirahata M, Tanaka N, Shigemoto Y
†
and Sugawara H) Fujitsu
†
mycetes, and also a portal site for pathogenic microorganisms in general (http://www.wdcm.org/byogen/
).
(*) The information system on pathogenic microorganisms has been supported by Special Coordination Funds
for Promoting Science and Technology.
We participated in a national project for the resource center of pathogenic microorganisms. Our role is to develop
an information system for pathogenic fungi and actino-
3. Applications of IT to the International Nucleotide Sequence Database
3-1. Development of Open Annota†
tion System (Miyazaki S , Abe T and
Sugawara H)
†
Tokyo Univ. of Sci.
A number of the complete genome sequences have been
submitted to INSD since 1995. The annotation information, however, is not consistent among genome sequencing teams. In addition, researchers outside of the team
might have more information and knowledge on some
genes and biological molecules. Therefore, it is quite
important to develop the system which allows any expert to evaluate the annotation given by the team to attach more valuable information. As a new feature of
INSD, we develop so-called "Open Annotation System
(OASYS)" as an annotation editor in the distributed environment on the Internet.
(*) OASYS project has been supported by BIRD of Japan Science and Technology Corporation (JST)
bial genome information by use of
GRID (Kosuge T, Okido T, Shigemoto
†
Y , Hirahata M, Tanaka N, Maruyama Y,
AbeT, Miyazaki S†† and Sugawara H)
†
††
Fujitsu, Tokyo Univ. of Sci.
Tsunami of biological data and multiple views of the data
analysis require an expandable and flexible information
environment. GRID computing is expected to be the solution. We prepared a computational environment composed of 5 sites in OBIGrid and succeeded in analyzing
horizontal gene transfer and clusters of ORFs of more
than 100 microbial genomes that were stored in the Genome Information Broker as of May, 2003. This scheme
is being applied to more than 300 thousands ORFs of genomic sequences of 124 microbial species.In 2004, we
evaluated the results of the
3-2. Exhaustive evaluation of micro-
4. Genomics
4-1. Development of the H-Invita†
tional Database (Shigemoto Y ,
††
Miyazaki S and Sugawara H)
†
††
Fujitsu, Tokyo Univ. of Sci.
We performed an exhaustive integrative characterization
of 41,118 full-length cDNAs that capture the gene transcripts as complete functional cassettes, providing an unequivocal report of structural and functional diversity at
the gene level. Our international collaboration has validated 21,037 human gene candidates by analysis of highquality full-length cDNA clones through curation using
unified criteria. We have developed a human gene database, called the H-Invitational Database (H-InvDB; http:/
/www.h-invitational.jp/). The H-InvDB platform represents a substantial contribution to resources needed for
40 = CIB-DDBJ Research Report 2005 =
the exploration of human biology and pathology.
4-2. Splicing Profile Based Protein
Categorization between Human and
†
Mouse Genomes (Västermark Å ,
††
Shigemoto Y , Abe and Sugawara H)
†
††
Univ. of Oxford, Fujitsu
We compared gene structures of human and mouse to explore the relationships of functions of genes and exonintron structures. The central question is whether protein
function is more correlated with splicing profiles than sequence similarity, or not. To approach this question, a splicing profile similarity (SPS) index, which measures relative exon length discrepancy, was devised. Arbitrary human proteins were compared, in terms of SPS and amino
acid sequence similarity, to their 1) mouse orthologues
and 2) human paralogues, which epitomise functional
equivalence and non-equivalence, respectively, to methodically elucidate the global relationship between a) biological function, b) splicing profile similarity, and c) sequence similarity. Protein function is more correlated with
splicing profile similarity than sequence similarity as demonstrated by the fact that human-mouse orthologues
(HMOs) display significantly higher splicing profile simi-
larity than do human-human paralogues (HHPs), despite
the mutual sequence similarity between these two categories. This finding indicates that splicing profile-based protein categorisation is biologically meaningful
5. Phylogenetics Analyses of Environmental Samples on the Basis of
Self-Organizing Map (SOM) (AbeT, Ikemura T† and Sugawara H)
†
SOKEN-DAI.
Metagenomic approach, which is the genome analysis on
a mixture of uncultured microorganisms, has been recently
developed to search for novel and industrially useful genes
and to study microbial diversity in a wide variety of environments. We previously modified the conventional SOM
for genome informatics to make the learning process and
resulting map independent of the order of data input5),6).
In the present study, we developed the SOM as a novel
bioinformatics strategy to capture and visualize microbial diversity and relative abundance of microorganisms
within an environmental sample. First we constructed
SOMs of tri- and tetranucleotide frequencies in 1- and 5kb sequence fragments from prokaryotic genomes for
which complete sequence is available. The sequences
could be classified primarily according to species and to
11 major phylogenetic groups without information regarding the species. For example, 88% of 5-kb sequences were
classified into the correct phylogenetic group. Importantly,
the classification could be done without orthologous sequence sets, and. therefore, SOM was especially useful
to analyze novel sequences from poorly characterized
species for industrial applications and scientific studies.
With the SOM method, all non-rRNA sequences in the
Database that were from unidentified or uncultured bacteria and longer than 1 kb were classified into major phylogenetic groups7). The present method can also be developed as a tool for surveys of pathogenic microorganisms in environmental and clinical samples that can not
be cultured easily and in sterilized samples.
(Sugawara H)
= CIB-DDBJ Research Report 2005 = 41
2.5 Laboratory for Gene-Expression Analysis
Prof. Kosaku Okubo
Assist. Prof. Koichi Itoh
The laboratory for Gene-Expression Analysis consists of
the following members:
Kousaku Okubo (Professor), Koichi Itoh (Assist. Prof.),
Osamu Ogasawara (Posdoc), Makiko Otsuji (Graduate
student), Isao Kubota (Graduate student), Miya Shiojima
(technical assistant),Takayasu Iizuka (systems engineer),
Koji Watanabe (systems engineer), Hiroaki Imamura (systems engineer), Sumiyo Sugimoto (Secretary).
1. Anatomical Gene Expression Database of Animal Kingdom Based
On the DDBJ/EMBL/GenBank EST Sequence Entries
(Kubota I, Watanabe K, Imamura H, Iizuka T and Okubo K)
We constructed an anatomical gene expression database
(BodyMap2) based on the DDBJ/EMBL/GenBank EST
sequence entries. The EST dataset (DDBJ release 60)
consists of 24,482,794 sequence entries derived from
24,544 libraries from 801 species (18,243,826 seqeunces,
20,494 libraries, 385 species in the animal kingdom),
therefore it has potential to elucidate the evolution of the
gene expression. However, the description of tissue
sources in each entry is nearly free-formatted, and this is
a big obstacle to utilizing the data in comparative studies.
We developed NLP software to sort the libraries into appropriate tissue categories automatically and compiled the
16,579,439 EST entries from 26 animals, clustered by the
UniGene, into the database. This database is a powerful
original resource to investigate the evolution of anatomical expression pattern within the animal kingdom.
2. Reliable identification of human housekeeping genes using multiple
platforms of transcriptome measurement (Ogasawara O and Okubo K)
It is fundamental task for gene annotation to distinguish
between housekeeping genes and tissue specific genes.
Several studies had reported genome-wide inventory of
housekeeping genes and statistical characterization of
them, using SAGE or GeneChip data, but we found that
the sensitivities of each platform were poor, and the concordance between them was very low, and the resultant
housekeeping gene set was biased toward high expres-
sion abundance. In order to improve the housekeeping
gene identification, we tuned the parameters for in silico
screening and succeeded in doubling the candidates for
housekeeping genes without loss of specificity by recovering relatively weakly expressed housekeeping genes.
Estimated contaminants, which comprise approximately
12%–20% of either newly and previously identified housekeeping genes, are unique to ubiquitously distributed cells.
3. Comparison of gene expression profiles amongst psoriasis, atopic
dermatitis and mycosis fungoidosis inflammatory lesional skin.
(Itoh K and Okubo K)
To identify genes which play a causal role in pathogenesis and maintenance in psoriasis, we used BodyMapping
and iAFLP approach to identify differentially expressed
genes in psoriatic skin. We sequenced 3703 clones and
these 3703 clones classified into1822 genes which were
expressed in psoriatic lesional skin. Amongst 1822 genes,
42 = CIB-DDBJ Research Report 2005 =
we surveyed genes which differentially expressed in involved or uninvolved psoriatic lesional skin compared
with atopic dermatitis, mycosis fungoidosis and normal
skin. We measured relative gene expression levels for 1822
genes using iAFLP method which is a RT-PCR based expression profiling method.
4. Comparison of Gene Expression Patterns between human and mice
brain (Otsuji M and Okubo K)
To elucidate gene expression patterns between human and
mice brain, we construct 3'-directed cDNA libraries from
several portions from human and mice brain. From now
on, we measure gene expression levels using iAFLP
method.
5. Zipf's law and human transcriptomes: an explanation with an evolutionary model (Ogasawara O and Okubo K)
Detailed analysis of human gene expression data reveals
several patterns of relationship between transcript frequency and abundance rank. In muscle and liver, organs
composed primarily of a homogeneous population of differentiated cells, they obey Zipf's law. In cell lines, epithelial tissue and compiled transcriptome data, only high-
rankers deviate from it. We propose an evolutionary process model during which expression level changes stochastically proportionally to its intensity, providing a novel
interpretation of transcriptome data and of evolutionary
constraints on gene expression.
(Okubo K)
3. CIB-DDBJ Staff Publications in 2004
*Bold are CIB-DDBJ members.
Abe T, Ikemura T, Kanaya S, Kinouchi M, Sugawara H. (2004) Novel genome informatics for unveiling hidden
signatures in genome sequences: self-organizing map (SOM) of oligonucleotide frequencies. Proceedings of
Information-Based Induction Sciences. 94-99.
Abe T, Kanaya S, Kinouchi M, Ikemura T. (2004) Genome Informatics for Unveiling Hidden Genome Signatures.
Proceedings of the Institute of Statistical Mathematics. 52:207-215.
Abe T, Kanaya S, Kinouchi M, Kosaka Y, Ikemura T. (2004) Novel bioinformatics for unveiling hidden characteristics
in genome sequences and searching in silico for genetic signal sequences. The 8th World Multi-Conference on
Systemics, Cybernetics and Informatics.
Alexopoulos H, Bottger A, Fischer S, Levin A, Wolf A, Fujisawa T, Hayakawa S, Gojobori T, Davies J, David C,
Bacon J. (2004) Evolution of gap junctions: the missing link? Curr Biol. 14(20):R879-80.
Andrews TD, Gojobori T. (2004) Strong positive selection and recombination drive the antigenic variation of the PilE
protein of the human pathogen neisseria meningitidis. Genetics. 166(1):25-32.
Ball CA, Brazma A, Causton H, Chervitz S, Edgar R, Hingamp P, Matese JC, Parkinson H, Quackenbush J, Ringwald
M, Sansone SA, Sherlock G, Spellman P, Stoeckert C, Tateno Y, Taylor R, White J, Winegarden N. (2004)
Submission of microarray data to public repositories. PLoS Biol. 2:1276-1277, also Microbiology. 150:35223524 and Environ Health Perspect 112:A666-A667. Epub 2004 Jan 31.
Bellgard M, Ye J, Gojobori T, Appels R. (2004) The bioinformatics challenges is comparative analysis of cereal
genomes - an overview. Funct Integr Genomics. 4(1):1-11. Epub 2004 Feb 10 .
= CIB-DDBJ Research Report 2005 = 43
Chiba H, Michibata H, Wakimoto K, Seishima M, Kawasaki S, Okubo K, Mitsui H, Torii H, Imai Y. (2004) Cloning of
a gene for a novel epithelium-specific Cytosolic Phospholipase A2,cPLA2delta, induced in Psoriatic Skin. J
Biol Chem. 279(13):12890-7. Epub 2004 Jan 06
Fukuchi S, Nishikawa K. (2004) Estimation of the number of authentic orphan genes in bacterial genomes. DNA Res.
11(4), 219-231, 311-313.
Hanada K, Suzuki Y, Gojobori T. (2005) A large variation in the rates of synonymous substitution for RNA viruses
and its relationship to a diversity of viral infection and transmission modes. Mol Biol Evol. 21, 1074-80.
Hishiki T, Ogasawara O, Tsuruoka Y, Okubo K. (2004) Indexing anatomical concepts to OMIM Clinical Synopsis
using the UMLS Metathesaurus. In Silico Biol. 4:31-54. Epub 2003 Dec 28.
Homma K, Kikuno RF, Nagase T, Ohara O, Nishikawa K. (2004) Alternative splice variants encoding unstable protein
domains exist in the human brain. J Mol Bio. 343(5):1207-20.
Hwang JS, Kobayashi C, Agata K, Ikeo K, Gojobori T. (2004) Detection of apoptosis during planarian regeneration
by the expression of apoptosis-related genes and TUNEL assay. Gene. 333:15-25.
Imanishi T, and another 151 authors including Suzuki Y, Fukuchi S, Barrero RA, Miyazaki S, Ikeo K, Nishikawa K,
Sugawara H, Tateno Y, Okubo K, Gojobori T. (2004) Integrative annotation of 21,037 human genes validated by full-length cDNA clones. PLoS Biol. 2004 Jun;2(6):e162. Epub 2004 Apr 20.
Iwama H, Gojobori T. (2004) Highly conserved upstream sequences for transcription factor genes and implications
for the regulatory network. Proc Natl Acad Sci USA. 101(49):17156-61. Epub 2004 Nov 30.
Kadota M, Nishigaki R, Wang CC, Toda T, Shirayoshi Y, Inoue T, Gojobori T, Ikeo K, Rogers MS, Oshimura M.
(2004) Containing a single human chromosome 21 in neuronal differentiation: an in vitro model of Down
syndrome. Neuroscience. 129(2):325-35.
Kaimori J, Takenaka M, Okubo K.(2004) Quantification of Gene Expression in Mouse and Human Renal Proximal
Tubules., Laser Capture Microdissection Methods and Protocols. In: Methods in Molecular Biology 293. Grame
I. Murray and Stephanie Curran ed (Humana Press). 209-220.
Kashiwagi K, Fukami-Kobayashi K, Shiba K, Nishikawa K. (2004) Construction and characterization of chimeric
proteins composed of type-1 and type-2 periplasmic binding proteins MglB and ArgT. Biosci Biotechnol Biochem.
68(4):808-813
Kawai Y, Ishii Y, Arakawa K, Uemura K, Saitoh B, Nishimura J, Kitazawa H, Yamazaki Y, Tateno Y, Itoh T, Saito T.
(2004) Structural and functional differences in two cyclic bacteriocins with the same sequences produced by
lactobacilli. Appl Environ Microbiol. 70(5):2906-2911.
Kinjo AR, Nishikawa K. (2004) Eigenvalue analysis of amino acid substitution matrices reveals a sharp transition of
the mode of sequence conservation in proteins. Bioinformatics. 20(16):2504-2508. Epub 2004 May 6.
Komiyama T, Ikeo K, Gojobori T. (2004) The evolutionary origin of long-crowing chicken: its evolutionary relationship with fighting cocks disclosed by the mtDNA sequence analysis. Gene. 333:91-99.
Komiyama T, Ikeo K, Tateno Y, Gojobori T. (2004) Japanese domesticated chickens have been derived from Shamo,
traditional fighting cocks. Mol Phylogenet Evo. 33(1):16-21.
Mano S, Yasuda N, Katoh T, Tounai K, Inoko H, Imanishi T, Tamiya G, Gojobori, T. (2004) Notes on the maximum
likelihood estimation of haplotype frequescies. Ann Hum Genet. 68(Pt 3):257-64.
Matsumoto T, Yukawa W, Nozaki, Y, Nakashige R, Shinya M, Makino S, Yagura, M, Ikuta T, Imanishi T, Inoko H,
Tamiya G, Gojobori T. (2004) Novel algorithm for automated genotyping of microsatelites. Nucleic Acids Res.
32(20):6069-77.
Michibata H, Chiba H, Wakimoto K, Seishima M, Kawasaki S, Okubo K, Mitsui H, Torii H, Imai Y. (2004) Identification and characterization of a novel component of the cornified envelope, cornifelin. Biochem Biophys Res
Commun. 318(4):803-13.
Miyazaki S, Sugawara H, Ikeo K, Gojobori T, Tateno Y. (2004) DDBJ in the stream of various biological data.
Nucleic Acids Res. 32(Database issue):D31-4.
Nakamura Y, Itoh T, Matsuda H, Gojobori T. (2004) Biased biological functions of horizontally transferred genes on
44 = CIB-DDBJ Research Report 2005 =
324,653 open reading frames of 116 prokaryotic complete genomes. Nat Genet. 36(7):760-6. Epub 2004 Jun 20.
Nishio H, Altaf-Ul-Amin M, Nakamura Y, Abe T, Kinouchi M, Ikemura T, Kobayashi K, Ogasawara N, Kanaya S.
(2004) Gene Classification Based on Expression Profile Using BL-SOM: Suitability Assessment of Multivariate Gene Expression Data to Spherical and Plain SOM by N-Measure. The 8th World Multi-Conference on
Systemics. Cybernetics and Informatics,
Nishio Y, Nakamura Y, Usuda Y, Sugimoto S, Matsui, K, Kawarabayashi Y, Kikuchi H, Gojobori T, Ikeo K. (2004)
Evolutionary process of the amino acids biosynthesis in Corynebacterium at the whole genome level. Mol Biol
Evol. 21(9):1683-91. Epub 2004 May 26.
Ogura A, Ikeo K, Gojobori T. (2004) Comparative analysis of gene expression for convergent evolution of camera eye
between octopus and human. Genome Res. 14(8):1555-61.
Sugawara H. (2004) Tsunami of data: Data resources and utilization. Kurtboke I. and Swings J. (ed.) Microbial
Genetic Resources and Biodiscovery. 40-56/ National Library of Australia.
Sugawara H, Abe T, Tanaka N, Miyazaki S. (2004) Encounter of microbiology with the data science in the phase
called post-genome sequencing. Soil microorganisms. 58(2):57-67.
Suzuki Y. (2004) Negative selection on neutralization epitopes of poliovirus surface proteins: implications for prediction of candidate epitopes for immunization. Gene. 328:127-133.
Suzuki Y. (2004) New methods for detecting positive selection at single amino acid sites. J Mol Evol. 59(1):11-9.
Suzuki Y, Nei M. (2004) False positive selection identified by ML-based methods: examples from the Sig1 gene of
diatom Thalassiosira weissflogii and the tax gene of a human T-cell lymphotropic virus. Mol Bio Evol. 21(5):914921. Epub 2004 Mar 10.
Suzuki Y. (2004) Three-dimensional window analysis for detecting positive selection at structural regions of proteins.
Mol Biol Evol. 21(12):2352-2359. Epub 2004 Sep 08.
Tateno Y, Saitou N, Okubo K, Sugawara H, Gojobori T. (2005) DDBJ in collaboration with mass-sequencing teams
on annotation. Nucleic Acids Res. 33: D25-D28.
Toyoda R, Kasai A, Sato S, Wada S, Saiga H, Ikeo K, Gojobori T, Numakunai T, Yamamoto H. (2004) Pigment cell
lineage-specific expression activity of the ascidian tyrosinase-related gene. Gene. 332:61-69.
Wang CC, Kadota M, Nishigaki ., Kazuki Y, Shirayoshi Y, Rogers MS, Gojobori T, Ikeo K, Oshimura M. (2004).
Molecular hierarchy in neurons differentiated from mouse ES cells containing a single human chromosome 21.
Biochem Biophys Res Commun. 314(2):335-50
Watanabe M, Kobayashi N, Shin-I T, Horiike T, Tateno Y, Kohara Y, Okada N. (2004) Extensive analysis of ORF
sequences from two different cichlid species in Lake Victoria provides molecular evidence for a recent radiation
event of the Victoria species flock Identity of EST sequences between Haplochromis chilotes and Haplochromis
sp. "Redtailsheller". Gene. 343: 263-269.
Yokomine T, Shirohzu H, Purbowasito W, Toyoda A, Iwama H, Ikeo K, Hori T, Mizuno S, Tsudzuki M, Matsuda Y,
Hattori M, Sakaki Y, Sasaki H. (2005). Structural and functional analysis of a 0.5-Mb chicken region orthologous
to the imprinted mammalian Ascl2/Mash2-Igf2-H19 region. Genome Res. 15(1):154-65. Epub 2004 Dec 08.
* Some of the publications in Japanese are excluded. See our homepage for details.
= CIB-DDBJ Research Report 2005 = 45
4. CIB-DDBJ Staff Oral Presentations in 2004
* in English only
Gojobori T. Genomics Data Banks and Biotechnology/Bioinformatics. The 28th IUBS General Assembly & The IUBS
Conference International Conference Biological Sciences, Development and Society (Cairo, Egypt ), January
19.
Sugawara H. Culture collections face challenges and opportunities. International Symposium Towards a New Era's
Microbial Resource Center (Beijing, China), February 14-17.
Ikeo K. Comparative study to understand the evolution of central nervous system. Gordon Research Conference on
Structural, Functional & Evolutionary Genomics. (Ventura, U.S.A.), February 17.
Gojobori T. New Developments in Evolutionary Genomics. Gordon Research Conference on Structural, Functional &
Evolutionary Genomics. (Ventura, U.S.A.), February 17.
Kinjo R.A. Competition between protein folding and aggregation inside the cell: Studies by density functional theory.
NMRS 2004 Symposium on NMR, Drug Design, and Bioinformatics. Saha Institute of Nuclear Physics (Kolkata,
India), February 15-22.
Gojobori T. Evolution of central nervous system from the viewpoint of gene expression. Molecular Bases of Organismal
Diversity and Evolution (Kyoto), February 28.
Miyazaki S, Sugawara H. Exhaustive analysis of microbial genomes by Web services and GRID. JST-BIRD International Workshop "Integrated Databases and DataGrid for Structural Biology and Molecular Biology" (Osaka),
March 1-2.
Tateno Y. International standardization of microarray data and our microarray database, CIBEX. A-IMBN/EMBO
Workshop (Tokyo), March 20.
Nishikawa K. A study of comparative genomics based on domain structures of proteins. Satellite Symposium of
PRICPS2004 (Yokohama), Apr 14-17.
Nishikawa K. Genome-wide compositional changes of DNA and proteins in thermophilic bacteria for adaptation to
higher temperatures. The 1st Pacific-Rim International Conference on Protein Science (Yokohama), Apr 14-17.
Sugawara H. Evolution of WFCC-MIRCEN World Data Centre for Microorganisms (WDCM). ISBER US Meeting
2004 (New York City, U.S.A.), May 12-15.
Gojobori T. Activities of Human Full-length cDNA Annotation Project and H-Invitational Database. First ISN Special
Neurochemistry Conference (Avignon, France), May 14.
Sugawara H. Gene Trek in Procaryote Space powered by a GRID environment Proceedings of the First International
Workshop on Life Science Grid. LSGRID2004 (Kanazawa), May 30 – June 1.
Ikeo K. Molecular Evolution of Nervous system from gene expression profile. Genome & Evolution 2004: SMBE
Meeting (Pennsylvania, U.S.A.), June 19.
Suzuki Y. New methods for detecting positive selection at single amino acid sites. Genome & Evolution 2004: SMBE
Meeting (Pennsylvania, U.S.A.), June 19.
Gojobori T. Origins and evolution of the central nervous system in animals: gene expression profiles in hydra neural
cells and planarian brai. Genome & Evolution 2004: SMBE Meeting (Pennsylvania, U.S.A.), June 20.
Gojobori T. Greetings and overview of H-Invitational Disease Edition Project. H-Invitational Disease Editon Preparatory Meeting4 , National Institute of Advanced Industrial Science and Technology : AIST (Tokyo), June 28-29.
Okubo K. Machine use of medical textbooks for establishing knowledge handling environment in functional genomics.
The Third Workshop on Ontology and Genome - Development and Applications of Ontologies on OMICS
Research (Gottingen, Germany), July 1-3.
Gojobori T. Evolutionary implication of horizontally transferred genes that were revealed by the sequence compari-
46 = CIB-DDBJ Research Report 2005 =
sons of more than 110 prokaryotic complete genomes. Structural approaches to sequence evolution: Molecules,
networks, populations (Dresden, Germany), July 7-12.
Barrero R.A. Evolution of mammalian microRNAs and their regulatory targets. 6th Japanese Society of Evolution
(Tokyo), August 6.
Gojobori T. Search for the evolutionary origin of the CNS: Comparative studies of gene expression in planarian and
hydra neural cells. Origins and Evolution of The Nervous Systems (Cold Spring Harbor, U.S.A.), August 30.
Gojobori T. Greetings, self introduction & overview. H-Invitational DE Jamboree, National Institute of Advanced
Industrial Science and Technology : AIST (Tokyo), September 2.
Tateno Y, Ikeo K, Hayashizaki Y. CIBEX and data standardization. The 7th MGED Society Meeting (Toronto, Canada),
September 9-12.
Abe T, Sugawara H. A Novel Bioinformatics Approach for Genome Analyses of Environmental Samples on the basis
of self-organizing map (SOM). 16th International Genome Sequencing & AnalysisÅiWashington DC, USAÅj,
September 27.
Sugawara H. The Butterfly Effect. JSCC Award Lecture (Tsukuba), October 9-15.
Gojobori T. Genome Evolution. International Lecture in Bioinformatics and Genomics in Collaboration with the Chinese Academy of Sciences and SOKENDAI (Shanghai, China), October 20.
Gojobori T. New Developments of Human Full-length cDNA Annotation Invitational (H-Invitational) Data Base. The
2nd International Conference on Bioinformatics and Computational Biology (Angra dos Reis, Brazil), October
25.
Ikeo K. Comparative analysis of gene expression of camera eye octopus and human. BITS2004 ("Beyond the Identification of Transcribed Sequences: Functional, Expression and Evolutionary Analysis"14th International Workshop) (Chiba), October 30.
Tateno Y. DNA Data Bank of Japan and the H-Invitational. KISTI (Deajeon, Korea), November 1-5.
Sugawara H. WFCC-MIRCEN World Data Centre for Microorganisms (WDCM) meets Global Biodiversity Information Facility (GBIF). 19th International CODATA Conference The Information Society: New Horizons for
Science (Berlin, Germany), November 7-12.
Barrero R.A. Evolution of microRNA genes and their targets. The 5th HUGO Pacific Meeting and 6th Asia-Pacific
Conference on Human Genetics (Singapore, Singapore), November 16-21.
Okubo K. MACHINE USE OF MEDICAL TEXTBOOKS FOR ESTABLISHING KNOWLEDGE HANDLING ENVIRONMENT IN FUNCTIONAL GENOMICS. The 5th HUGO Pacific Meeting and 6th Asia-Pacific Conference on Human Genetics (Singapore, Singapore), November.17-20.
Tateno Y. Genomic evolution of MHC class I regions in primates. The 2nd Mishima Workshop (Hakone), November
25-27.
Kosuge K, Okido T, Hirahata M, Shigemoto S, Miyazaki S, Abe T, Gojobori T, Sugawara S. Development of a common protocol for the prediction of microbial genes. Genome Informatics Workshop (Yokohama), December 13.
= CIB-DDBJ Research Report 2005 = 47
5. CIB-DDBJ Research Staff
Takashi Gojobori, Director and Professor ([email protected])
Kazuho Ikeo, Associate Professor ([email protected])
Yoshiyuki Suzuki, Assistant Professor ([email protected])
Yoshio Tateno, Professor ([email protected])
Roberto A .Barrero, Assistant Professor ([email protected])
Ken Nishikawa, Professor ([email protected])
Satoshi Fukuchi, Assistant Professor ([email protected])
Akira Kinjo, Assistant Professor ([email protected])
Hideaki Sugawara, Professor ([email protected])
Takashi Abe, Assistant Professor ([email protected])
Kosaku Okubo, Professor ([email protected])
Koichi Itoh, Assistant Professor ([email protected])
CIB-DDBJ Research Report, Vol. 8,
March 2005
Center for Information Biology and DNA Data Bank of Japan
National Institute of Genetics
Yata 1-111, Mishima, Shizuoka 411-8540, Japan
Fax: +81-55-981-6848
Home Page: http://www.cib.nig.ac.jp/
Editorial Staff:
Akira Kinjo
Junko Kohira
48 = CIB-DDBJ Research Report 2005 =
Addresses Related to DDBJ/CIB Activities
NIG mainframe computer system
Large scale analysis server
Vector parallel super computer
NIG web server
general inquiry on computers
inquiry on minerva
:
:
:
:
:
supernig.nig.ac.jp
minerva.nig.ac.jp
http://www.nig.ac.jp/
[email protected]
[email protected]
:
:
:
:
:
http://www.cib.nig.ac.jp/
http://www.ddbj.nig.ac.jp/
http://sakura.ddbj.nig.ac.jp/
ftp.ddbj.nig.ac.jp
http://srs.ddbj.nig.ac.jp/
:
:
:
:
:
:
:
:
:
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
:
:
:
:
:
:
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
Network Servers
DDBJ-CIB web server
DDBJ web server
SAKURA web server
anonymous-ftp server
SRS web server
DDBJ E-mail Servers
BLAST E-mail server
CLUSTALW E-mail server
FASTA E-mail server
get-entry E-mail server
get-version E-mail server
malign E-mail server
S&W SEARCH E-mail server
SSEARCH E-mail server
ssthread E-mail server
E-mail Addresses of DDBJ
general inquiry on DDBJ
data submission
updating submitted data
inquiry on DDBJ web
inquiry on SAKURA
inquiry on MASS submission
List of main databases in the NIG mainframe computer (supernig)
Nucleotide Sequence Databases
$DDBJ, $DDBJNEW
: DDBJ periodical release and new data
Amino Acid Sequence Databases
$DAD
: DDBJ amino acid database
$PIR
: PIR periodical release
$SWISS
: SWISSPROT periodical release
$PRF
: PRF periodical release
Protein Three-Dimensional Structure Database
$PDB
: PDB periodical release
この DDBJ/CIB reportは無料で提供しています。
情報の引用を自由に行なうことができますが,その際は DDBJ までご一報の上,引用した旨を明記して下さい。
Web 版は DDBJ の発行物オンラインをご覧下さい。
http://www.ddbj.nig.ac.jp/ddbjnew/pub-j.html
DDBJ/CIB Report March 2005
編集 / 発行 日本 DNA データバンク (DDBJ)
〒 411-8540 静岡県三島市谷田 1111
大学共同利用機関法人 情報・システム研究機構
国立遺伝学研究所 生命情報・DDBJ 研究センター
E-mail : [email protected]
FAX : 055-981-6849
Edited and Published by DNA Data Bank of Japan (DDBJ)
1111 Yata, Mishima 411-8540, Japan
Research Organization of Information and Systems
National Institute of Genetics
Center for Information Biology and DNA Data Bank of Japan
E-mail : [email protected]
FAX : +81-55-981-6849
DDBJ/CIB Report
March 2005