DNA Data Bank of Japan (DDBJ) National Institute of Genetics Center for Information Biology and DNA Data Bank of Japan March 2005 DDBJ/CIB Report DDBJ/CIB Report March 2005 目次 DDBJ Report 救世主は生まれるか? ---------------------------------- 1 DDBJ 2004 年の動向 ------------------------------------ 2 DDBJ からのおしらせ ----------------------------------- 8 DDBJ における遺伝子発現データベース (CIBEX) の取り扱いに関して --------------------- 10 H-Invitational Database CIB-DDBJ Flat File Server の構築 ---- 12 第 17 回国際実務者会議報告 ------------------------------ 16 DDBJ Statistics -------------------------------------- 17 DDBJ 活動に関連したアドレス一覧 -------------------------巻末 CIB-DDBJ Research Report 1. 2. 3. 4. 5. News from CIB-DDBJ -----------------------------Research Activities in CIB-DDBJ ----------------CIB-DDBJ Staff Publications --------------------CIB-DDBJ Staff Oral Presentations --------------CIB-DDBJ Research Staff ------------------------- 24 25 43 46 48 救世主は生まれるか? 大久保 公策 国立遺伝学研究所 生命情報・DDBJ 研究センター 遺伝子発現解析研究室 「20世紀の社会は本当に耐えられないような専門化の100年でした。これは科学の内部においても同じで あって,たとえば同じ医学の内部でも,専門によって言葉も違うし,判断も違うという状況です。ですから 21世紀を何らかの意味での綜合の世紀にしなければ, 我々の知識そのものが空中分解してしまうでしょう。 」 (渡辺慧 知るということ 東京大学出版 1986 年) 生命科学分野に身をおく私どもにとっても今日のこの分野はまさに " 耐えられない " 状況です。蛸壺のよう な専門領域の分断によって生じた分野全体の見通しの悪さにより「広い視野や深い洞察に基づく思考」は稀 有なものになり,この分野の健全な展開に暗い影を落としています。社会から見れば,その難解さの程度は よりいっそうであると思われ,共有できない知識を産む分野であり続ければその存続自体が危ぶまれます。 歴史を振り返り,綜合法則を導いてくれる救世主のような知の巨人の出現を待つ風潮もありますが,この手 に負えない詳細化が研究の目や手の役割を機械化することによって増幅されているとしたら,果たしてこの 混沌に秩序をもたらす生身の救世主は生まれるでしょうか? DDBJ は分野を横断して配列という共通語を蓄え配列による検索を提供してきました。分野の機械化がもた らしたデータ生産性の向上は年々蓄えて維持する配列と付記されるそれぞれの専門知識の量を増大させ,多 様化させています。しかしながら配列と生物種以外に共通語を持たない分野においては,分野の知の集積で あるはずの配列バンクを利用しつくすために不可欠な「配列以外による検索」の効果は疑問であり続けるで しょう。 「こんな形の配列」を返すだけでなく「こんな役割の配列」を返すという当たり前の課題は,実は分 野を横断する新たな共通語なくしては果たせない課題です。配列バンクという新たな蛸壺を作らず,"耐えら れなさ" をつねに感じ配列以外の共通語を紡ぎだすことこそはコレクターに課せられた使命であると同時に, 本来コレクターの楽しみでもあるはずです。今世紀,生命科学の救世主がこの共通語と配列データバンクを 使って洞察し,考え,綜合法則を導けるように,バンクの当たり前の機能として「こんな役割の配列」を返 せるように,私もバンクに貢献できればと思います。 = DDBJ Report 2005 = 1 DDBJ 2004 年の動向 2004年 DDBJ 活動の年次報告です。最新のおしらせは HP や DDBJ メールマガジンにてご案内しています。 メー ルマガジンは次の URL からどうぞお申し込み下さい。 http://www.ddbj.nig.ac.jp/ddbjnew/mag/ ■ 1. DDBJ の運営体制 ■ 1-1. 法人化に伴う名称の変更 2004 年 4 月(平成 16 年度)より DDBJ を運営している国立遺伝学研究所が「大学共同利用機関法人 情報・システム研究機構」を構成する 4 研究所のうちのひとつに変わりました。国立遺伝学研究所以外 にこの機構を構成する研究所は,国立情報学研究所・統計数理研究所・国立極地研究所です。DDBJ で はこの改革に関連したサービスの変更はありません。 変更後の名称 大学共同利用機関法人 情報・システム研究機構 国立遺伝学研究所 日本 DNA データバンク Research Organization of Information and Systems National Institute of Genetics DNA Data Bank of Japan 変更前の名称 文部科学省 国立遺伝学研究所 日本 DNA データバンク MEXT (Ministry of Education, Culture, Sports, Science and Technology) National Institute of Genetics DNA Data Bank of Japan ■ 2. DDBJ/EMBL/GenBank 国際塩基配列データベース ■ 2-1. データ量の動向(DDBJ リリースおよび DAD リリース) 国際塩基配列データベースは収集件数・収集総塩基数ともに増加を続け,2004 年 12 月には 440 億塩基, 4000 万件を超えました。このうち,件数ベースで 16.6%(塩基数ベースでは 10%)を DDBJ が収集して います。DDBJ の最新リリースは 12 月に公開した DDBJ rel. 60 で,エントリ数は 40,583,945,総塩基数 は 44,416,752,273 塩基です。 DAD (DDBJ Amino acid Database) の最新リリース 30 は 2005 年 1 月に公開しています。エントリ数が 2,169,069,総アミノ残基数が 669,311,612 aa となっています。 これらの定期リリースおよびリリース公開後の新着データは,DDBJ の FTP サイトから取得することが できます。フラットファイル形式に加え,FASTA 形式・XML 形式や CDS 配列の FASTA 形式など複数 の形式で提供していますので,どうぞご利用下さい。リリースに関する詳細は 17 ページからの「DDBJ statistics」をご覧下さい。 ●リリースデータ取得 http://www.ddbj.nig.ac.jp/anoftp-j.html ■ 2-2. 国際実務者会議・諮問委員会 CIB/DDBJ, EBI/EMBL, NCBI/GenBank 国際 DNA データバンクは,DDBJ/EMBL/GenBank 国際塩基配列 データベース共同構築の運営・推進をはかるために,国際諮問委員会と国際実務者会議を年1回開催し ています。2004 年は EBI のあるケンブリッジで第 17 回国際実務者会議(5 月 17 日− 19 日)と,第 15 回 国際諮問委員会(5 月 20 日− 21 日)が開催されました。DDBJ からは国際実務者会議に5名の,国際諮 問委員会に4名のスタッフが出席しました。以下の記事 2-3・2-8・2-9 はこの会議での決定を踏まえての 変更事項です。会議の詳細は本号 16 ページの「第 17 回国際実務者会議報告」をご覧下さい。 ■ 2-3. SAKURA で登録可能な塩基配列長増加 国際塩基配列データベースでは1エントリの最大塩基配列長に関する規約(最大 350,000 bp)がありま したが,この制限を 6 月より撤廃しました。DDBJ の提供する塩基配列データ登録システム SAKURA で は機能上の制約から登録可能な塩基配列長に制限がありますが,登録可能な配列長が増加しました。こ れまでは 20 bp ∼ 350,000 bp でしたが,9 月より 20 bp ∼ 500,000 bp になりました。ただし 500,000 bp 以 下であっても,ご使用になるコンピュータシステム,web ブラウザなどの環境により入力できないこと 2 = DDBJ Report 2005 = があります。詳細は SAKURA ページ左カラムにある「SAKURA の利用上の注意および制限」をご覧下 さい。500,000 bp を超える配列を登録される場合は大量登録システムをご利用下さい。 最大値 500,000 bp までの配列データを取り扱えるブラウザ Windows Internet Explorer 6.0, 5.5 Netscape 7.X, 6.2 Macintosh Linux Netscape 7.X, 6.2, 4.7 Netscape 7.X, 6.2, 4.7 Mozilla 1.7.2 ● SAKURA http://sakura.ddbj.nig.ac.jp/ ●大量登録 http://www.ddbj.nig.ac.jp/sub/masssub-j.html ■ 2-4. ヒトゲノム配列最新版公開 国際ヒトゲノムシーケンス決定コンソーシアムによってヒトゲノム配列の最新版が 10 月 21 日発行の Nature (vol.431, pp.931 - 945; Oct. 21, 2004) に発表されました。既に同コンソーシアムは 2001 年にヒトゲ ノムを概要配列を発表し,2003 年 4 月にヒトゲノム全配列解読完了を宣言していましたが,今回,全配 列の 99%以上を決定した最新版が発表されました。上記最新版の配列を,セレラ社が決定した配列とと もに,DDBJ の以下の web サイトから入手できます。 ●ヒトゲノム完成配列 (Build 35.1) 取得 http://studio.nig.ac.jp/human_genome-j.html ■ 2-5. H-Invitational データベースの公開 H-Invitational (Human Full-length cDNA Annotation Invitational) はヒト完全長 cDNA (complementaryDNA) に対してさまざまなバイオインフォマティクス解析を実行し,機能アノテーションを付与した国際的プ ロジェクトで,国立遺伝学研究所(現:大学共同利用機関法人 情報・システム研究機構 国立遺伝学 研究所)生命情報・DDBJ 研究センター(CIB-DDBJ) ,産業技術研究 所 生物情報解析研究センター(AIST/JBIRC) ,社団法人バイオ産業 情報化コンソーシアム(JBIC)によって共同主催されてきました。 CIB-DDBJ では H-Invitational で解析されたヒト完全長 cDNA データ セットの機能アノテーションの成果を公開するためのデータベース, H-Invitational Database CIB-DDBJ Flat File Server を構築し,4 月に公 開しました。 このデータベースでは H-Invitational で付与された機能アノテーショ ンを国際塩基配列データベースの形式に準拠した形式のフラット ファイルで表示しています(DDBJ 版フラットファイル)。さらに, 本サイトでは cDNA がマップされたヒトゲノム上の Locus 情報も提 供しています。全てのデータに対して,DDBJ 版フラットファイルだ けでなく,JBIRC によって作成されたフラットファイル(JBIRC 版 フラットファイル)および XML ファイルも提供しています。これ ▲ H-Invitational Database CIBDDBJ Flat File Server トップページ らのデータは FTP サイトから取得することができます。また,JBIRC で公開されている H-Invitational Database (H-Inv DB) のミラーサイトも合わせて CIB-DDBJ から公開しています。同サービスについては 本号 12 ページからの「H-Invitational Database CIB-DDBJ Flat File Server の構築」をご覧下さい。 ● H-Invitational Database CIB-DDBJ Flat File Server http://hinv.ddbj.nig.ac.jp/ ■ 2-6. Mus musculus molossinus データの大幅な増加について 9月公開のDDBJ リリース 59 でマウス (Mus musculus molossinus) の登録塩基数が 44,452 bp から 279,762,931 bp に大幅に増加しました。これは,6 月にそれまでに公開されていた Mus musculus molossinus の登録塩 基数 (44,452 bp) に,理化学研究所ゲノムサイエンスセンターにより公開された,337,471 エントリ分の 塩基数が追加されたためです。この配列は理化学研究所バイオリソースセンター,阿部訓也先生が作成 した Mus musculus molossinus-MSM mouse BAC clone library の末端の配列であり,以下の論文でそれら のデータの詳細が発表されました。データのアクセッション番号は AG275743-AG613213 です。これら の配列は,DDBJ の getentry で取得することができます。各々の MSM BAC クローンは,寄託先である 理化学研究所バイオリソースセンター遺伝子材料開発室から入手できます。詳しくは MSM Mouse BAC clones & Library をご覧下さい。 ●論文情報 Contribution of Asian mouse subspecies Mus musculus molossinus to genomic constitution of strain C57BL/ 6J, as defined by BAC-end sequence-SNP analysis. Genome Res. 2004 Dec;14(12):2439-47. = DDBJ Report 2005 = 3 ● getentry http://getentry.ddbj.nig.ac.jp/ ● MSM Mouse BAC clones & Library http://www.brc.riken.jp/lab/dna/ja/MSMbac.html ■ 2-7. カイコゲノムデータ公開 DDBJ は 4 月に,WGS (Whole Genome Shotgun) 方式を用いて登録されたカイコ (Bombyx mori) ゲノムの 塩基配列を公開しました。 この塩基配列は, 独立行政法人 農業生物資源研究所 Silkworm Genome Research Program が Whole Genome Shotgun 方式で決定しました。データのアクセッション番号は BAAB01000001-BAAB01213289 (213,289 エントリ・381,906,524 bp) で,カイコゲノムの約 80% に相当します。これらの配列は,DDBJ の getentry で取得することができます。 WGS データは FTP サイトから提供しています。WGS 用のディレクトリに,テキスト版と HTML 版の WGS ORGANISM LIST が用意してありますのでご覧下さい。 ●論文情報 Abstract The genome sequence of silkworm, Bombyx mori. DNA Res. 2004 Feb 29;11(1):27-35. ● WGS 配列データについて http://www.ddbj.nig.ac.jp/sub/wgs-j.html ● getentry http://getentry.ddbj.nig.ac.jp/ ● FTP サイト WGS データ ftp://ftp.ddbj.nig.ac.jp/database/wgs/ ■ 2-8. 一部 CON エントリの修正のおしらせ 国際塩基配列データベースに登録する際の1エントリ当たりの配列長は,以前まで 350 kbp 以下に制限 されていました。そのため,これを超える長さの配列を登録する場合には 350 kbp 以下に分断したエン トリ(ピースエントリ)として登録し,ピースエントリを統合する情報を CON (Contig/Constructed) エ ントリとして構築し公開していました。 しかしながら,6 月に配列長制限を撤廃したことにに伴い,過去に登録を受け付ける際,ピースエント リとして分割した配列を元の連続した配列に集約し1エントリとして再公開を行なうことになりました。 以下の要領でピースエントリと CON エントリを集約し,1エントリに修正いたします。 ■ CON エントリのアクセッション番号を残し,これに集約します。 ■ ピースエントリ自体は非公開化され,そのアクセッション番号はセカンダリアクセッション番 号 * となります。 ■ ピースエントリに記載されていた feature 情報と配列は集約された1つのエントリに継承されます。 ■集約後は CON エントリではなく,各生物に対応した division に移行します。 *修正後に getentry などの検索ツールでピースエントリのアクセッション番号を検索した場合,CON エ ントリのアクセッション番号を持つ集約されたエントリが結果として返ります。 ● CON エントリの詳細 http://www.ddbj.nig.ac.jp/sub/locus-j.html ■ 2-9. SEGMENT で記述されている登録データの修正について 国際塩基配列データベースに登録する際,配列に不明部位が含まれる場合は配列不明部位で分断されて いる1つ1つの配列に対して各々アクセッション番号を発行し,その旨 SEGMENT で記述する形式を採 用していました。 しかしながら,DDBJ/EMBL/GenBank の査定方針の変更に伴い,7月以降の登録において配列不明部位 が含れる場合, 配列が不明な領域に "n" を挿入した1つの配列として登録して頂くこととなりました。挿 入される "n" の長さは,配列の不明な領域の長さが予測される場合は,その長さ分の "n" を,長さが予 測出来ない場合は,100 個の "n" としております。7月以前に登録された SEGMENT で記述されている エントリにつきましても,上記の方針に従い配列不明部位で分断されている1つ1つの配列を配列が不 明な領域に "n" を挿入した1つの配列にし,1つのエントリに集約する形式に修正させて頂いておりま す。集約に際しては,SEGMENT で記述されているエントリのアクセッション番号は,集約先のエント リのセカンダリアクセッション番号とさせて頂きます。また,既に公開されている登録データにつきま しては,修正後のエントリを順次公開していく予定です。 SEGMENT で記述されているエントリの修正例: 集約前: D85375 D85376 集約後: D85376 配列不明部位のある配列のご登録について: 配列の不明な領域の長さが予測出来ない配列を SAKURA から登録する場合は, 「登録データ種類」で 4 = DDBJ Report 2005 = "multi-exons with unknown gaps" を選択して,配列決定された部位のみを登録して下さい。配列不明部位 に自動的に 100 個の "n" が挿入された形で登録されます。 ■ 2-10. 磁気テープによるリリースデータ配付終了 DDBJ では磁気テープによる塩基配列データ (DDBJ) とアミノ酸配列データ (Swiss-Prot) の配布サービス を行なっていましたが,平成 16 年度(2005 年 3 月まで)のリリース公開を最後に終了することになりま した。 定期リリースおよび新着データは,FTP サイトで提供していますのでこちらをご利用下さい。DDBJ HP 左カラムにあるボタン「リリース取得」をクリックしてアクセスできます。通常のフラットファイル フォーマットの他に,配列データを抜き出した FASTA 形式・フラットファイルの内容にタグとアトリ ビュートをつけた XML 形式・CDS 配列の FASTA 形式でも提供しています。 ●リリースデータ取得 http://www.ddbj.nig.ac.jp/anoftp-j.html 3. 検索・解析サービス ■ 3-1. 新キーワード検索システムのテスト公開 DDBJ 新キーワード検索システム ARSA (All-round Retrieval of Sequence and Annotation・アルサ) のプロ トタイプ版を12月からテスト公開いたしました。富士通製の高速 XML 型データベース検索エンジン 「イ ンターステージシュンサク(Interstage Shunsaku) 」を基盤技術として採用しております。 第1の特徴は, 複雑な検索条件や大量のヒットがある条件で検索しても, これまで提供してきたキーワー ド検索システムに比べて遥かに短時間で検索結果を返すことができる点です。どのような条件でも約 5 ∼ 10 秒で検索結果を出力します。 第2の特徴は, 国際塩基配列データベースのフラットファイル (FF) 形式で定義されている Feature/ Qualifier を個々に選択して詳細な検 索条件を指定することができる点です。 ■検索対象は, DDBJ 定期リリースと DDBJ 新着データです。 ■DDBJ フラットファイル形式に沿った詳細な検索条件を指 定することができます。 ■検索条件やヒット件数に依らず,ほぼ一定(約5秒∼10秒) の検索レスポンスが得られます。 ■検索結果は,フラットファイル,DDBJ-XML,FASTA の 3つの形式で取得することができます。 ※定期メンテナンスの為、毎日夜間に2,3時間程度サービスを停 止いたします。 ▲ ARSA トップページ ● ARSA http://arsa.ddbj.nig.ac.jp/index.jsp ■ 3-2. BLAST に tblastx プログラム追加 DDBJ が web サーバと E-mail サーバで提供している相同性検索サービス BLAST に,tblastx プログラム を追加しました。tblastx プログラムは塩基配列を表裏合わせて6通りの読み枠で翻訳しながら,同様に 翻訳された塩基配列データベースと比較します。7 月より従来の blastn,blastp,blastx,tblastn に tblastx を加えた5つのプログラムが利用可能となりました。どうぞご利用下さい。 ● BLAST web ● BLAST e-mail http://www.ddbj.nig.ac.jp/search/blast-j.html [email protected] ■ 3-3. 検索・解析サービスのオプション追加 メールを送信する方法でご利用いただく検索・解析サービスに,5 月より受付通知メールの請求を選択 できるオプション,email_request_id を追加しました。対象サービス,指定例は以下の通りです。どうぞ ご利用下さい。 対象サービス:FASTA, BLAST, SSEARCH, S&W SEARCH, ClustalW 指定例(受付通知を請求する場合):email_request_id 1 このオプションで受付通知メールの請求を指定をすると, Request ID が記載された受付通知メールがユー = DDBJ Report 2005 = 5 ザに送信されます。この Request ID により Search and Analysis の Traffic のページで混雑状況の確認がで きます。指定しない場合,受付通知は送信されません。なお,現在は自動的に受付通知メールを送信し ている ClustalW につきましては,email_request_id の指定が必要になりますのでご注意下さい。 ■ 3-4. DDBJ のホームページ更新 6 月に DDBJ のホームページを一新し,デザイン・機能ともに見や すく,また使いやすくなりました。 新機能のひとつとして,各ページの Search 機能に,従来からのサ イトサーチに加えて SRS の全文検索機能を追加しました。Search ボタンの横にあるプルダウンメニューで, DNA もしくは Protein を 選択してからご利用下さい。 なお,一部のサイトの URL を変更しましたので,ブックマークを されていらっしゃる方は変更をお願いいたします。 今後も DDBJ をどうぞご利用下さい。 ● DDBJ トップページ http://www.ddbj.nig.ac.jp/ ▲ DDBJ トップページ ■ 3-5. Gopher サービス終了 DDBJ では 2003年12月をもって Gopher サービスを停止致しました。 リリースデータなどの取得には FTP サイトをご利用下さい。 ● Anonymous-ftp server ftp.ddbj.nig.ac.jp 4. 広報・教育活動 ■ 4-1. DDBJing 講習会&寺子屋『情報生物学』開催 DDBJ-CIB では全国各地で「DDBJing 講習会」と「寺子屋情報生物学」というワークショップを開催し ています。DDBJing 講習会は DDBJ が提供しているツールの講習を,寺子屋は若手研究者の育成を目的 としています。 3 月 28 日に国立情報学研究所学術総合センターにて 第 9 回 DDBJing 講習会&第 6 回寺子屋『情報生物学』 in 東京を開催し,43名の方にご参加いただきました。 また,7 月 7-8日に国立遺伝学研究所(静岡県三島市) にて第10回 DDBJing 講習会を開催しました。今回は 入門編と応用編を設けて,初心者の方にもわかりや すい講習を目的としました。新潟から長崎まで,全国 各地から 23 名の参加がありました。 これまで要望の多かった資料ダウンロードページを 新設しましたので,ご利用下さい。 DDBJing 講習会および寺子屋は今後も全国各地で開 催いたします。2005 年 3 月 2 日に大阪大学中ノ島セ ▲第 10 回 DDBJing 講習会の様子 ンターで第11回 DDBJing 講習会を開催しました。続 いて 6 月の開催を検討しています。詳細が決定しましたらメールマガジンと web でご案内いたしますの で興味をお持ちの方はどうぞご参加下さい。また,開催のご要望がありましたら検討いたしますので,以 下のメールアドレスにお問い合わせ下さい。 ●寺子屋『情報生物学』 [email protected] http://www.ddbj.nig.ac.jp/terakoya/ ● DDBJing 講習会 [email protected] http://www.ddbj.nig.ac.jp/ddbjing/ ●同資料ダウンロード http://www.ddbj.nig.ac.jp/ddbjing/dl.html 6 = DDBJ Report 2005 = ■ 4-2. 日韓バイオインフォマティクストレーニングコース開催 CIB-DDBJ と KRIBB (Korea Research Institute of Bioscience and Biotechnology) は 3 月 16 日− 19 日に国立 遺伝学研究所にて第3回日韓バイオインフォマティ クストレーニングコースを開催しました。日韓の若 手研究者 30 名が,4日間にわたり英語での講議およ び実習を受けました。 また,2005 年 3 月 7 日− 10 日に韓国大田市の韓国生 命工学研究院にて第4回を開催しました。このコース では,これまでの日韓若手研究者に加え,中国の若手 研究者も参加しました。また,日韓友情年 2005 の記 念行事 の一つとしてエントリしていました。 ●日韓バイオインフォマティクストレーニングコース http://www.ddbj.nig.ac.jp/japan-korea/ ▲第 3 回 日韓バイオインフォマティクス トレーニングコース集合写真 ■ 4-3. 分子生物学会 ブース出展 12 月 8 日− 11 日に神戸で開催された第 27 回日本分子生物学会年会の附設展示会に DDBJ ブースを出展 しました。神戸国際展示場 2 号館 1 階 341 番ブースで,DDBJ 活動に関するポスター展示と資料の配布な どを行ないました。また,スタッフ・アノテータがポスター発表を行ないました。 ■ 4-4. 国際バイオ EXPO ポスター参加 5 月 19 日− 21 日に東京ビッグサイトで第4回国際バイオ EXPO(リードエグジビションジャパン株式会 社主催)が開催されました。DDBJ は大学・国公立研究所による研究成果発表フォーラムで金城玲助手 (大量遺伝情報研究室)が「日本 DNA データバンク (DDBJ) の活動紹介」という発表を行なったほか, ポスターセッションに参加しました。 ■ 4-5. DDBJ メールマガジン DDBJ メールマガジンでは, データベースに関するおしらせやサービスに関する機能拡張などの案内, 講 習会の開催情報などのおしらせを奇数月末に配信しています。 2004 年は号外を含め7号を配信しました。2004年の第12号からはDDBJ を運営する国立遺伝学研究所教官 12 名がよしなしごとを綴る小欄 の連載もはじまりました。 配信は無料で,必要な手続きはメールアドレスや氏名・所属を web から申込んでいただくだけです。 登録されたアドレスに記事の見出 しと URL を掲載したメールを配信し,興味のある記事をサイトに アクセスして読んでいただく形式をとっています。次の URL から どうぞお申し込み下さい。 ● DDBJ メールマガジン http://www.ddbj.nig.ac.jp/ddbjnew/mag/ ▲ DDBJ メールマガジン = DDBJ Report 2005 = 7 D D B J からのおしらせ (2005 年 3 月まで) ■新規創設データカテゴリー(MGA)の超大量データの公開 国際塩基配列データベース (INSD) では,超大量の転写物配列に対応するために登録・公開についての 検討を進めています。その一環として,ゲノム配列のアノテーションに有意義な情報を提供する超大量 の配列群を受け入れるためのカテゴリ MGA (Mass sequence for Genome Annotation) を創設しました。 MGA は既に存在している超大量のゲノム断片配列を格納している WGS (Whole Genome Shotgun) と同様に Division ではなく,カテゴリに分類されます。INSD の定める MGA の定義は以下の通りです。 Definition of MGA MGA is defined as those sequences which are produced in large quantity in view of genome annotation. 1 月 24 日にこの MGA カテゴリに属するデータを公開しました。配列データは独立行政法人理化学研究 所の林崎良英博士をリーダーとする研究グループから登録されたエントリーです。このデータは CAGE (Cap Analysis Genome Expression) 法によって作出された Mus musculus 由来の転写物 (cDNA) 領域 5' 末 端,約 20bp の長さの配列でエントリー数は 383,264 となっています。MGA データは ftp サイトより取 得できます。公開された配列は生命情報・DDBJ 研究センターが運営する国際共同遺伝子発現データベー ス CIBEX (Center for Information Biology gene EXpression database) にて公開されているデータとも連携し ています。 ● WGS について http://www.ddbj.nig.ac.jp/sub/wgs-j.html ● MGA FTP サイト ftp://ftp.ddbj.nig.ac.jp/database/mga/project_index.html ● CIBEX http://cibex.nig.ac.jp/index.jsp ■ ClustalW と ClustalW DDBJ 拡張版の統合 ClustalW は DDBJ が web サーバと e-mail サーバで提供している解析サービスです。Web 版はバージョ ン番号およびオプションの異なる ClustalW (ver.1.83) と ClustalW DDBJ 拡張版 (ver.1.80) の2種類を提供 していますが,このサービスを以下の日程で統合することになりました。統合後のバージョンは 1.83 と なり,ClustalW DDBJ 拡張版だけにあったオプション(DOTSINOUTPUT と DISTANCE)をより新しい バージョンでご利用いただくことができます。この統合にともない,ユーザインタフェイスの一部を変 更し,URL も現在 ClustalW が使用しているものに統一いたしますのでご注意下さい。日程とバージョ ン情報は以下の通りです。サービスの中断などはありません。どうぞご利用下さい。 ●日程 ●統合後の URL 2005 年 4 月 1 日(金) http://www.ddbj.nig.ac.jp/search/clustalw-j.html ■ S&W SEARCH サービス終了のおしらせ DDBJ が web サーバと e-mail サーバで提供している相同性検索サービス S&W SEARCH は,ハードウェ ア製造社が解散してしまいました。これにともない 4/1 以降サービスに支障をきたすようなハードウェ ア障害が発生した時点で,S&W SEARCH のサービスを終了することになりました。 なお,S&W SEARCH と同様なアルゴリズムを用いた検索サービスとして,SSEARCH を提供していま す。皆様にはご不便をお掛けすることになり誠に申し訳ございませんが何卒ご理解とご協力の程よろし くお願い申し上げます。 ● SSEARCH web http://www.ddbj.nig.ac.jp/search/ssearch-j.html ● SSEARCH e-mail [email protected] ■ Swiss-Prot (現 UniProt) からの FTP の不具合についてのお詫び 2005 年 1 月 1 日から Swiss-Prot が正式に UniProt になりました。これに伴い,UniProt のリリースの FTP サイト 名が Swiss-Prot から UniProt に変わったのですが,私ども DDBJ はそのことに気づくのが遅れま して,2 月 2 日の UniProt からのリリースの FTP に不具合をもたらしてしまいました。つまり,その時 点での UniProt からの FTP にはリリース分が入っておらず,更新分のみとなってしまいました。従いま して,2 月 2 日から 2 月 25 日までの間に DDBJ がサービスしている UniProt データベースを検索された 8 = DDBJ Report 2005 = 方は,不具合のある検索結果を得られたと考えられます。このような不具合をもたらしまして,大変申 し訳ありません。現在は UniProt のリリースにも更新分にも不具合はございません。今後とも DDBJ を 宜しくご支援くださいますようお願いいたします。 ●リリースデータダウンロードサイト http://www.ddbj.nig.ac.jp/anoftp-j.html ■ DDBJ サービスの UniProt への対応 タンパク質データベースである PIR は,Swiss-Prot に吸収合併されました。さらにSwiss-Prot は,TrEMBL と統合され,2005 年 1 月 1 日をもって UniProt となっております。つまり UniProt は Swiss-Prot に由来 する UniProt/Swiss-Prot,TrEMBL に由来する UniProt/TrEMBL という 2 つのデータベースから構成され ることになります。 これまで DDBJ では PIR,Swiss-Prot を別データベースとして検索解析サービスを行なって参りました が,以上のような状況を踏まえ,4 月 15 日を持ちまして Swiss-Prot の表記を UniProt/Swiss-Prot と変更 し,すでに UniProt/Swiss-Prot に含まれている PIR を削除することと致します。 また 6 月 15 日には,UniProt/Swiss-Prot に UniProt/TrEMBL を加え,UniProt として利用していただくよ うにする予定です。皆様のご理解とご協力をよろしくお願い申し上げます。 ● UniProt http://www.ebi.uniprot.org/ 国立遺伝学研究所大型計算機システム(supernig, minerva)利用者各位 継続申請書未提出の方へ 国立遺伝学研究所の大型計算機利用者の皆様に 2005年 2月上旬にお送りした「国立遺伝学研究所大型計算機利用申 請書(継続) 」という書類は,2005年4月から始まる平成17年度も国立遺伝学研究所の大型計算機 (supernig, minerva) を継続して利用するために必要な書類です。この書類は,一事業年度単位で利用申請をしていただく必要がありま す。未提出の方は例年通り押印をして早急に国立遺伝学研究所管理部総務課(共同研究係)までお送り下さい。所 属などの変更がおありでしたら,書類中の該当箇所を朱書で訂正して下さい。minerva を利用されている方は,継 続申請書提出時に「国立遺伝学研究所大型計算機 (minerva) 利用報告書」も提出していただく必要がありますので, こちらもお送り下さい。 大型計算機システムの利用を終了される方は継続用の申請書類に同封した「国立遺伝学研究所大型計算機利用終了・ 中止届」を提出して下さいますようお願い申し上げます。これらの書類には押印が必要です。E-mail や FAX で送 ることはできませんので,以下の宛先まで郵送して下さい。継続申請書の受理作業終了後,国立遺伝学研究所管理 部総務課共同研究係からユーザ登録証をお送りいたします。 申請書郵送先: 〒 411-8540(郵便番号のみで届きます)国立遺伝学研究所 管理部総務課 共同研究係 ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ supernig, minerva の新規利用のための手続き それぞれの計算機の利用申請書を提出して下さい。申請書は国立遺伝学研究所ホームページの「データベース・サー ビス/計算機ネットワークシステム」にある「国立遺伝学研究所計算機利用に関する申請書」をプリントアウトし て必要事項を記入し,押印のうえ,上記宛先にお送り下さい。 ■解析サーバ supernig の利用申請:「国立遺伝学研究所大型計算機利用申請書(supernig の項目をチェック) 」を 提出して利用者登録を行なって下さい。一事業年度単位で利用申請をしていただく必要があります。 ■数値計算サーバ minerva の利用申請: 「国立遺伝学研究所大型計算機利用申請書(minerva の項目をチェック) 」 を提出して利用者登録を行なって下さい。一事業年度単位で利用申請をしていただくほか,利用報告提出の必 要もあります。 大学共同利用機関法人化にともない「支出科目」欄の削除や名称の変更など,記入項目と利用規程の内容にも若干 の変更がありました。「情報・システム研究機構国立遺伝学研究所 DDBJ 塩基配列データベース等利用規程」を今 一度ご確認下さい。 ●国立遺伝学研究所計算機利用に関する申請書 http://www.ddbj.nig.ac.jp/ddbjing/nigapl-j.html *現在,この申請手続きを簡素化する方策を検討中です。詳細が決まりましたらホームページ上でおしらせします。 = DDBJ Report 2005 = 9 D D B J における遺伝子発現データ ベース (CIBEX) の取り扱いに関して ス(CIBEX) http://cibex.nig.ac.jp/index.jsp 生命情報・DDBJ 研究センター 遺伝情報分析研究室 池尾 一穂 ゲノム機能研究において大規模遺伝子発現研究は年々その重要性を増してきている。ヨーロッパの EBI により,マイ クロアレイに代表される遺伝子発現に関する大規模データを標準化されたデータフォーマットに基づいて,DNA 配列 と同じように国際協力の下で国際データベースの構築を行うことが提唱された。 MGED (Microarray Gene Expression Data Society - MGED Society) と呼ばれるこの活動は,生命科学者だけでなくコンピューター科学者やデータ解析を目的と する統計研究者等も参加した国際組織である。機能ゲノミックスやプロテオミクスを目的としたマイクロアレイ実験 に代表される大規模データの利用の促進が目的とされる。 現在設定されているタスクは,標準化フォーマットの作成,データアノテ―ションと国際データ交換,データベース およびツールの作成である。MGED ソサイエティー (http://www.mged.org/) では,各ジャーナルに交渉することにより, 大規模遺伝子発現研究結果を含む論文の発表には MGED の作成した標準化フォーマットの採用を提唱してきた。 現在, Science をはじめとして Nature group, The Lancet, Cell そして EMBO journal 等が MGED の提唱するフォーマットを論文 の投稿に当たって採用するようになっている。この数は今後,増加していくことが期待される。また,Affymetrix に代 表される様々なメーカーでもこのフォーマットの採用が薦められている。また,MGED ソサイエティーでは,データ 登録にあたって,公的なデータ登録サイトとして日本では CIBEX (cibex.nig.ac.jp),ヨーロッパでは ArrayExpress,米 国では GEO (Gene Expression Omnibus) の3データベースをアナウンスしている。 これら3つのデータベースでは,標準化フォーマットに乗っ取った近い将来のデータ交換を含めて,遺伝子発現デー タベースの共有環境の構築を目指して活動を進めている。DDBJ では,上記の目的のため,遺伝子発現データベースの 作成を進めている (CIBEX)。本システムでは,データの登録と標準フォーマット化,またキーワード,著者名等によ る検索システムが用意されている。 図1に CIBEX のトップページを示す。 CIBEX では,既に,理研マウス遺伝子発現データをはじめとしてデータの登録の受付を開始しており,一部について は公開も行なっている。また,データの登録に関しては,現在,ウェブベースのツールの作成を進めているが,大多 数の研究者がまだ発現データの登録に不馴れである点や,標準化フォーマットに対応したツールが未整備である点を 考慮して,直接 CIBEX 管理者 ([email protected]) にコンタクトをとっていただき,データのフォーマット変換から 図1.CIBEX トップページ http://cibex.nig.ac.jp/index.jsp 10 = DDBJ Report 2005 = お手伝いする形でデータ登録を進めている。 もちろん,近い将来には,配列データの登録と同様に, 研究者自らがデータ登録を行なえるようにツールの整 備を進めている。CIBEX に登録することにより MGED が提唱し各ジャーナルが採用している M A G E - M L フォーマット形式のデータが作成されるとともに,パ ブリックサイトへの登録が完了される仕組みになって いる。上述したように,欧州,米国のパブリックサイ トである ArrayExpress,GEO とのデータ交換も予定さ れており(本年中には計画が確定する) ,CIBEX への登 録で,パブリックサイトへの登録が公的に終了すると いうわけである。一方,登録されたデータは,CIBEX 以外の公的機関からの公開はもちろん,CIBEX から公 開,検索可能となる。(図2) 図2.CIBEX 登録実験データの例 更には,CIBEX では,ゲノム機能発現研究会(http:// www.ddbj.nig.ac.jp/gxpress/intro-j.html) と共同して,日本 国内発の論文を中心として独自の遺伝子発現研究に関 する論文データベースも作成している (http://www.ddbj. nig.ac.jp/gxpress/index.html) (図3)。 以上,DDBJ における遺伝子発現データへの取り組み と国際協力態勢の概略を手短かではあるが紹介させて いただきました。現在,遺伝子発現データをお持ちで あったり,論文作成中の方は是非,CIBEX への登録を ご検討頂ければと思います。 図3. 文献リスト http://www.ddbj.nig.ac.jp/gxpress/index.html 参考文献 Ball CA, Brazma A, Causton H, Chervitz S, Edgar R, Hingamp P, Matese JC, Parkinson H, Quackenbush J, Ringwald M, Sansone SA, Sherlock G, Spellman P, Stoeckert C, Tateno Y, Taylor R, White J, Winegarden N. Submission of microarray data to public repositories. PLoS Biol. 2004 Sep;2(9):E317. Epub 2004 Aug 31. Tateno Y, Ikeo K. International public gene expression database (CIBEX) and data submission. Tanpakushitsu Kakusan Koso. 2004 Dec;49(17 Suppl):2678-83. Ikeo K, Ishi-i J, Tamura T, Gojobori T, Tateno Y. CIBEX: center for information biology gene expression database. C R Biol. 2003 Oct-Nov;326(10-11):1079-82. = DDBJ Report 2005 = 11 H-Invitational Database CIB-DDBJ Flat File Server の 構 築 http://hinv.ddbj.nig.ac.jp/index-j.html DDBJ 大城戸 利久 1.H-Invitational プロジェクトと H-Invitational Database CIB-DDBJ Flat File Server 様々な生物のゲノム配列が次々と公表され,ゲノム上の遺伝子領域が in silico あるいは配列相同性に基づいた方法な どを組み合わせることによって記述されているものの,全ての遺伝子の領域を特定することは容易ではない。コン ピュータ予測だけでは確定しないゲノム上の遺伝子を実験的に同定する効率的な方法として転写物配列,即ち,cDNA や EST (Expressed sequence tag) の利用が挙げられる。また,様々な組織や細胞から取得された cDNA はタンパク質を コードする転写産物に加えて,遺伝子発現調節などの重要な役割が明らかにされつつある non-coding RNA が含まれて おり,生命現象の理解において有用な資源である。わが国ではヒトにおいて,KDRI *1 の先導的でユニークな長鎖 cDNA プロジェクト, および経済産業省主導で行われた国家プロジェクトである完全長ヒト cDNA プロジェクト (FL プロジェ クトと略称される)が,NEDO *2 事業として実施された。FL プロジェクトでは,IMSUT *3・HRI *4・KDRI が cDNA 資 源を提供し,世界中のこの種のデータの約 60%以上を占めるという高い貢献率を誇っている。わが国におけるこれら の貢献率とバイオインフォマティクス技術の先進性を背景に,2002 年には,IMSUT および AIST/JBIRC *5 によって, 世界の他の大量データ生成拠点である米国保健研究センター (NIH)・エネルギー省 (DOE), ドイツがんセンター (DKFZ), 中国上海ゲノムセンター (CHGC) に対し,完全長ヒト cDNA の配列情報とヒトゲノム配列との対応や機能予測などの 有用情報の付加,ヒト全遺伝子の同定,およびその国際的標準化を目指して,大規模アノテーションジャンボリーと いわれるワークショップを日本主導で開催することが呼びかけられた。その結果,世界中の大部分にあたる約42,000個 の完全長ヒト cDNA の配列情報の収集に成功した。これらの完全長ヒト cDNA の配列情報に対し,国内外,合わせて 44 の研究機関から約 120 名の研究者が結集し,2002 年の夏,10 日間にわたって,世界最大規模のヒト遺伝子アノテー ションジャンボリー大会 (H-Invitational) が開かれた。 H-Invitational では主に 5 つの解析が行われている。ヒト遺伝子(cDNA, ゲノム上の遺伝子座)の配列に対する機能ア ノテーション,病気に関連する遺伝子の探索,進化学的 (Orthologue) 解析,タンパク質の立体構造および遺伝子発現 H-Invitational の共同主催機関の一つである CIB-DDBJ *6 は配列に対する機能アノテー 情報である (Imanishi et al., 2004)。 ションに着目し,この情報の内容を加工し,表示・公開するデータベース,H-Invitational Database CIB-DDBJ Flat File Server を構築した。H-Invitational Database CIB-DDBJ Flat File Server は配列の生物学的特性(機能アノテーション)に 特化するとともに,保持されているデータを利用しやすいように構成されている (Okido, et al., 2004)。本稿ではデータ ベースの内容と使い方について紹介する。 2.データ内容 2-1.cDNA, LOCUS エントリ H-Invitational プロジェクトで解析された cDNA 数は 41,118 個である。これら cDNA には冗長性 (redundancy) があるこ とが事前にわかっていたので,ヒトゲノムアセンブル (NCBI build 34) へのマッピング結果を元にクラスタリングされ ている。クラスタリングされた一群の単位を "LOCUS" と呼ぶ。マッピング結果のサマリーがー表 1 に示されている。 表1.cDNA のゲノムへのマッピング結果のサマリおよびデータベースで検索・閲覧できるデータセット 内 容 染色体にマップされた数 座乗染色体既知の contig にマップされた数 座乗染色体不明の contig にマップされた数 (UN) 全くマップされなかった数 (UM) 合 計 cDNA 39,967 LOCUS 20,085 127 46 (73) (32) (847) 21,037 978 41,118 まずは,本データベースで閲覧できるデータの内容を紹介する。 閲覧できる情報としては 2 つのデータセット,cDNA および LOCUS エントリである。これらには H-Invitational でそ れぞれ Prefix "HIT","HIX" が振られ,以降 9 桁もしくは 7 桁の数字を組み合わせた Identifier が付与されている。両者 に共通な情報は生物分類,文献,登録者情報,生物学的特徴,外部データベースへのリンク,塩基配列の 6 つである。 その他は,cDNA あるいは LOCUS エントリそれぞれに記載されている情報である。cDNA エントリでは配列が取得 12 = DDBJ Report 2005 = されたソース情報,タンパク質コード領域,タンパク 質モチーフ領域(遺伝子機能分類情報も付与されてい る)である。さらに,塩基多型,配列の修正に関する 情報である。 H-Invitational ID または国際塩基 配列 DB のアクセッション番号に よる検索が可能. 一方,LOCUS エントリは配列のソース情報,ローカス 内の転写物情報,タンパク質コード領域,および非翻 訳領域が記載されている。LOCUS エントリのうち,一 部(表 1 の斜体数字)のデータについてはゲノム上の 位置が不確定であるために,本データベースには含ま れていない。 2-2.HIT (cDNA) エントリの内容 トップページの上部の検索ボックスに H-Invitational Identifier もしくは国際塩基配列データベースのアク セッション番号を入力することによって,簡易的に データの検索ができる。検索ボックスの下には検索可 能な ID の例が表示されている。それでは cDNA エン トリを検索してみる。検索ボックスに "HIT00000001" データベース メニュー 図1.H-Invitational Database CIB-DDBJ Flat File Server の トップページ http://hinv.ddbj.nig.ac.jp/index.jsp H-Invitational Project に関する説明とデータベースの概要を紹介している."cDNA FF につ いて " および "LOCUS FF について " をクリックすると,フラットファイルの記載内容の説 明がされている.ページ上部には簡易検索機能が用意されている.国際塩基配列データベー スのアクセッション番号,もしくは H-Invitational Identifier を入力することによりエントリ の検索ができる. を入力し,"Search" をクリックすると,HIT000000011 エントリが表示される。データの表示形式は国際塩基配列デー タベースである DDBJ *7 の公開フラットファイルに準拠した形式である(表示省略) 。 エントリの一般的な表示内容としては配列長,配列の分子タイプと形態,最終更新日付,エントリの内容を簡易的に 表す DEFINITION (産物情報),H-Invitational Identifier のバージョン情報,生物分類情報である。文献情報としては 塩基配列の生産者や論文情報が記載されている。COMMENT 行には配列の修正に関する情報が記載される。解析に用 いた cDNA 配列はゲノム配列とのアライメント情報などを参考に一部修正しているので,オリジナルの配列とは一部 異なっているエントリが存在する。次いで,配列の生物学的特徴はフィーチャーと呼ばれる記述 Key によって記載さ れており,フィーチャーを補完する情報をクオリファイアという項目で記載している。 cDNA エントリでは配列の由来は "source" フィーチャーを用いて,配列の取得組織,細胞株,性別,発育ステージ,座 乗染色体情報などが記載されている。また,外部データベースへのリンクとして H-InvDB(後述)および National Center for Biotechnology Information (NCBI) の Online Mendelian Inheritance in Man (OMIM) の情報も記載されている。 cDNA 配列上のタンパク質コード領域は "CDS" フィーチャーを用いて領域が指定され,その下位にはクオリファイア によって産物名,翻訳開始位置(読み枠)や翻訳用のコドン表が記載されている。 塩基多型情報は "variation" フィーチャーを用いて該当位置が示される。HIT000000011 では複数の位置で塩基多型情報 が記載されている。例えば,259 番目の情報を見ると「replace=t」と記述されている。259 番目の塩基は a(アデニン) であるが,当該配列と同じ機能を持つと考えられる配列群と比較した時に他の配列では当該位置に対応する塩基が「t (チミン) 」であることを表している。さらに NCBI で提供されている dbSNPs (Single Nucleotide Polymorphisms) データ ベースとのリンク情報も記載されている。 タンパク質機能モチーフは "misc_feature" フィーチャーによって記述される。 InterPro のモチーフ名とモチーフのタイプ,およびモチーフに関連した機能分類情報が Gene Ontology (GO) によって 表示されており,リンクも張られている。 BASE COUNT 行には塩基の数,即ちアデニン,グアニン,シトシン,チミン,それぞれの数が表示されている。これ ら 4 種以外の塩基が存在している場合には,それらの数は表示されない。 最後は塩基配列が記載されている。1 行当たり60文字で記載され,10塩基ごとにスペースで区切られている。cDNA エ ントリの表示内容についての説明はトップページ左のデータベースメニューから "cDNA FFについて " をクリックし, ご覧下さい (http://hinv.ddbj.nig.ac.jp/manual_cdna-j.html)。 2-3.LOCUS (HIX)エントリ 本データベースで閲覧できる LOCUS エントリは cDNA がマッピングされたゲノム上の領域である。マッピングに用 いた cDNA は H-Inv cDNA もしくは NCBI で提供されている Refseq (Reference Sequence) データベース由来のヒト cDNA 配列である。LOCUS エントリの領域は H-Inv または RefSeq cDNA がゲノムにマップされた配列部分の 5' 端より上流 2kbp から 3' 端の下流 2kbp までの範囲である。 LOCUS エントリはゲノムアセンブルにマップされた領域であるために 2 つの方向,すなわち順 (forward) 鎖側と相補 (complement) 鎖側が存在する。この点についてはロケーションの表記を工夫することにより,一見して,どちら側に = DDBJ Report 2005 = 13 マップされたローカスなのかがわかるようにしている。 順鎖側のエントリのフィーチャーのロケーションには 特に何もないが,相補鎖側にマップされたエントリの フィーチャーのロケーションには "complement" を付与 LOCUS 配列の source 情報 Forward 鎖側にマップされた LOCUS の Location 表記 source 1..75299 している。また,各LOCSU エントリ内のフィーチャー の方向はすべて同じである。 図2は順鎖側にマップされた "HIX0004994" の表示例で ある。cDNA エントリと同様に一般的な情報として配 転写物情報 (1) Alternative splicing 転写物 情報 列長,配列の分子タイプと形態,最終更新日付,DEFINITION(産物情報) ,H-Invitational Identifier,生物分類 情報が記載されている。Reference 1には H-Invitational プロジェクトによって構築されたデータベース H - 5'UTR 情報 InvDB にこのデータを登録した人,即ち,H-Invitational コンソーシアムと記載されている。Reference 2以降に 転写物情報 (2) は文献情報が記載されている。COMMENT 行には cDNA のマッピングに用いたヒトゲノムアセンブル情 報が記載されている(内容省略) 。 HIX0004994 は 順鎖側にマップされたローカスである ので,エントリの領域を示す "source" フィーチャーの ロケーションは "1..75299" と表示される。"source" フィーチャーの下位には細胞遺伝学的位置およびゲノ ムアセンブル上の絶対位置,LocusLink の identifier と データベースへのリンクが表示されている。転写物情 報は "mRNA" フィーチャーによって表示されており, LOCUS の代表転写物情報 エクソン情報 図2.LOCUS エントリの表示例 (HIX0004994) 生物学的特徴に関する部分を抜粋.source 情報,転写物情報,alternative splicing 情報,非 翻訳領域などが表示される.各フィーチャーの Location の向きは全て同じになっている. 遺伝子産物名,該当する c D N A エントリ (HIT000000011),OMIM 情報が記載されている。 LOCUS エントリでは一定のルールに基づいて当該遺伝子座の代表転写物を選んでいる。また,選択的スプライシング によって生成される転写物が存在することのあるので,1つの LOCUS エントリでは複数の転写物が存在する場合が ある。HIX0004994 エントリでは 2 個の転写物が存在する。該当転写物には当該遺伝子座の代表転写物であることが表 示されている。HIX0004994 エントリでは HIT000000011 が代表転写物であることが記載されている。 もう一つの転写物,HIT000041454 は H-Invitational で alternative splicing と判定された転写物であることが示されてい る。その他にエクソンや 5’UTR 情報も記載されている。 一方,相補鎖側のにマップされた LOCUS エントリの例としては HIX0004990 がある。ここでの紹介は割愛するが実 際に当データベースにて検索し,表示内容をご覧下さい。LOCUS エントリの表示内容についての説明は cDNA の FF と同様にトップページ左のデータベースメニューから "LOCUS FF について " をクリックし,ご一読して下さい (http:/ /hinv.ddbj.nig.ac.jp/manual_locus-j.html) 。 また LOCUS エントリのうち 952 件 がゲノムアセンブルにマップされなかった(表 1)。表示例について割愛するが, 例としては HIX0000007 があります。 2-4.H-Invitational Database (H-InvDB) との連携 CIB-DDBJ は H-Invitational プロジェクトの共同開催機関として,H-Invitational で付与されたアノテーションを格納し, データを提供するためのデータベース H-Invitational Database (H-InvDB) のミラーサイトの一つを担っている。以下の URL (http://hinvdb.ddbj.nig.ac.jp/index.jsp) よりアクセスすることができる。 H-Invitational Database CIB-DDBJ Flat File Server 全てのエントリは H-InvDB とリンクが張られている。H-InvDB では配列に対する機能アノテーションの他に遺伝子発 現データベース,病気・疾患関連のデータ,系統発生学的解析データなど様々タイプのデータが格納されている。デー タ内容は本体の H-InvDB とはほとんど時間差なく,ほぼ同じタイミングで更新が行われている。 3.データ検索システム 次にデータ検索システムを紹介する。検索システムは DDBJ でサービスしている getentry を基本にした,H-Inv getentry (http://hinv.ddbj.nig.ac.jp/gethinv/gethinv.html) である。cDNA エントリ,または LOCUS エントリのどちらかをラジオボ タンで選択し,それぞれのエントリで表示する内容をプルダウンメニューから選択する。閲覧できる情報は cDNA, 14 = DDBJ Report 2005 = LOCUS エントリで図3に示す内容である。 cDNA エントリ,LOCUS エントリそれぞれで全ての内 cDNA か LOCUS の一方を選択する ID を入力する 容,もしくは見たい部分のみの表示が選択できる。 "Flat file" を選択するとエントリの全ての内容が表示さ れる。一方,"CDS","misc_feature","variation" を選択 すると当該フィーチャー情報のみが表示される。 "CDS" の場合には当該領域のアミノ酸配列あるいは塩 基配列のみを閲覧することもできる。好みの表示メ ニューを選択し,ボックス内に cDNA あるいは LOCUS エントリの I D をバージョン番号も含めて入力し, "SEARCH" ボタンをクリックする。図3には cDNA エ ントリで "Flat file" を選択した時の結果が示されてい る。 4.データ取得サイト (Anonymous FTP) 最後に取得できるデータについて紹介する。H-Invitational Database CIB-DDBJ Flat File Server ではデータ取 得のための Anonymous FTP サイトを提供している (ftp:/ /hinv.ddbj.nig.ac.jp/)。 構成として大きく cDNA エントリと LOCUS エントリ HIT (cDNA) エントリ用 HIX (LOCUS) エントリ用 表示内容の 選択 用のディレクトリがある。それぞれのディレクトリに は全てのデータセットおよび特定のデータのみの各 セットを提供している。 また,ここで公開されている cDNA 配列 41,118 件は全 そのアクセッショ て INSD *8 から公開されているので, ン番号と H-Invitational の Identifier である HIT_ID およ び HIX_ID の対応,および cDNA の産生機関の対応表 を "acc2hinv_id.txt.gz" ファイルに記載している。 図3.データベース検索システム H-Inv getentry http://hinv.ddbj.nig.ac.jp/gethinv/gethinv.html cDNA,ローカスエントリそれぞれで表示内容の選択が可能できる.例は HIT000000017.2 (cDNA) エントリの Flat file を選択した場合の表示である. さらに,H-Invitational Database CIB-DDBJ Flat File Server は上述した H-InvDB のデータ取得サイトを担っている。ここ で取得できるデータは全てテキストもしくは XML 形式である。これらのデータはそれぞれ以下のディレクトリの配 下に全て格納されている(ftp://hinv.ddbj.nig.ac.jp/jbirc_ff/,ftp://hinv.ddbj.nig.ac.jp/jbirc_xml/) 。 5.終わりに H-Invitational Database CIB-DDBJ Flat File Server で提供しているフラットファイルデータは DDBJ の公開フォーマット に準拠している。それゆえ,一部分を変換することにより,DDBJ フォーマットを読み込んでグラフィカルー表示がで きるアプリケーションなどでも閲覧が可能であり,こういったフォーマットに慣れている利用者には利便性があるよ うに思われる。本文中でも触れたが,CIB-DDBJ は H-InvDB のミラーリングサイトも提供しているので,H-Invitational Database CIB-DDBJ Flat File Server との 間で相互にデータを閲覧・取得することができる。統一的な方法によって機 能アノテーションを付与された cDNA は利用価値の高いリソースであり,これらの情報を閲覧できる DB の開発・公 開によってポストゲノム研究が効率的に促進されることが期待される。 略称 *1 KDRI:かずさ DNA 研究所 *2 NEDO:新エネルギー・産業技術総合開発機構 *3 IMSUT:東京大学医科学研究所 *4 HRI:へリックス研究所 *5 AIST/JBIRC:産業技術総合研究所 生物情報解析研究センター *6 CIB-DDBJ:国立遺伝学研究所 生命情報学・DDBJ 研究センター *7 DDBJ:DNA Data Bank of Japan *8 INSD:国際塩基配列データベース; DDBJ/EMBL/GenBank 文献 - Imanishi T., et al., Integrative annotation of 21,037 human genes validated by full-length cDNA clones. PLoS Biol. 2(6), 856-875, 2004. - Okido T., et al., Construction of H-Invitational Database CIB-DDBJ Flat File Server. The 15th International Conference on Genome Informatics, GIW2004, Yokohama, Japan. = DDBJ Report 2005 = 15 第 1 7 回国際実務者会議報告 DDBJ 真島 淳 CIB/DDBJ, EBI/EMBL, NCBI/GenBank 国際 DNA データバンクは,DDBJ/EMBL/GenBank 国際塩基配列データベース共 同構築の運営・推進をはかるために,国際諮問委員会と国際実務者会議を年1回開催しています。2004 年は EBI のあ るケンブリッジで第 17 回国際実務者会議(5 月 17 日− 19 日)と,第 15 回国際諮問委員会(5 月 20 日− 21 日)が開催 されました。DDBJ からは国際実務者会議に5名の,国際諮問委員会に4名のスタッフが出席しました。 国際実務者会議では,DDBJ, EMBL, GenBank 三極の活動の年次報告が行なわれた後,国際塩基配列データベース運用 上の実務的な問題を検討しました。会議で決定した主な事項は次の通りです。 動向 ■一昨年の会議を受けて,1 エントリを 350kb 以下にするという,塩基配列長の制限を撤廃することを検 討して来ましたが,特に大きな問題は予想されないと結論し,これを進めることで合意しました。この 制限の廃止に伴い,過去に長さを理由に分割したエントリは,適宜,結合する方針です。 ■環境サンプル由来の塩基配列の登録が,近年,急増しています。これに対応すべく,ENV (環境サンプ ル)division を新設し,これまで主として BCT(バクテリア)division に含まれていた環境サンプル由来 エントリを明示的に区別します。 ■一昨年より TPA の登録を受け付けていますが,引用配列と TPA 登録配列の違いをどの程度許容するか という点を明確に出来ていませんでした。この違いが整列される範囲の 10% 未満に収まることを目安と する方向で合意しました。 ■昨年の決定を受けて,DDBJ, EMBL, GenBank において共通の XML フォーマットを提供する準備を進め ておりましたが,共通化した DTD と XML フォーマットのテスト運用を内部的に進める予定です。 ■ gap を含む配列に関して,これまで恣意的な個数の連続した 'n' を挿入した上で,配列を受け付けていま した。今後は gap の長さが不明の場合は 100 個の連続した 'n' を,長さの推定が為されている場合はそ の数分の連続した n を,対応する location に挿入することを規則とします。 Feature に関する決定 ■環境サンプル由来登録の増加に関連し,採集地情報を記載する /country qualifier の記載の在り方につい て再検討しています。 ■ /bound_moiety を使用可能な feature は,これまで protein_bind のみでしたが,今後は,promoter, enhancer, oriT, misc_bind にも使用可能とする予定です。 ■一昨年,特定ゲノムプロジェクト用に feature 継承用の ID 情報を記述するための /locus_tag qualifier を追 加しましたが,履歴管理のために /old_locus_tag qualifier を更に追加する予定です。 ■配列比較に基づいて記載される一群の feature (variation, misc_difference, conflict, unsure, old_sequence) に ついて比較対象の配列を記載するための /compare qualifier (/compare=[accession].[version]) を追加する予 定です。 その他 ■Feature,特に CDS の根拠が実験的であるか, 相同性に基づく推定か,単なる読み枠の予測 によるか,などを示すことが利用者から求め られております。これに関連して,/evidence qualifier の規定値の追加,再分類と再定義の 検討を進めています。 ▲会議参加者集合写真 16 = DDBJ Report 2005 = DDBJ Statistics ■ DDBJ データベースリリースの推移(1987/07-2004/12) リリース(日付) エントリ数 60 59 58 57 56 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 31 (2004/12) (2004/09) (2004/06) (2004/03) (2003/12) (2003/09) (2003/06) (2003/02) (2002/12) (2002/09) (2002/06) (2002/04) (2002/01) (2001/10) (2001/07) (2001/04) (2001/01) (2000/10) (2000/07) (2000/04) (2000/01) (1999/10) (1999/07) (1999/03) (1999/01) (1998/10) (1998/07) (1998/04) (1998/01) (1997/10) 40,583,945 37,926,117 34,917,581 32,693,678 30,405,173 27,753,140 25,149,821 23,250,813 20,354,812 18,401,358 17,260,693 16,503,157 15,016,100 13,266,610 12,313,759 11,434,113 10,165,597 8,666,551 7,554,995 5,962,608 5,388,125 4,810,773 4,294,369 3,311,627 3,073,166 2,759,261 2,412,785 2,174,769 1,956,669 1,731,532 塩基数 リリース(日付) エントリ数 44,416,752,273 42,245,956,937 39,812,635,108 38,008,449,840 36,079,046,032 34,280,225,489 32,162,041,177 29,711,299,332 26,931,456,316 22,782,404,136 20,158,357,982 18,579,627,226 16,197,713,855 14,145,671,645 13,037,646,166 12,207,092,905 11,136,298,841 10,034,532,698 8,880,721,093 6,409,581,885 4,762,696,173 3,728,000,562 3,098,519,597 2,375,261,951 2,190,425,560 1,957,341,169 1,708,580,623 1,479,303,279 1,300,950,613 1,139,869,464 30 29 28 27 26 25 24 23 22 21 20 19 18 17 15 14 13 12 11 10 09 08 07 06 05 04 03 02 01 (1997/07) (1997/04) (1997/01) (1996/10) (1996/07) (1996/04) (1996/01) (1995/10) (1995/07) (1995/04) (1995/01) (1994/10) (1994/07) (1994/04) (1993/10) (1993/07) (1993/04) (1993/01) (1992/07) (1992/01) (1991/07) (1991/01) (1990/07) (1990/01) (1989/07) (1989/01) (1988/07) (1988/01) (1987/07) 1,534,115 1,270,194 1,154,120 936,697 835,552 744,490 637,508 569,757 437,588 274,596 239,689 204,332 185,230 154,626 131,649 120,350 112,067 97,683 65,693 59,317 1,130 879 681 496 395 302 230 142 66 塩基数 992,788,339 841,415,232 756,785,219 608,103,057 551,932,448 499,300,364 431,771,652 390,694,350 322,982,425 250,875,023 231,299,557 205,274,131 192,473,021 165,017,628 147,224,690 138,686,333 129,784,445 120,815,244 84,839,075 77,805,556 2,002,124 1,573,442 1,154,211 841,236 679,378 535,985 345,850 199,392 108,970 □リリース 31 から 60(1997/10-2004/12) の推移 エントリ数 45,000,000 塩基数 500 億 40,000,000 エントリ数(左めもり) 35,000,000 塩基数(右めもり) 450 億 400 億 350 億 30,000,000 300 億 25,000,000 250 億 20,000,000 200 億 15,000,000 150 億 10,000,000 100 億 5,000,000 50 億 0 31(1997/10) 32(1998/01) 33(1998/04) 34(1998/07) 35(1998/10) 36(1999/01) 37(1999/03) 38(1999/07) 39(1999/10) 40(2000/01) 41(2000/04) 42(2000/07) 43(2000/10) 44(2001/01) 45(2001/04) 46(2001/07) 47(2001/10) 48(2002/01) 49(2002/04) 50(2002/06) 51(2002/09) 52(2002/12) 53(2003/02) 54(2003/06) 55(2003/09) 56(2003/12) 57(2004/06) 58(2004/06) 59(2004/09) 60(2004/12) 0 = DDBJ Report 2005 = 17 ■日米欧における収集件数の推移 (1992-2004) エントリ数 エントリ数 (日本・欧州) (米国) 日本(DDBJ + 特許庁)左めもり 6,000,000 25,000,000 欧州(EMBL + 欧州特許局)左めもり 5,000,000 米国(GenBank + 米国特許局)右めもり 20,000,000 4,000,000 15,000,000 3,000,000 15,000,000 2,000,000 5,000,000 1,000,000 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 0 1992 0 □ 2004 年(DDBJ リリース 60) 日米欧のデータ割合 日本 1 6 . 6 % 日本 1 0 . 4 % 欧 州 11.9% 欧 州 16.7% エントリ数 米 国 71.5 % 40,583,945 米国 72.9% 塩基数 44,416,752,273 ■日米欧における収集総塩基数の推移 (1992-2004) 塩基数 塩基数 (日本・欧州) (米国) 70 億 日本(DDBJ + 特許庁)左めもり 300 億 60 億 欧州(EMBL + 欧州特許局)左めもり 250 億 50 億 米国(GenBank + 米国特許局)右めもり 200 億 40 億 150 億 30 億 100 億 20 億 50 億 10 億 0 18 = DDBJ Report 2005 = 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 0 ■ Division ごとの登録件数と登録塩基数(DDBJ release 60 にもとづく) エントリ数 Division BCT (bacteria) 塩基数 284,120 999,579,709 24,482,794 10,727,160 12,838,269,347 6,608,930,949 HTC (high throughput cDNA) HTG (high throughput genome sequence) 369,681 68,655 421,483,756 11,629,791,796 HUM (human) INV (invertebrates) 311,108 252,743 4,145,219,297 733,647,723 66,390 2,499,017 109,362,831 1,441,006,989 PHG (phages) PLN (plants and fungi) 2,767 488,305 13,409,931 1,403,225,946 PRI (primates, exclude HUM) ROD (rodents) 31,663 137,858 251,540,883 2,445,359,847 STS (sequence tagged site) SYN (synthetic DNAs) 380,367 16,055 168,536,426 23,889,562 UNA (unannotated sequences) VRL (viruses) 1,409 262,167 629,862 240,927,773 VRT (vertebrates, exclude HUM, MAN, PRI, ROD) 201,686 941,939,646 40,583,945 44,416,752,273 EST (expressed sequence tag) GSS (genome survey sequence) MAN (mammals, exclude HUM, PRI, ROD) PAT (patents) total □登録件数の割合 40,583,945 エントリ EST EST, GSS, PAT を除く 2,874,974 エントリ PLN 0% GSS STS HTC 20% HUM 40% BCT 60% PAT VRL INV VRT ROD, HTG, MAN, PRI, SYN, PHG, UNA 100% □登録塩基数の割合 EST 44,416,752,273 bp EST, HTG, GSS, HUM, ROD を除く 6,749,181,037 bp HTG PAT 0% PLN 20% GSS BCT 40% VRT 60% HUM INV ROD HTC PRI, VRL, STS, MAN, SYN, PHG, UNA 80% 100% = DDBJ Report 2005 = 19 ■国ごとの登録件数と登録塩基数(DDBJ release 60 にもとづく) *このページの統計は,主としてフラットファイルの REFERENCE 欄「JOURNAL」行を参照して作成しています。国名の表 記方法が複数あるため国名に若干の重複があります。 出典:国立遺伝学研究所 遺伝子発現解析研究室 飯塚 高康・渡邊 康司 □登録件数の割合 残りの 5%(件数の多い順) Canada 2% Germany 3% Brazil 4% UK 5% France 5% Japan 16% China People's Republic of China Sweden Republic of Korea Korea not_matched New Zealand Australia Italy Singapore Finland USA 60% PAT division を除く 38,481,350 エントリ (CON, TPA division を含む) Spain Norway Netherlands Denmark Switzerland Argentina India Taiwan Belgium Ireland South Africa Austria その他 93ヶ国 □登録塩基数の割合 残りの 5%(件数の多い順) Germany 2% France 3% Japan 7% UK USA 8% Canada Brazil not_matched People's Republic of China China Sweden Taiwan Republic of Korea Korea Australia Italy Singapore 75% PAT division を除く 59,315,383,518 bp (CON, TPA division を含む) New Zealand Switzerland Spain Netherlands Finland India Norway Denmark Belgium Austria Argentina Ireland South Africa その他 93ヶ国 □各データバンクへの登録状況 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% People's Republic of China DDBJ への E M B L への 登録 登 録 9% 録 16% PAT division を 除く 38,481,350 GenBank エントリ への登録 (CON, TPA 75% division を含む) DDBJ Japan EMBL France GenBank USA UK China Sweden Republic of Korea Korea not_matched New Zealand Australia Italy Singapore Finland Spain Norway ほか 103ヶ国 Germany Brazil Canada 0% 20 = DDBJ Report 2005 = 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% ■ DAD (DDBJ Amino Acid Database) リリースの推移(1997/11-2005/01) DAD リリース(日付) エントリ数 残基数 DAD リリース(日付) エントリ数 残基数 30 (2005/01) 29 (2004/10) 2,169,069 1,990,271 669,311,612 612,044,833 15 (2001/04) 741,845 228,137,184 28 (2004/07) 27 (2004/03) 1,837,664 1,743,365 563,381,750 534,642,804 14 (2001/01) 13 (2000/11) 662,374 627,154 205,640,609 195,397,467 26 (2003/12) 25 (2003/10) 1,632,775 1,547,330 503,160,878 478,115,729 12 (2000/07) 11 (2000/04) 567,195 514,763 176,496,181 158,049,461 24 (2003/06) 23 (2003/03) 1,429,344 1,324,437 441,769,888 410,343,359 10 (2000/02) 09 (1999/11) 473,525 445,579 145,010,460 136,352,568 22 (2003/01) 21 (2002/11) 1,218,918 1,139,458 376,251,148 349,308,832 08 (1999/07) 06 (1999/02) 419,300 361,018 128,581,164 1110,06,215 20 (2002/06) 19 (2002/04) 1,062,430 1,012,203 325,626,765 309,708,601 05 (1998/11) 04 (1998/08) 343,271 325,816 105,546,945 99,852,596 18 (2002/01) 17 (2001/10) 945,852 863,193 290,665,398 265,285,159 03 (1998/05) 02 (1998/02) 305,799 286,358 93,855,083 87,755,825 01 (1997/11) 242,538 74,829,275 16 (2001/07) 797,764 245,236,540 * DAD リリース 7 は公開していません □ DAD リリースの推移グラフ版 (1997/11-2004/01) エントリ数 残基数 2,500,000 7億 エントリ数(左めもり) 2,000,000 6億 残基数(右めもり) 5億 1,500,000 4億 3億 1,000,000 2億 500,000 1億 30 (2005/01) 28 (2004/07) 26 (2003/12) 24 (2003/06) 22 (2003/01) 20 (2002/06) 18 (2002/01) 16 (2001/07) 14 (2001/01) 12 (2000/07) 10 (2000/02) 08 (1999/07) 05 (1998/11) 03 (1998/05) 01 (1997/11) 0 0 = DDBJ Report 2005 = 21 ■ DDBJ release 60 登録塩基数の多い生物上位 100 2002 2003 2004 学名(一般名) 塩基数 エントリ数 001 003 002 007 011 004 018 005 034 006 036 023 033 013 009 008 *** 027 020 017 019 010 *** 025 012 001 002 003 004 005 006 012 007 009 010 008 019 031 013 015 011 014 029 020 016 018 017 *** 027 023 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 Homo sapiens(ヒト) 11,048,379,419 Mus musculus(マウス) 6,820,876,862 Rattus norvegicus(ラット) 5,649,577,024 Danio rerio(ゼブラフィッシュ) 2,018,521,902 Zea mays(トウモロコシ) 1,460,995,438 Drosophila melanogaster(ショウジョウバエ) 757,868,020 Bos taurus(ウシ) 713,942,628 Oryza sativa (japonica cultivar-group) (イネ・日本晴)705,457,467 Gallus gallus(ニワトリ) 608,308,053 Arabidopsis thaliana(シロイヌナズナ) 593,362,072 Canis familiaris(イヌ) 583,709,214 Xenopus tropicalis(アフリカツメガエルの一種) 468,721,111 Sorghum bicolor(ソルガム) 451,111,852 Pan troglodytes(チンパンジー) 444,850,275 Ciona intestinalis(カタユウレイボヤ) 418,561,678 Brassica oleracea(アブラナ科植物) 404,142,771 Macaca mulatta(アカゲザル) 375,957,846 Sus scrofa(ブタ) 347,814,219 Medicago truncatula(アルファルファの仲間) 336,061,103 Triticum aestivum(コムギ) 333,560,138 Xenopus laevis(アフリカツメガエルの一種) 300,098,375 Caenorhabditis elegans(エレガンス線虫) 283,726,789 Mus musculus molossinus(野生ハツカネズミ) 279,764,851 Unknown.(種名不明) 261,836,591 Tetraodon nigroviridis(ミドリフグ) 260,296,378 8,451,279 6,136,020 991,551 773,022 2,296,116 483,567 921,859 348,991 700,960 856,993 1,015,767 562,938 766,783 193,604 693,357 596,041 55,950 553,817 351,814 595,966 456,840 309,879 337,556 623,568 278,109 2002 2003 2004 学名(一般名) 塩基数 エントリ数 016 021 *** *** 022 015 *** *** 035 *** 045 051 049 *** 031 026 028 030 024 063 042 *** *** 088 039 021 024 028 026 030 025 065 *** 045 *** 040 041 046 *** 037 033 034 042 032 049 036 035 *** 038 043 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 Glycine max(ダイズ) 196,014,353 Anopheles gambiae(ガンビエハマダラカ) 172,908,691 Hordeum vulgare subsp. vulgare(オオムギの亜種) 162,244,556 Saccharum officinarum(サトウキビ) 156,963,394 synthetic construct 149,659,407 Oryza sativa(イネ) 138,890,321 Oryza sativa (indica cultivar-group)(イネ・インディカ)138,752,902 Oryza rufipogon(イネ・野生種) 120,155,980 Solanum tuberosum(ジャガイモ) 119,154,879 Drosophila sp.(ショウジョウバエの一種) 102,868,049 Oncorhynchus mykiss(ニジマス) 100,216,897 Lotus corniculatus var. japonicus(ミヤコグサ) 99,181,246 Pinus taeda(テーダマツ) 98,230,127 Oryza australiensis 92,983,936 Strongylocentrotus purpuratus(ムラサキウニ) 92,235,473 Lycopersicon esculentum(トマト) 91,370,274 Chlamydomonas reinhardtii(クラミドモナス) 90,989,429 Oryzias latipes(メダカ) 90,850,781 Dictyostelium discoideum(細胞性粘菌) 90,321,097 Papio anubis(アヌビスヒヒ) 88,381,013 Schistosoma mansoni(マンソン住血吸虫) 86,086,907 Aedes aegypti(ネッタイシマカ) 85,842,492 Malus x domestica(リンゴ) 82,582,224 Vitis vinifera(ブドウ) 80,314,873 Human immunodeficiency virus 1(HIV 1) 75,666,971 405,919 275,314 291,381 246,560 412,360 70,229 169,206 177,291 192,443 29,192 161,087 158,714 174,677 137,555 129,458 170,999 168,782 150,605 156,614 780 195,385 125,982 179,082 145,722 116,983 22 = DDBJ Report 2005 = 2002 2003 2004 学名(一般名) 029 066 068 *** *** *** 070 032 *** 054 037 *** *** 048 *** 041 *** *** 080 *** *** *** 053 050 *** 039 059 072 083 078 071 057 044 *** 058 048 *** *** 047 *** 054 063 *** 053 *** *** *** 052 055 075 051 052 053 054 055 056 057 058 059 060 061 062 063 064 065 066 067 068 069 070 071 072 073 074 075 Entamoeba histolytica(赤痢アメーバ) Pristionchus pacificus(線虫の一種) Bombyx mori(カイコ) unidentified(種名未同定) Otolemur garnettii(オオガラゴの一種) Hydra magnipapillata(日本産チクビヒドラ) Toxoplasma gondii(トキソプラズマ原虫) Trypanosoma brucei(トリパノソーマ) Callithrix jacchus(コモンマーモセット) Salmo salar(タイセイヨウサケ) Takifugu rubripes(トラフグ) Pongo pygmaeus(オランウータン) Oryza punctata Physcomitrella patens subsp. patens(ヒメツリガネゴケ) Gossypium raimondii Saccharomyces cerevisiae(パン酵母) Schistosoma japonicum(日本住血吸虫) Coccidioides posadasii Apis mellifera(セイヨウミツバチ) Dasypus novemcinctus(ココノオビアルマジロ) Cryptococcus neoformans var. neoformans Oryza brachyantha Felis catus(ネコ) Hordeum vulgare(オオムギ) Gasterosteus aculeatus(イトヨ) 塩基数 エントリ数 72,244,133 67,018,345 66,311,626 63,243,715 62,285,088 60,148,633 59,406,145 57,227,380 57,027,063 52,937,297 52,510,476 49,205,860 47,174,463 46,643,361 45,440,271 43,966,485 43,082,000 43,045,273 42,441,865 42,428,767 41,803,957 41,401,499 40,484,376 40,163,660 39,621,126 80,728 92,505 117,862 161,412 389 123,948 126,712 92,025 1,008 94,053 78,919 53,324 66,085 82,434 63,697 40,400 69,131 53,751 27,935 1,109 59,455 64,620 5,227 80,193 27,668 2002 2003 2004 学名(一般名) 塩基数 エントリ数 038 *** *** 040 *** 057 *** 071 *** *** 043 *** *** 052 056 059 060 *** 047 089 *** 078 *** *** *** 050 051 *** 056 *** 066 060 095 093 *** 062 061 *** 070 074 069 067 *** 068 086 *** 085 *** 073 *** 076 077 078 079 080 081 082 083 084 085 086 087 088 089 090 091 092 093 094 095 096 097 098 099 100 Leishmania major(リーシュマニア) 39,435,594 Pseudomonas aeruginosa(緑膿菌) 39,297,524 Ciona savignyi(ユウレイボヤ) 38,778,666 Lactuca sativa(レタス) 36,703,730 Oryza glaberrima(イネ) 35,404,635 Magnaporthe grisea(イネいもち病菌) 34,655,621 Hypocrea jecorina(ボタンタケ属の一種) 33,908,975 Populus balsamifera subsp. trichocarpa(バルサムポプラの亜種) 33,758,972 Citrus sinensis(スイートオレンジ) 33,652,527 Picea glauca 32,243,227 Rattus sp.(ラットの亜種) 31,047,666 Plasmodium falciparum 3D7(熱帯熱マラリア原虫) 31,006,510 Fundulus heteroclitus(マミチョグ) 30,029,824 Populus tremula x Populus tremuloides 29,258,302 Escherichia coli(大腸菌) 28,550,090 Neurospora crassa(アカパンカビ) 27,338,109 Helianthus annuus(ヒマワリ) 27,258,900 Acyrthosiphon pisum(エンドウヒゲナガアブラムシ) 26,845,484 Gossypium arboreum(キワタ) 26,261,571 uncultured bacterium 26,229,352 Ictalurus punctatus(アメリカナマズ) 26,080,334 Sorghum propinquum(ソルガムの一種) 25,507,839 Ajellomyces capsulatus 23,773,998 Brassica napus(セイヨウアブラナ) 23,319,985 Cyanidioschyzon merolae(原始紅藻) 21,853,226 21,358 33,953 84,437 69,078 62,315 66,173 49,913 55,077 56,540 55,243 70,056 17,974 49,780 66,179 27,946 29,035 63,123 43,816 39,077 38,040 35,253 44,865 44,703 38,586 8,877 ■ 2004 年 12 月に公開した DDBJ rel. 60 と1年前(DDBJ rel. 56)2年前(DDBJ rel.52)の順位と比較しています。 ■ *** はそのリリースでの順位が 100 位以下であった ことを示しています。 ■ * Xenopus tropicalis は DDBJ rel. 57 以前は Silurana tropicalis という学名でした。2002, 2003 年は Silurana tropicalis の順位を示しています。 ■ 23 位の Mus musculus molossinus は国立遺伝学研究所で作られた系統,三島産の野生ハツカネズミ(MSM/Ms)です。 = DDBJ Report 2005 = 23 CIB-DDBJ Research Report 2005 Published by the Center for Information Biology and DNA Data Bank of Japan, National Institute of Genetics Mishima, Japan Vol. 8 March 2005 Contents 1. News from CIB-DDBJ ------------------------------------------------24 2. Research Activities in CIB-DDBJ ------------------------------------ 25 2.1 Laboratory for DNA Data Analysis ------------------------------- 25 2.2 Laboratory for Gene Function Research-------------------------- 32 2.3 Laboratory for Gene-Product Informatics ------------------------ 37 2.4 Laboratory for Research and Development of Biological Databases -------------------------- 39 2.5 Laboratory for Gene-Expression Analysis ----------------------- 42 3. CIB-DDBJ Staff Publications ----------------------------------------- 43 4. CIB-DDBJ Staff Oral Presentations ---------------------------------- 46 5. CIB-DDBJ Research Staff --------------------------------------------- 48 1. News from CIB-DDBJ The Terakoya Lecture Series and DDBJing Seminar The sixth seminar of the "Terakoya" lecture series and the ninth DDBJing Seminar was held on Sunday, March 28, 2004 (10:00 - 17:00) at National Institute of Informatics, Kanda, Tokyo. The aim of the Terakoya lecture series is to give students and researchers not only the established knowledge of the fields but also some ideas on how to break and expand the limit of the current studies. We had six lectures as follows. (1) Use of DDBJ through web service (by Satoru Miyazaki) (2) How to submit nucleotide sequences to DDBJ (by Katsunaga Sakai) (3) Role of DDBJ on bioinformatics research (by Takashi Gojobori) (4) How we should handle biological knowledge? (by Kosaku Okubo) (5) GTOP database for estimating genome wide protein 3D structure (by Satoshi Fukuchi) A total of 43 persons attended this seminar, and they gave many questions to DDBJ lecturers. 24 = CIB-DDBJ Research Report 2005 = SOKENDAI International Lecture on Bioinformatics in Shanghai We at CIB-DDBJ held the SOKENDAI international lecture on bioinformatics in collaboration with the Shanghai Center for Bioinformation Technology (SCBT) at the Olympic Hotel in Shanghai from October 20 to 22, 2004. The international lecture was planned and sponsored by SOKENDAI (the Graduate School of Advanced Studies). The main purpose of the international lecture this time was to educate SOKENDAI students and young Chinese researchers together about bioinformatics and to let them strike up a friendship. The individual lectures were delivered by five Japanese (Drs. Takashi Gojobori of CIB-DDBJ, Susumu Goto of Kyoto University, Tadashi Imanishi of JBIRC, Kazuho Ikeo of CIB-DDBJ and Yoshio Tateno of CIB-DDBJ) and five Chinese researchers (Drs. Yixue Li of SCBT, Wayne He of SCBT, Tieliu Shi of SCBI, Zhiwei Cao of SCBT and Yang Zhong of Fudan University) on genome evolution, human cDNA annotation, functional genomics of microorganisms and bio-databases including DNA, protein, gene-expression, pathways and proteome. The participants in the international lecture were four SOKENDAI students and twenty young Chinese researchers. This was not the first SOKENDAI international lecture, but was the first case in which its students actually participated. During the lectures and excursion trip, the lecturers and participants mixed well with one another, which made the international lecture half successful. The Chinese hospitality offered by Dr. Yixue Li, director of SCBT, and his colleagues contributed to the other half, not to mention the ten excellent lectures. 2. Research Activities in CIB-DDBJ 2.1 Laboratory for DNA Data Analysis Prof. Takashi Gojobori Assoc. Prof. Kazuho Ikeo Assist. Prof. Yoshiyuki Suzuki We have three faculty members, seven postdocs, four visiting researchers, five graduate students, seven technicians, and six secretaries. Each researcher has his or her own research project, and faculty members and secretaries are also engaged in DDBJ activities. The researchers and the research projects in our laboratory can largely be classified into three groups. The first group studies evolution of nervous systems using expression profiles of genes. They have sequenced tens of thousands of ESTs from the cave and surface fish, and compared the expression profiles (N. Tanaka). The second group is studying the mechanisms of genome evolution in silico. It was found that the evolutionary rate of proteins was influenced by their positions and the properties of their interacting partners in the protein-protein interaction network (T. Makino). The third group is interested in the theoretical study of molecular evolution. They developed a method for detecting positive selection efficiently by incorporating the information of the three-dimensional structures of proteins (Y. Suzuki). Followings are detailed descriptions of some of our research activities. The readers who are interested in other subjects are invited to visit our homepage (http://www.cib.nig.ac.jp/dda/home.html). = CIB-DDBJ Research Report 2005 = 25 1. Strong positive selection and recombination drive the antigenic variation of the PilE protein of the human pathogen Neisseria meningitidis (Andrews DT and Gojobori T) The PilE protein is the major component of the Neisseria meningitidis pilus, which is encoded by the pilE/pilS locus that includes an expressed gene and eight homologous silent fragments. The silent gene fragments have been shown to recombine through gene conversion with the expressed gene and thereby provide a means by which novel antigenic variants of the PilE protein can be generated. We have analyzed the evolutionary rate of the pilE gene using the nucleotide sequence of two complete pilE/ pilS loci. The very high rate of evolution displayed by the PilE protein appears driven by both recombination and positive selection. Within the semivariable region of the pilE and pilS genes, recombination appears to occur within multiple small sequence blocks that lie between conserved sequence elements. Within the hypervariable region, positive selection was identified from comparison of the silent and expressed genes. The unusual gene conversion mechanism that operates at the pilE/pilS locus is a strategy employed by N. meningitidis to enhance mutation of certain regions of the PilE protein. The silent copies of the gene effectively allow "parallelized" evolution of pilE, thus enabling the encoded protein to rapidly explore a large area of sequence space in an effort to find novel antigenic variants. 2. Difference of organelles involved in membrane traffic (Ohyanagi H and Gojobori T) Contrary to prokaryotes, eukaryotes have a number of membranous organelles involved in membrane traffic in cells. Therefore, the gain of membrane system could be one of the most epochal events in the evolution of eukaryotes. However, detail about the evolution of membrane system is still unclear. Each proteins involved in membrane system must have been evolved with each bias of its own, so proteins which are localized in the same position in cells may show the same characteristics in the context of molecular evolution. With motivation to give insight to the evolutionary studies of membrane system, we are conducting the following analyses. First, we obtained subcellular localization data of yeast proteins, which have already published (http://yeastgfp.ucsf.edu/). Second, in order to classify these yeast proteins into classes according to their evolutionary emergence times, we performed the BLAST reciprocal best hit analysis of yeast proteome against the proteomes of other species. Combining these two datasets with each other, it is observed that protein sets of endoplasmic reticulum and Golgi apparatus--major components of the membrane traffic system-- show different evolutionary emergence times between each other, like nucleus or mitochondrion between cytoplasm. From this result, it is suggested that endoplasmic reticulum and Golgi apparatus appeared in eukaryotes independently. We are examining the result and further analyses are underway. 3. Computational prediction of microRNA (miRNA) target gene in human and its experimental varidation (Sakurai H, Barrero RA, Hayakawa S, Tamura T, Tateno Y, Ikeo K, Imanishi T and Gojobori T) MicroRNAs (miRNAs) form a novel class of small RNA genes of 21-25 nucleotides derived from highly conserved hairpin precursors (pre-miRNAs) present from mollusc to mammals. miRNAs act as post-transcriptional repressors of target transcripts via mRNA degradation or translation inhibition. We present a novel large scale RNAaffinity screening tool combined with the evaluation of RNA secondary structures to identify putative microRNA recognition elements (MREs) on target mRNAs. We identified 1,476 MREs for 115 known mammalian miRNAs. Eleven top predicted MREs for Let-7a, miR-20, miR-97 26 = CIB-DDBJ Research Report 2005 = and miR-182a were analyzed using a reporter assay. As a result, seven MREs mediated inhibition of reporter expression. It is suggested that our target prediction algorithm, RNAFFY, identifies highly reliable miRNA targets. 4. Detection of apoptosis during planarian regeneration by the expression of apoptosis-related genes and TUNEL assay (Hwang JS, Kobayashi C, Agata K, Ikeo K and Gojobori T) Apoptosis is a tightly organized cell death process that plays a crucial role in metazoan development, but it has not yet been revealed whether apoptotic events are involved in the process of regeneration. Here, we tried to detect apoptotic cells during planarian regeneration using the TdT-mediated dUTP nick-end labeling (TUNEL) assay as well as the expression of apoptosis-related genes. Three novel cDNAs were isolated from a planarian cDNA library and shown to be closely related to other metazoan caspases at the amino acid sequence level. One of these cDNAs, Caspase-like gene 3 (DjClg3), was expressed primarily in apoptotic cells by double detections with the TUNEL assay. Whole mount in situ studies indicated that DjClg3 was expressed in the cells of the mesenchymal space and also around the pharynx of the intact body. Its expression in the regenerating head piece was seen in the blastema and less significantly in the brain, while in the regenerating tail piece, DjClg3 expression was detected uniformly throughout the entire region. In parallel experiments, we performed in situ TUNEL assays to localize the regions where cell death occurred during regeneration and comparable results to the DjClg3 expression patterns were obtained. This is the first report to show that planarians have apoptosis-related genes and the results suggest that the apoptotic mechanism probably takes place to a large extent in normal intact worms as well as during their regeneration. We hypothesize that the presence of apoptosis in planarians may have a role in controlling cell numbers, eliminating unnecessary tissues or cells and remodeling the old tissues of regenerating body parts. 5. Analysis of sexual dimorphism of gene expression in mouse brain (Yuge K, Ikeo K and Gojobori T) There are sexual differences in morphological features of the mammalian brain. The so-called sexual dimorphism of mammalian brains is thought to be determined by the gonadal hormones; this view is called “gonadal origin theory”. However, recent studies suggest that differences in gene expression of sex-liked genes in neuronal cells directly generate sexual dimorphism in the brain. To examine this possibility we conducted microarray experiments to screen the genes that were expressed differen- tially in the brain between male and female mice before gonadal hormone secretion. In this study we have identified 57 female enhanced genes and 24 male enhanced genes in brains at embryonic day 10.5 (E 10.5). These results indicate that sexual differences in gene expression in neuronal cells before gonadal hormone secretion would play an important role in sexual dimorphism in the brain. 6. Seeking for signs of aging in Hydra, a primitive metazoan (Yoshida K, Hwang JS, Fujisawa C, Fujisawa T, Ikeo K and Gojobori T) Aging occurs in a variety of organisms including yeast, nematode, fly, and mammals. However, hydra belonging to phylum Cnidaria has been considered to be immortal (Martinez 1998). This apparent immortality was observed when hydra were maintained so that they underwent asexual reproduction, budding. Do they remain immortal if they undergo sexual reproduction? A previous study using Hydra Oligactis showed that the depression occurred after sexual reproduction (Littlefield 1985). To seek for possible signs of aging in hydra, we studied the pro- cess of the depression in detail. As a result, reduction in the capacity of food capture, digestive movements and contractile movements was all observed. Moreover, exponential increase in mortality rate of population was also observed. From these observations, we conclude that aging-like phenomenon occurs in hydra. Aging research on hydra, one of the most primitive metazoans, has potential for providing further insight into the understanding of evolution of aging. 7. Evolutionary processes of gene splicing and gene silencing (Jin L, Suzuki Y, Ikeo K and Gojobori T) Both gene splicing and gene silencing have become known to contribute significantly to functional diversification of genes and gene networks. For gene splicing, we con- ducted an evolutionary study of the relationship between gene duplication and alternative splicing. For gene silencing, we studied the evolutionary process of small = CIB-DDBJ Research Report 2005 = 27 RNA-guided pathways, focusing on the Rnase III family enzymes. For the first topic, we mentioned that gene duplication and alternative splicing (AS) were the two major evolutionary mechanisms that could bring the functional variation through the diversification of genes and gene products. The purpose of this research is to understand the evolutionary relationship between the two different mechanisms, utilizing the available data resources. The results of this study showed that the proportion of the AS loci in the singleton gene group was less than that in the duplicated gene group. Moreover, we found that the duplicated genes tended to have more AS isoforms than singleton genes. These results suggest that gene duplication would induce more alternative splicing events on duplicated copies than on singletons possibly by reducing the functional constraints on the duplicates. For the second topic, we pointed out that the RNA-mediated gene silencing pathways were evolutionarily conserved processes. It highlights a fundamental role of short RNAs in eukaryotic gene regulation and antiviral defense. Recently, three distinct small RNA-directed silencing pathways were observed, such as the destruction of mRNA via siRNA, inhibition of mRNA translation via miRNA, and epigenetic gene silencing via siRNA. It was also found that in these pathways, the members of ribonuclease III family played important roles in diverse RNA maturation and decay. Here we investigated the evolution of Rnase III nucleases, Dicer as representative, to further figure out the evolutionary relationship among the three gene silencing pathways. With the advantage of using genomic sequences as the subjects of homology search in the annotated and un-annotated genomic regions, we were able to detect possible candidates for a gene of dicer and its two functional domains. Moreover, we found that representative prokaryotes including eubacteria and archbacteria lacked completely the PAZ domain of Dicer. These results clearly show the taxonomy-dependent evolution of the RNA-mediated gene silencing pathways. The results obtained in this study provide the information for the understanding of the evolutionary origin and relationships of the three pathways. The information may also be useful for the conducting of the relevant experiments. As a summary, these results suggested that changes in the genome and regulatory network were closely related evolutionary events, implying that gene multiplication and functional constraints were the two important sources for the change in gene function in the networks of transcription and gene regulation in evolution. 8. Various adaptations for the perpetual darkness in the diversification process from an eyed surface-dwelling form to an eyeless cave-dwelling form of Mexican tetra, Astyanax mexicanus, by cDNA microarrays (Tanaka N, Yokoyama S, Ikeo K and Gojobori T) Mexican tetra (Astyanax mexicanus), a single species with eyed surface and eyeless cave dwelling forms, gives a unique opportunity of the evolutionary process of gene diversification during a short period of time. In this study, we tried to find genes related to the evolution of eyeless cave form from the eyed surface form by cDNA microarrays, each of which has 3,070 non-redundant clones from an entire body of an eyed adult fish. Target genes for the microarrays were made from an entire body of each an eyed fish and an eyeless fish. On the basis of the results of comparative microarray analysis for 716 functionally known genes, relatively highly expressed genes in the surface fish and in the cavefish were listed up, respectively. In the surface fish, relatively highly expression of eye formation-related genes, digestive system-related genes, energy metabolism-related genes, lipocalin-type prostaglandin D synthase gene, elastase genes, etc were found. The eye formation-related genes must be highly expressed because surface fish have welldeveloped eyes whereas cavefish have degenerated eyes. The digestive system-related and energy metabolism-related genes must be also highly expressed because the surface fish are more active than the cavefish. The lipocalin-type prostaglandin D synthase protein is related to the regulation of circadian sleep-wake cycles. The 28 = CIB-DDBJ Research Report 2005 = highly expression of the protein gene corresponds to the regressive circadian activity in the cavefish. The elastase digests elastin fibers in the skin, when the ultraviolet (UV) light reaches the dermis in the skin. It is suggested that the elastase genes is highly expressed because the surface fish has been exposed to sufficiently sunny conditions compared with the cavefish. On the other hand, in the cavefish, relatively highly expression of transferrin genes, lipid metabolism-related genes, sex differentiationrelated genes, etc were observed. Transferrin proteins are related to the oxygen transportation in the blood. To effectively transport oxygen in the blood of the cavefish living in the water with the lower concentration of oxygen at the dark cave environments, transferrin genes may be required to have relatively highly expression in the cavefish. The highly expression of lipid metabolism-related genes would be due to efficient acquirement of the energy under circumstances of at least temporary shortness in food. The highly expressions of the sex differentiation-related genes (diazepam binding inhibitor gene and granulin 1 gene) in the cavefish would be related to negative sex differentiation because of the lack of any kind of display/courtship in the cavefish. In conclusion, various adaptations for the perpetual darkness were evolutionarily raised in the diversification process from the surface fish to the cavefish. This is the first report that differences of gene expression between the surface fish and the cavefish are extensively examined. 9. Evolutionary analysis of transcriptional coactivator MBF1 (Liu Q-X, Ikeo K, Hirose S and Gojobori T) Transcriptional coactivators play a crucial role in gene expression by communicating between regulatory factors and the basal transcription machinery. How a coactivator evolves was poorly understood. We have taken a phylogenetic approach to analyze the evolutionarily history of coactivator MBF1 and TATA element-binding protein TBP. We found the following points. (1)MBF1 and TBP are evolutionarily conserved from Archaea to human to achieve transcription initiation. (2) Archaeal MBF1 carries a DNA-binding domain consisting of a Zn-ribbon which is absent from its eukaryotic counterparts. Thus, Eukaryotic MBF1 can interact with various regulatory factors while archaeal MBF1 has a single partner. (3) The interaction between MBF1 and TBP is also conserved from Archaea to human. In Archaea, MBF1 binds to TBP through Lysine or Asparagine to Glutamic acid interaction; In eukaryotes, MBF1 binds to TBP through Asparatic acid or Glutamic acid to Glutamine interaction. (4) The phylogenetic tree of MBF1 is very similar to that of TBP, indicating that MBF1 coevolved with TBP. 10. The evolutionary rate of a protein influenced by features of the interacting partners (Makino T and Gojobori T) We focused upon how the evolutionary rates of proteins were influenced by the characteristic features of PPIs. Because the recent advancement of molecular technologies enables us to understand actual features of protein · protein interactions (PPIs), it becomes possible to make objective descriptions about the characteristic features of the proteins in the PPI networks. In this analysis, we defined a protein having a larger number of PPI partners of the same functional class as the SF (Same Function) protein, and a protein having a larger number of PPI partners of different functional classes as the DF (Different Function) protein. We also classified proteins in the PPI networks into respective proteins in dense and sparse parts of the PPI network, denoting these proteins as the DP (Dense part) and SP (Sparse Part) proteins, respectively. Because these two classifications were independent of each other, we classified the proteins in PPIs further into the four categories, the SF-DP, SF-SP, DF-DP and DF-SP proteins. Then, we compared the evolutionary rates between the SF and DF proteins, between the DP and SP proteins, and among the four categories. As a result, we found that the DF proteins evolved at a slower rate than the SF proteins. We also found that the SP proteins evolved at a slower rate than the DP proteins. In particular, we pointed out that the DF-SP proteins evolved at the slowest rate in the proteins examined. Because all these differences in the evolutionary rates are statistically significant, it is suggested that the proteins with their PPI partners belonging to different functional classes and occupying a sparse part of the PPI network are under strong functional constraints. It follows that those proteins are very important for the maintenance and survival of the PPI network. 11. Japanese domesticated chickens derived from Shamo traditional fighting cocks (Komiyama T, Ikeo K, Tateno Y and Gojobori T) With the aim of elucidating the evolutionary origin of Japanese domesticated chickens, we examined 85 chicken mtDNA sequences. Thirty-four various ornamental chickens, 42 fighting cocks (Shamo), and nine long-crowing chickens (Naganakidori) were included in these samples. Of the Shamo, 18 were sampled from Okinawa, while the remaining 24 were collected in other islands around Japan. In addition, three Southeast Asian Junglefowls were used as a reference to determine the common ancestor of from Okinawa that clearly diverged from the other Japanese domesticated chickens studied. We found that all Japanese domesticated chickens, including the ornamental varieties and Naganakidori, were derived from the ancestors of the Shamo in Okinawa. To create novel varieties of ornamental chickens, intensive artificial selection is imposed on ancestral Shamo population, resulting in profoundly differentiation of Japanese domesticated chickens. = CIB-DDBJ Research Report 2005 = 29 12. The evolutionary origin of long-crowing chicken: its evolutionary relationship with fighting cocks disclosed by the mtDNA sequence analysis (Komiyama T, Ikeo K, Tateno Y and T. Gojobori) Chickens with exceptionally long crow are often favored all over the world, and connoisseur breeders have bred certain types of chicken exclusively for this trait. In Japan, three chicken varieties have been specifically bred to develop an exceptionally long crow of over 15 s. Although these three long-crowing chickens, Naganakidori, are honored as heritage varieties of Japan, the domestication process and genealogical origin of long-crowing chickens remain unclear. The purpose of this study is to clarify these issues using nucleotide sequences of the mitochondrial DNA D-loop region. Blood samples from a total of nine long-crowing chickens and 74 chickens from 11 Japanese native varieties were collected. DNA sequence data of two Junglefowl species were also collected from the International DNA database (DDBJ /EMBL/GenBank) for use as the outgroup. A phylogenetic tree was then constructed revealing that all three Naganakidori varieties were monophyletic and originated from a fighting cock, a Shamo, for cockfighting. These results suggest that these three long-crowing chickens share a common origin in spite of their conspicuously different characters, and that human cultures favoring long-crowing chickens might have been preceded by a tradition of cockfighting. Moreover, these long-crowing varieties first separated from the fighting cocks of Okinawa, which is geographically closer to Southern China and Indochina than Mainland Japan (Honshu/ Kyushu). This implies that Japanese long-crowing chickens were first brought to Mainland Japan as fighting cocks from the surrounding regions of Southern China or Indochina and through Okinawa. 13. Evolution of vitamin b6 (pyridoxine) metabolism by gain and loss of genes (Tanaka T, Tateno Y and Gojobori T) Vitamin B(6) (VB6) functions as a cofactor of many diverse enzymes in amino acid metabolism. Three metabolic pathways for pyridoxal 5'-phosphate (PLP; the active form of VB6) are known: the de novo pathway, the salvage pathway, and the fungal type pathway. Most unicellular organisms and plants biosynthesize VB6 using one or two of these three biosynthetic pathways. However, animals such as insects and mammals do not possess any of the pathways and, thus, need to intake VB6 in their diet to survive. It is conceivable that breakdowns of these pathways occurred in the evolutionary lineages of insects and mammals, and one of the major reasons for this would be the loss of pertinent genes. We studied the evolution of VB6 biosynthesis from the view of the gain and loss of 10 pertinent genes in 122 species whose genome sequences were completely determined. The results revealed that each gene in the pathways was lost more than once in the entire evolutionary lineages of the 122 species. We also found the following three points regarding the evolution of PLP biosynthesis: (1) the breakdown of the PLP biosynthetic pathways occurred independently at least three times in animal lineages, (2) the de novo pathway was formed by the generation of pdxB in gamma-proteobacteria, and (3) the order of the gene loss in VB6 metabolism was conserved among different evolutionary lineages. These results suggest that the evolution of VB6 metabolism was subject to gains and frequent losses of related genes in the 122 species examined. This dynamic nature of the evolutionary changes must have been responsible for the breakdowns of the pathways, resulting in profound differentiation of heterotrophy among the species. 14. Biased biological functions of horizontally transferred genes in prokaryotic genomes (Nakamura Y, Itoh T, Matsuda H and Gojobori T) Horizontal gene transfer is one of the main mechanisms contributing to microbial genome diversification. To clarify the overall picture of interspecific gene flow among prokaryotes, we developed a new method for detecting horizontally transferred genes and their possible donors by Bayesian inference with training models for nucleotide composition. Our method gives the average posterior probability (horizontal transfer index) for each gene sequence, with a low horizontal transfer index indicating recent hori- 30 = CIB-DDBJ Research Report 2005 = zontal transfer. We found that 14% of open reading frames in 116 prokaryotic complete genomes were subjected to recent horizontal transfer. Based on this data set, we quantitatively determined that the biological functions of horizontally transferred genes, except mobile element genes, are biased to three categories: cell surface, DNA binding and pathogenicity-related functions. Thus, the transferability of genes seems to depend heavily on their functions. 15. Negative selection on neutralization epitopes of poliovirus surface proteins: implications for prediction of candidate epitopes for immunization (Suzuki Y) For development of effective vaccines against viruses, it is of importance to choose appropriate epitopes as the target for immunization. These epitopes should eventually be determined experimentally, but it would be helpful if we could predict candidate epitopes computationally because it accelerates the entire process. To predict candidate epitopes for immunization, it is of great interest to characterize the target epitopes of poliovirus vaccine, which has empirically proven to be the most effective among all vaccines available. Here I show that almost all amino acid sites of poliovirus surface proteins VP1, VP2, and VP3 including neutralization epitopes are negatively selected and no site is under positive selection. These results, together with those obtained in previous studies, indicate that vaccines directed against epitopes which consist of negatively selected sites protect vaccinees more effectively than those directed against epitopes which contain positively selected sites. These observations suggest that candidate epitopes for immunization are predicted by the molecular evolutionary analysis of viral protein (and its coding nucleotide) sequences, as the epitopes which consist exclusively of negatively selected amino acid sites. 16. New Methods for Detecting Positive Selection at Single Amino Acid Sites (Suzuki Y) Inferring positive selection at single amino acid sites is of particular importance for studying evolutionary mechanisms of a protein. For this purpose, Suzuki and Gojobori (1999) developed a method (SG method) for comparing the rates of synonymous and nonsynonymous substitutions at each codon site in a protein-coding nucleotide sequence, using ancestral codons at interior nodes of the phylogenetic tree as inferred by the maximum parsimony method. In the SG method, however, selective neutrality of nucleotide substitutions cannot be tested at codon sites, where only termination codons are inferred at any interior node or the number of equally parsimonious inferences of ancestral codons at all interior nodes exceeds 10,000. Here I present a modified SG method which is free from these problems. Specifically, I use the distance- based Bayesian method for inferring the single most likely ancestral codon from 61 sense codons at each interior node. In the computer simulation and real data analysis, the modified SG method showed a higher overall efficiency of detecting positive selection than the original SG method particularly at highly polymorphic codon sites. These results indicate that the modified SG method is useful for inferring positive selection at codon sites where neutrality cannot be tested by the original SG method. I also discuss that the p-distance is preferable to the number of synonymous substitutions for inferring the phylogenetic tree in the SG method, and present a maximum likelihood method for detecting positive selection at single amino acid sites, which produced reasonable results in the real data analysis. 17. Three-dimensional window analysis for detecting positive selection at structural regions of proteins (Suzuki Y) Detection of natural selection operating at the amino acid sequence level is important in the study of molecular evolution. Single site analysis and one-dimensional window analysis can be used to detect selection when the biological functions of amino acid sites are unknown. Single site analysis is useful when selection operates more or less constantly over evolutionary time, but less so when it operates temporarily. One-dimensional window analysis is more sensitive than single site analysis when the functions of amino acid sites in close proximity in the linear sequence are similar although this is not always the case. Here I present a three-dimensional window analysis method for detecting selection given the three-dimen- sional structure of the protein of interest. In the threedimensional structure, the window is defined as the sphere centered on the alpha-carbon of an amino acid site. The window size is the radius of the sphere. The sites whose alpha-carbons are included in the window are grouped for the neutrality test. The window is moved within the three-dimensional structure by sequentially moving the central site along the primary amino acid sequence. To detect positive selection, it may also be useful to group the surface-exposed sites in the window separately. Threedimensional window analysis appears to be not only more sensitive than single site analysis and one-dimensional window analysis, but also provides similar specificity for = CIB-DDBJ Research Report 2005 = 31 inferring positive selection in the analyses of the hemagglutinin and neuraminidase genes of human influenza A viruses. This method, however, may fail to detect selec- tion when it operates only on a particular site, in which case single site analysis may be preferred although a large number of sequences is required. 18. Evolutionary process of amino acid biosynthesis in corynebacterium at the whole genome level (Nishio Y, Nakamura Y, Usuda Y, Sugimoto S, Matsui K, Kawarabayasi Y, Kikuchi H, Gojobori T and Ikeo K) Corynebacterium glutamicum, which is the closest relative of Corynebacterium efficiens, is widely used for the large scale production of many kinds of amino acids, particularly glutamic acid and lysine, by fermentation. Corynebacterium diphtheriae, which is well known as a human pathogen, is also closely related to these two species of Corynebacteria, but it lacks such productivity of amino acids. It is an important and interesting question to ask how those closely related bacterial species have undergone such significant functional differentiation in amino acid biosynthesis. The main purpose of the present study is to clarify the evolutionary process of functional differentiation among the three species of Corynebacteria by conducting a comparative analysis of genome se- quences. When Mycobacterium and Streptomyces were used as out groups, our comparative study suggested that the common ancestor of Corynebacteria already possessed almost all of the gene sets necessary for amino acid production. However, C. diphtheriae was found to have lost the genes responsible for amino acid production. Moreover, we found that the common ancestor of C. efficiens and C. glutamicum have acquired some of genes responsible for amino acid production by horizontal gene transfer. Thus, we conclude that the evolutionary events of gene loss and horizontal gene transfer must have been responsible for functional differentiation in amino acid biosynthesis of the three species of Corynebacteria. (Suzuki Y) 2.2 Laboratory for Gene Function Research Prof. Yoshio Tateno Assist. Prof. Roberto A. Barrero The laboratory consists of three members: Dr. Yoshio Tateno (Professor), Dr. Roberto Antonio Barrero Gumiel (Assistant Professor) and Ms. Naoko Murakata (Secretary). We aim at the elucidation of the origin, evolution and function of genes and proteins in view of molecular evolution, structural biology and information biology in collaboration with other research groups in the institute and out. Besides the research activities summarized below, we take part in the DDBJ activity in particular in the database construction and public relations. 1. Submission of microarray data to public repositories (Ball CA, Brazma A, Causton H, Chervitz S, Edgar R, Hingamp P, Matese JC, Parkinson H, Quackenbush J, Ringwald M, Sansone SA, Sherlock G, Spellman P, Stoeckert C, Tateno Y, Taylor R, White J and Winegarden N) What this work states is a change in the way in which we approach the publication of microarray-based studies. Both authors and journals have a responsibility to assure that the requisite data are available, and because submitting MIAME-compliant data can take considerable time and effort, this process should be factored into review and publication timelines. However, while this process may be time consuming and painful at first, we believe that 32 = CIB-DDBJ Research Report 2005 = the benefits of building an open repository of microarray data will far outweigh any initial disadvantages. As always, it is our sincere hope that these suggestions stimulate discussion within the community and that together we can arrive at a consensus that ensures that microarray data are widely and easily accessible. Finally we would like to urge the DDBJ, EBI, and NCBI to work together towards exchanging all MIAME-compliant microarray data. 2. The origin of eukaryotes is suggested as the symbiosis of pyrococcus into proteobacteria by phylogenetic tree based on gene content (Horiike T, Hamada K, Miyata D and Shinozawa T) Attempts were made to define the relationship among the three domains (eukaryotes, archaea, and eubacteria) using phylogenetic tree analyses of 16S rRNA sequences as well as of other protein sequences. Since the results are inconsistent, it is implied that the eukaryotic genome has a chimeric structure. In our previous studies, the origin of eukaryotes to be the symbiosis of archaea into eubacteria using the whole open reading frames (ORF) of many genomes was suggested. In these studies, the species participating in the symbiosis were not clarified, and the effect of gene duplication after speciation (in-paralog) was not addressed. To avoid the influence of the in-paralog, we developed a new method to calculate orthologous ORFs. Furthermore, we separated eukaryotic in-paralogs into three groups by sequence similarity to archaea, eubacteria (other than -proteobacteria), and -proteobacteria and treated them as individual organisms. The relationship between the three ORF groups and the functional classification was clarified by this analysis. The introduction of this new method into the phylogenetic tree analysis of 66 organisms (4 eukaryotes, 13 archaea, and 49 eubacteria) based on gene content suggests the symbiosis of pyrococcus into -proteobacteria as the origin of eukaryotes. 3. Integrative annotation of 21,037 human genes validated by full-length cDNA clones (Imanishi T et al, including Suzuki Y, Fukuchi S, Barrero RA, Ikeo K, Saitou N, Nishikawa K, Sugawara H, Tateno Y, Okubo K and Gojobori T) The human genome sequence defines our inherent biological potential; the realization of the biology encoded therein requires knowledge of the function of each gene. Currently, our knowledge in this area is still limited. Several lines of investigation have been used to elucidate the structure and function of the genes in the human genome. Even so, gene prediction remains a difficult task, as the varieties of transcripts of a gene may vary to a great extent. We thus performed an exhaustive integrative characterization of 41,118 full-length cDNAs that capture the gene transcripts as complete functional cassettes, providing an unequivocal report of structural and functional diversity at the gene level. Our international collaboration has validated 21,037 human gene candidates by analysis of high-quality full-length cDNA clones through curation using unified criteria. This led to the identification of 5,155 new gene candidates. It also manifested the most reliable way to control the quality of the cDNA clones. We have developed a human gene database, called the H-Invitational Database (H-InvDB; http://www.h-invitational.jp/). It provides the following: integrative annotation of human genes, description of gene structures, details of novel alternative splicing isoforms, non-protein-coding RNAs, functional do- mains, subcellular localizations, metabolic pathways, predictions of protein three-dimensional structure, mapping of known single nucleotide polymorphisms (SNPs), identification of polymorphic microsatellite repeats within human genes, and comparative results with mouse fulllength cDNAs. The H-InvDB analysis has shown that up to 4% of the human genome sequence (National Center for Biotechnology Information build 34 assembly) may contain misassembled or missing regions. We found that 6.5% of the human gene candidates (1,377 loci) did not have a good protein-coding open reading frame, of which 296 loci are strong candidates for non-protein-coding RNA genes. In addition, among 72,027 uniquely mapped SNPs and insertions/deletions localized within human genes, 13,215 nonsynonymous SNPs, 315 nonsense SNPs, and 452 indels occurred in coding regions. Together with 25 polymorphic microsatellite repeats present in coding regions, they may alter protein structure, causing phenotypic effects or resulting in disease. The H-InvDB platform represents a substantial contribution to resources needed for the exploration of human biology and pathology. 4. Structural and functional differences in two cyclic bacteriocins with the same sequences produced by lactobacilli (Kawai Y, Ishii Y, Arakawa K, Uemura K, Saitoh B, Nishimura J, Kitazawa H, Yamazaki Y, Tateno Y, Itoh T and Saito T) Lactobacillus gasseri LA39 and L. reuteri LA6 isolated from feces of the same human infant were found to pro- = CIB-DDBJ Research Report 2005 = 33 duce similar cyclic bacteriocins (named gassericin A and reutericin 6, respectively) that cannot be distinguished by molecular weights or primary amino acid sequences. However, reutericin 6 has a narrower spectrum than gassericin A. In this study, gassericin A inhibited the growth of L. reuteri LA6, but reutericin 6 did not inhibit the growth of L. gasseri LA39. Both bacteriocins caused potassium ion efflux from indicator cells and liposomes, but the amounts of efflux and patterns of action were different. Although circular dichroism spectra of purified bacteriocins revealed that both antibacterial peptides are composed mainly of alpha-helices, the spectra of the bac- teriocins did not coincide. The results of D- and L-amino acid composition analysis showed that two residues and one residue of D-Ala were detected among 18 Ala residues of gassericin A and reutericin 6, respectively. These findings suggest that the different D-alanine contents of the bacteriocins may cause the differences in modes of action, amounts of potassium ion efflux, and secondary structures. This is the first report that characteristics of native bacteriocins produced by wild lactobacillus strains having the same structural genes are influenced by a difference in D-amino acid contents in the molecules. 5. Japanese domesticated chickens have been derived from Shamo traditional fighting cocks (Komiyama T, Ikeo K, Tateno Y and Gojobori T) With the aim of elucidating the evolutionary origin of Japanese domesticated chickens, this study evolutionarily analyzed 85 chicken mtDNA sequences. Thirty-four various ornamental chickens, 42 fighting cocks (Shamo), and nine long-crowing chickens (Naganakidori) were included. Of the Shamo, 18 were sampled from Okinawa, while the remaining 24 were collected in other islands around Japan. In addition, three Southeast Asian Junglefowls were used as a reference to determine the common ancestor of Japanese domesticated chickens. A phylogenetic tree was constructed for the 88 mtDNA sequences revealing that the Shamo group from Okinawa clearly diverged from the other Japanese domesticated chickens studied. This strongly suggests that all Japanese domesticated chickens, including the ornamental varieties and Naganakidori, derived from the ancestors of the Shamo in Okinawa. To create novel varieties of ornamental chickens, intensive artificial selection is imposed on ancestral Shamo populations, resulting in profoundly differentiated Japanese domesticated chickens. 6. DDBJ in the stream of various biological data (Miyazaki S, Sugawara H, Ikeo K, Gojobori T and Tateno Y) In the past year we at DDBJ (http://www.ddbj.nig. ac.jp) have made a steady increase in the number of data submissions with a 50.6% increment in the number of bases or 46.5% increment in the number of entries. Among them the genome data of man, ascidian and rice hold the top three. Our activity has extended to provid- ing a tool that enables sequence retrieval using regular expressions, and to launching our SOAP server and web services to facilitate the acquisition of proper data and tools from a huge number of biological data resources on websites worldwide. We have also opened our public gene expression database, CIBEX. 7. Molecular chaperones: proposal of a systematic computer-oriented nomenclature and construction of a centralized database (Sghaier H, Ai TL, Horiike T and Shinozawa T) Molecular chaperones are a wide group of unrelated protein families whose role is to assist others proteins. Comparably, under environmental stress, stress proteins behave as biocatalysts of protein stabilization. Stress proteins include a large class of proteins that were originally termed heat shock proteins (HSPs) due to their initial discovery in tissues exposed to elevated temperatures. Many, but not all, stress proteins and HSPs are molecular chaperones. Moreover, not all HSPs are derivable from stress. HSPs are structurally diversified by the contribution of 34 = CIB-DDBJ Research Report 2005 = various domains having specific roles. HSPs have been grouped, mainly on the basis of their molecular masses, into specific families that include small HSPs (sHSPs)/acrystallins, HSP10s, HSP40s, HSP60s, HSP70s, HSP90s, HSP100s and HSP110s. The names of these major families are historical artefacts with limited information content. Using the current databases, names and proteic domains of many molecular chaperones in different species were analyzed. Although traditional names of HSPs are trivial, it is unrealistic to suggest replacing them, because they are preferred and widely used. Here we suggest that these traditional names be chaperoned, in silico, by a systematic nomenclature. Thus, for example, with the same intent of use of [trioxygen: O3] for ozone, we propose here C7HSP70[Ehsa]ER-P11021 for GRP78 (78 kDa endoplasmic Human molecular chaperone in HSP70 superfamily with P11021 as its accession number in the database of the National Center for Biotechnology Information (NCBI)). The proposed systematic computer-oriented naming and classification method is designed for HSPs and also their partners based on the number of amino ac- ids, domain structure, phylogenetic domain, localization in the cell and accession number as stated in the NCBI. Arabidopsis thaliana was analyzed as a model, because it contains a large number of various HSPs localized in several organelles. Overall, this naming system helps in building, optimizing and managing a novel online database entirely devoted to HSPs. The purported taxonomy, coupled with the newly constructed database, can contribute to studies involving large amounts of stored data on HSPs. 8. Extensive analysis of ORF sequences from two different cichlid species in Lake Victoria provides molecular evidence for a recent radiation event of the Victoria species flock Identity of EST sequences between Haplochromis chilotes and Haplochromis sp. "Redtailsheller" (Watanabe M, Kobayashi N, Shin-I T, Horiike T, Tateno Y, Kohara Y and Okada N) The Lake Victoria Cichlid fishes have diverged very rapidly. The estimated 500 species inhabiting the lake are believed to have arisen within the last 14,000 years. The fishes' jaws and teeth have diverged markedly to adapt to different feeding behaviors and environments. To examine how the genomes of these fishes differentiated during speciation, we performed comparative analysis of expressed sequenced tag (EST) sequences. We constructed cDNA libraries derived only from the jaw portions of two cichlid species endemic to Lake Victoria. We sequenced 17,280 cDNA clones from Haplochromis chilotes and 9600 cDNA clones from Haplochromis sp. "Redtailsheller" and obtained 543 different genes common to both species. Of these genes, 441 were essentially identical between species and 102 contained base replacements in their open reading frame (ORF) or untranslated (UTR) regions. Comparative analysis of 71selected sequences has revealed that while the degree of polymorphism is 0.0054/site for H. chilotes and 0.0047/ site for H. sp. "Redtailsheller", genetic distance between the two species is 0.0031/site. The genetic distance particularly indicates that the two species diverged about 890,000 years ago. 9. International public gene expression database (CIBEX) and data submission (Tateno Y and Ikeo K) We have opened our gene expression database, CIBEX, to the public. CIBEX has been developed as an international public database with the aim of the collaboration with ArrayExpress at EBI and GEO at NCBI. The collaboration mainly means to share the annotation manual and to exchange the data collected and annotated among the three databases. The data collection will hopefully be promoted by the open letter issued by the MGED society to the editors of relevant journals. 10. Analysis of biological networks in eukaryotes using the whole genome sequences (Tanaka T and Gojobori T) Since the whole genome sequencing of Haemophilus influenzae was completed in 1995, the number of species whose genomes were completely sequenced has steeply been increased. As of January 2005, the number of such species is more than 210 in the Genome Information Broker (GIB) of the Center for Information Biology and DNA Data Bank of Japan. The information on the whole genome sequences enables us to study the origins and evolutionary processes of various biological networks such as metabolic pathways and signal transductions. We analyzed biological networks such as amino acid metabolic pathways by conducting comparative analysis of the complete genome sequences of six eukaryotic species including man, fly, nematode, yeasts and plant, and found that a particular pathway had evolved independently in multiple lineages of the species studied. = CIB-DDBJ Research Report 2005 = 35 11. Microarray gene expression database (Ikeo K and Tateno Y) As the international standardizations of microarray data description and data sharing have been promoted by the MGED society, researchers conducting microarray experiments are encouraged to submit their data to one of the international gene expression databases, ArrayEpress, GEO and CIBEX. CIBEX being developed by us is in compliance with the international standard, MIAME, and equipped with several search functions. 12. Discovery and annotation of forty seven non-protein coding human RNAs (Barrero RA, Dubchak I, Auffray C, Wilming L, Takeda J, Suzuki Y, Harada E, Debily MA, Graudens E, Quackenbush J, Tamura T, Ryaboy DV, Imbeaud S, Ikeo K, Tonellato P, Nomura N, Sugano S, Imanishi T, Gojobori T and Jia L) Non-coding RNAs (ncRNAs) play crucial roles in a variety of procsses including replication, transcriptional regulation, splicing, dosage compensation, genetic imprinting, translational regulation, and modulation of protein function. Here we report the discovery and annotation of ncRNAs from the human full-length cDNA dataset evaluated at the first International Human Full-length cDNA Annotation Meeting. A total of 1,485 cDNA transcripts, mapped onto 1,300 loci on the human genome, were found to encode putative open reading frames (ORFs) equal to or less than 80 amino acids (aa). To select putative ncRNAs all cDNA sequences were mapped to the human genome to study the genomic neighbourhood for the presence of ab initio predicted genes and neighbouring genes, and compared to Expressed Sequence Tag (EST) databases for supporting evidence. This method yielded 296 putative ncRNAs that were analyzed for conservation by determining mouse DNA and RNA sequence similarities. Putative ncRNAs with mouse ortholog support were further analyzed using QRNA. We found 47 ncRNAs containing a conserved RNA secondary structure. Of these, 60% were found to be expressed in up to eight human tissues, implying that ncRNAs are seemingly tissue-specifically regulated. 13. Evolutionary rate of enzymes in the metabolic network (Tanaka T, Ikeo K and Gojobori T) An enzyme interacts not only with the other proteins but also with low-weight molecules called substrates in the metabolic network. To understand an evolutionary process of interactions of enzymes, we studied the relationship between the evolutionary rate of the enzyme and these interacting partners. When we focused on the 498 enzymes in Saccharomyces cerevisiae that have orthologous pairs in Ashbya gossypii, we discovered the significant negative correlation between the evolutionary rate of the enzyme and the number of interacting proteins (proteinprotein interaction; PPI). On the other hand, we found no correlation between the evolutionary rate of the enzyme and the number of interacting substrates (protein-substrate interaction; PSI). Therefore, we conclude that the number of interacting proteins is the most affective to the evolutionary rate of the enzyme compared with that of the other interacting partners such as the substrates. 14. Development of a method for constructing a phylogenetic tree using a comprehensive orthologous gene cluster, and phylogenetic analysis of cyanobacteria (Horiike T and Tateno Y) Phylogenetic trees are constructed using DNA, RNA or amino acid sequences for estimating evolutionary relationships of genes or species. Currently, there are two problems with the tree construction. One is that horizontal gene transfer disturbs the estimation of the true relationships of genes or species. The other is that the construction sometimes depends on the choice of sequences. We occasionally observe that changing one sequence to another erroneously alters the reconstructed tree. There36 = CIB-DDBJ Research Report 2005 = fore, we are developing a method of the tree construction which is to reduce the interference caused by the two problems. In the method we can incorporate all available prokaryotic ORFs. We will then clarify the phylogenetic position of cyanobacteria by applying our method to as many pertinent sequences as possible. 15. We are in collaboration with Prof. Tadao Saito of Tohoku University on the function and evolution of glucosidase and galactosidase genes in Lactobcillus (Saito, T, Yamazaki Y and Tateno Y) 16. We are in collaboration with Prof. Shintou Eguchi of the Institute of Mathematical Statistics and his laboratory on the statistical analyses of SNP and gene expression data (Eguchi S, Ikeo K and Tateno Y) (Tateno Y) 2.3 Laboratory for Gene-Product Informatics Prof. Ken Nishikawa Assist. Prof. Satoshi Fukuchi Assist. Prof. Akira Kinjo The Laboratory for Gene-Product Informatics consists of Professor Ken Nishikawa, Assistant Professors Satoshi Fukuchi and Akira Kinjo together with three postdoctoral fellows (Homma K, Nagashima T and Minezaki Y), tech- nical assistants (Mimura K, Kuromaru M, Yamamoto K, Itoh N, Abe T, Hongo K, Suzuki E, Yoshikawa M and SakamotoS), and a secretary, Sugiyama F. 1. Eigenvalue analysis of amino acid substitution matrices reveals a sharp transition of the mode of sequence conservation in proteins (Kinjo AR and Nishikawa K) The pattern of amino acid substitutions and sequence conservation over many structure-based alignments of protein sequences was analyzed as a function of percentage sequence identity. The statistics of the amino acid substitutions were converted into the form of log-odds amino acid substitution matrices to which eigenvalue decomposition was applied. It was found that the most important component of the substitution matrices exhibited a sharp transition at the sequence identity of 30-35%, which coincides with the twilight zone. Above the transition point, the most dominant component is related to the mutability of amino acids and it acts to disfavor any substitutions, whereas below the transition point, the most dominant component is related to the hydrophobicity of amino acids and substitutions between residues of similar hydrophobic character are positively favored. Implications for protein evolution and sequence analysis are discussed. = CIB-DDBJ Research Report 2005 = 37 2. Estimation of the number of authentic orphan genes in bacterial genomes (Fukuchi S and Nishikawa K) Genome annotation produces a considerable number of putative proteins lacking sequence similarity to known proteins. These are referred to as "orphans." The proportion of orphan genes varies among genomes, and is independent of genome size. In the present study, we show that the proportion of orphan genes roughly correlates with the isolation index of organisms (IIO), an indicator introduced in the present study, which represents the degree of isolation of a given genome as measured by sequence similarity. However, there are outlier genomes with respect to the linear correlation, consisting of those genomes that may contain excess amounts of orphan genes. Compari- sons of genome sequences among closely related strains revealed that some of the annotated genes are not conserved, suggesting that they are ORFs occurring by chance. Exclusion of these non-conserved ORFs within closely related genomes improved the correlation between the proportion of orphan genes and the IIO values. Assuming that the correlation holds in general, this relationship was used to estimate the number of "authentic" orphan genes in a genome. Using this definition of authentic orphan genes, the anomalies arising from over-assignments, e.g., the percentages of structural annotations, were corrected for 16 genomes, including those of five archaea. 3. Alternative splice variants encoding unstable protein domains exist in the human brain (Homma K, Kikuno RF, Nagase T, Ohara O and Nishikawa K) Alternative splicing has been recognized as a major mechanism by which protein diversity is increased without significantly increasing genome size in animals and has crucial medical implications, as many alternative splice variants are known to cause diseases. Despite the importance of knowing what structural changes alternative splicing introduces to the encoded proteins for the consideration of its significance, the problem has not been adequately explored. Therefore, we systematically examined the structures of the proteins encoded by the alternative splice variants in the HUGE protein database derived from long (>4 kb) human brain cDNAs. Limiting our analyses to reliable alternative splice junctions, we found alternative splice junctions to have a slight tendency to avoid the interior of SCOP domains and a strong statistically signifi- cant tendency to coincide with SCOP domain boundaries. These findings reflect the occurrence of some alternative splicing events that utilize protein structural units as a cassette. However, 50 cases were identified in which SCOP domains are disrupted in the middle by alternative splicing. In six of the cases, insertions are introduced at the molecular surface, presumably affecting protein functions, while in 11 of the cases alternatively spliced variants were found to encode pairs of stable and unstable proteins. The mRNAs encoding such unstable proteins are much less abundant than those encoding stable proteins and tend not to have corresponding mRNAs in non-primate species. We propose that most unstable proteins encoded by alternative splice variants lack normal functions and are an evolutionary dead-end. 4. Construction and characterization of chimeric proteins composed of type-1 and type-2 periplasmic binding proteins MglB and ArgT (Kashiwagi K, Fukami-Kobayashi K, Shiba K and Nishikawa K) The respective type-1 and type-2 periplasmic binding proteins (PBPs) MglB and ArgT are believed to have evolved from a common ancestor into siblings showing topological differences in their main chain connectivity. At first glance, they show similar structure. But, more detailed examination reveals that the chain connectivity of ArgT is more convoluted than that of MglB. Reflecting that complexity, the folding of ArgT is complicated and involves intermediate folds. On the other hand, the folding of MglB is a simple two-state transition. In the present study, we constructed and characterized several chimeras made up of various subdomains of MglB and ArgT with the aim of gaining insight into the evolution of protein folding and protein structure. Although these chimeras did not fold as compactly as their parental proteins, some did exhibit cooperative folding, which suggests that novel proteins with new connectivity and new folding pathways could have emerged at a fairly high rate throughout the evolution of proteins. (Fukuchi S) 38 = CIB-DDBJ Research Report 2005 = 2.4 Laboratory for Research and Development of Biological Databases Prof. Hideaki Sugawara Assist. Prof. Takashi Abe 1. Information systems for molecular biology and its related disciplines 1-1. From Web services to a Bioportal † (Shigemoto Y , Sakai H, Abe T, Miyazaki †† S and Sugawara H) †† † Fujitsu, Tokyo Univ. of Sci. The publicly available bioinformatics resources, comprising databases and analytical tools, have expanded in recent years. While the information environment for life sciences has gradually become more abounding, it is still difficult to combine multiple, heterogeneous bioinformatics resources for a specific research purpose. To set up and run an integrated system, it is often necessary to write and update custom programs. In addition, different research groups continually write programs that have overlapping functions. We need an information environment that is conducive to efficient and appropriate bioinformatics resource utilization for a wide range of users. Therefore, the Center for Information Biology and DNA Data Bank of Japan, in alliance with the National Institute of Informatics (NII) and the Mitsubisi Research Institute, Inc. (MRI) have started a three years long project since 2003, "Research and Development of the New Generation of Bio-portal", to enhance the information environment for the relevant user communities. In this project, the Laboratory for Research and Development of Biological Databases is responsible for the development of biological Web services. The project site is open at http:/ /www.bioportal.jp/ in 2004. From there, a Web page for links to sites complete genome sequence and annotation are also prepared and accessible, in addition to the biological Web services. The former is named “Genome Menu”. 1-2. Expansion of Genome Information Broker (GIB) (Hirahata M, Tanaka † N, Abe T, Miyazaki S and Sugawara H) † Tokyo Univ. of Sci. GIB was originally created for the retrieval and analysis of E. coli genomic information in a set. We implemented microbial genome data into GIB whenever genome sequencing was completed and the data is made open to the public. At the GIB Web page (http://gib.genes.nig.ac.jp/), key word search, homology search, links to DBGET, KEGG and GTOP and visualization of the data are available for more than 200 strains as of December 2004. We have utilized XML, CORBA and a distributed database in order to cope with the explosion of microbial genome information. 2. Information systems on microbes 2-1. WFCC-MIRCEN World Data Centre for Microorganisms (WDCM) of the data by culture collections funded by the American Society for Microbiology and UNESCO. (Shigemoto S , Nagaya J and Sugawara H) † Fujitsu. 2-2. Development of an e-Workbench for Biological Classification and Identification (InforBIO) † WFCC and MIRCEN stand for World Federation for Culture Collections and Microbial Resource Centers network respectively. The laboratory is the host of WDCM and maintains the World Directory of microbial resource centers. The on-line World Directory contains the detailed information of 469 centers in 65 countries and also the list of their holdings. Any culture collection is able to register, update and delete the information at http:// www.wdcm.org/. WDCM could promote the update † (Tanaka N, Koorikawa K , Abe T, †† Miyazaki S and Sugawara H) † †† Hitachi soft, Tokyo Univ. of Sci. We continued the development of an e-Workbench named InforBIO by use of JAVA, XML and a relational database management system in the public domain. We have distributed InforBIO to several laboratories that study microbes and improved the utility and robustness of InforBIO = CIB-DDBJ Research Report 2005 = 39 based on the feedback (http://lilium.genes.nig.ac.jp/ index_e.html). 2-3. An information system for pathogenic microorganisms (Hirahata M, Tanaka N, Shigemoto Y † and Sugawara H) Fujitsu † mycetes, and also a portal site for pathogenic microorganisms in general (http://www.wdcm.org/byogen/ ). (*) The information system on pathogenic microorganisms has been supported by Special Coordination Funds for Promoting Science and Technology. We participated in a national project for the resource center of pathogenic microorganisms. Our role is to develop an information system for pathogenic fungi and actino- 3. Applications of IT to the International Nucleotide Sequence Database 3-1. Development of Open Annota† tion System (Miyazaki S , Abe T and Sugawara H) † Tokyo Univ. of Sci. A number of the complete genome sequences have been submitted to INSD since 1995. The annotation information, however, is not consistent among genome sequencing teams. In addition, researchers outside of the team might have more information and knowledge on some genes and biological molecules. Therefore, it is quite important to develop the system which allows any expert to evaluate the annotation given by the team to attach more valuable information. As a new feature of INSD, we develop so-called "Open Annotation System (OASYS)" as an annotation editor in the distributed environment on the Internet. (*) OASYS project has been supported by BIRD of Japan Science and Technology Corporation (JST) bial genome information by use of GRID (Kosuge T, Okido T, Shigemoto † Y , Hirahata M, Tanaka N, Maruyama Y, AbeT, Miyazaki S†† and Sugawara H) † †† Fujitsu, Tokyo Univ. of Sci. Tsunami of biological data and multiple views of the data analysis require an expandable and flexible information environment. GRID computing is expected to be the solution. We prepared a computational environment composed of 5 sites in OBIGrid and succeeded in analyzing horizontal gene transfer and clusters of ORFs of more than 100 microbial genomes that were stored in the Genome Information Broker as of May, 2003. This scheme is being applied to more than 300 thousands ORFs of genomic sequences of 124 microbial species.In 2004, we evaluated the results of the 3-2. Exhaustive evaluation of micro- 4. Genomics 4-1. Development of the H-Invita† tional Database (Shigemoto Y , †† Miyazaki S and Sugawara H) † †† Fujitsu, Tokyo Univ. of Sci. We performed an exhaustive integrative characterization of 41,118 full-length cDNAs that capture the gene transcripts as complete functional cassettes, providing an unequivocal report of structural and functional diversity at the gene level. Our international collaboration has validated 21,037 human gene candidates by analysis of highquality full-length cDNA clones through curation using unified criteria. We have developed a human gene database, called the H-Invitational Database (H-InvDB; http:/ /www.h-invitational.jp/). The H-InvDB platform represents a substantial contribution to resources needed for 40 = CIB-DDBJ Research Report 2005 = the exploration of human biology and pathology. 4-2. Splicing Profile Based Protein Categorization between Human and † Mouse Genomes (Västermark Å , †† Shigemoto Y , Abe and Sugawara H) † †† Univ. of Oxford, Fujitsu We compared gene structures of human and mouse to explore the relationships of functions of genes and exonintron structures. The central question is whether protein function is more correlated with splicing profiles than sequence similarity, or not. To approach this question, a splicing profile similarity (SPS) index, which measures relative exon length discrepancy, was devised. Arbitrary human proteins were compared, in terms of SPS and amino acid sequence similarity, to their 1) mouse orthologues and 2) human paralogues, which epitomise functional equivalence and non-equivalence, respectively, to methodically elucidate the global relationship between a) biological function, b) splicing profile similarity, and c) sequence similarity. Protein function is more correlated with splicing profile similarity than sequence similarity as demonstrated by the fact that human-mouse orthologues (HMOs) display significantly higher splicing profile simi- larity than do human-human paralogues (HHPs), despite the mutual sequence similarity between these two categories. This finding indicates that splicing profile-based protein categorisation is biologically meaningful 5. Phylogenetics Analyses of Environmental Samples on the Basis of Self-Organizing Map (SOM) (AbeT, Ikemura T† and Sugawara H) † SOKEN-DAI. Metagenomic approach, which is the genome analysis on a mixture of uncultured microorganisms, has been recently developed to search for novel and industrially useful genes and to study microbial diversity in a wide variety of environments. We previously modified the conventional SOM for genome informatics to make the learning process and resulting map independent of the order of data input5),6). In the present study, we developed the SOM as a novel bioinformatics strategy to capture and visualize microbial diversity and relative abundance of microorganisms within an environmental sample. First we constructed SOMs of tri- and tetranucleotide frequencies in 1- and 5kb sequence fragments from prokaryotic genomes for which complete sequence is available. The sequences could be classified primarily according to species and to 11 major phylogenetic groups without information regarding the species. For example, 88% of 5-kb sequences were classified into the correct phylogenetic group. Importantly, the classification could be done without orthologous sequence sets, and. therefore, SOM was especially useful to analyze novel sequences from poorly characterized species for industrial applications and scientific studies. With the SOM method, all non-rRNA sequences in the Database that were from unidentified or uncultured bacteria and longer than 1 kb were classified into major phylogenetic groups7). The present method can also be developed as a tool for surveys of pathogenic microorganisms in environmental and clinical samples that can not be cultured easily and in sterilized samples. (Sugawara H) = CIB-DDBJ Research Report 2005 = 41 2.5 Laboratory for Gene-Expression Analysis Prof. Kosaku Okubo Assist. Prof. Koichi Itoh The laboratory for Gene-Expression Analysis consists of the following members: Kousaku Okubo (Professor), Koichi Itoh (Assist. Prof.), Osamu Ogasawara (Posdoc), Makiko Otsuji (Graduate student), Isao Kubota (Graduate student), Miya Shiojima (technical assistant),Takayasu Iizuka (systems engineer), Koji Watanabe (systems engineer), Hiroaki Imamura (systems engineer), Sumiyo Sugimoto (Secretary). 1. Anatomical Gene Expression Database of Animal Kingdom Based On the DDBJ/EMBL/GenBank EST Sequence Entries (Kubota I, Watanabe K, Imamura H, Iizuka T and Okubo K) We constructed an anatomical gene expression database (BodyMap2) based on the DDBJ/EMBL/GenBank EST sequence entries. The EST dataset (DDBJ release 60) consists of 24,482,794 sequence entries derived from 24,544 libraries from 801 species (18,243,826 seqeunces, 20,494 libraries, 385 species in the animal kingdom), therefore it has potential to elucidate the evolution of the gene expression. However, the description of tissue sources in each entry is nearly free-formatted, and this is a big obstacle to utilizing the data in comparative studies. We developed NLP software to sort the libraries into appropriate tissue categories automatically and compiled the 16,579,439 EST entries from 26 animals, clustered by the UniGene, into the database. This database is a powerful original resource to investigate the evolution of anatomical expression pattern within the animal kingdom. 2. Reliable identification of human housekeeping genes using multiple platforms of transcriptome measurement (Ogasawara O and Okubo K) It is fundamental task for gene annotation to distinguish between housekeeping genes and tissue specific genes. Several studies had reported genome-wide inventory of housekeeping genes and statistical characterization of them, using SAGE or GeneChip data, but we found that the sensitivities of each platform were poor, and the concordance between them was very low, and the resultant housekeeping gene set was biased toward high expres- sion abundance. In order to improve the housekeeping gene identification, we tuned the parameters for in silico screening and succeeded in doubling the candidates for housekeeping genes without loss of specificity by recovering relatively weakly expressed housekeeping genes. Estimated contaminants, which comprise approximately 12%–20% of either newly and previously identified housekeeping genes, are unique to ubiquitously distributed cells. 3. Comparison of gene expression profiles amongst psoriasis, atopic dermatitis and mycosis fungoidosis inflammatory lesional skin. (Itoh K and Okubo K) To identify genes which play a causal role in pathogenesis and maintenance in psoriasis, we used BodyMapping and iAFLP approach to identify differentially expressed genes in psoriatic skin. We sequenced 3703 clones and these 3703 clones classified into1822 genes which were expressed in psoriatic lesional skin. Amongst 1822 genes, 42 = CIB-DDBJ Research Report 2005 = we surveyed genes which differentially expressed in involved or uninvolved psoriatic lesional skin compared with atopic dermatitis, mycosis fungoidosis and normal skin. We measured relative gene expression levels for 1822 genes using iAFLP method which is a RT-PCR based expression profiling method. 4. Comparison of Gene Expression Patterns between human and mice brain (Otsuji M and Okubo K) To elucidate gene expression patterns between human and mice brain, we construct 3'-directed cDNA libraries from several portions from human and mice brain. From now on, we measure gene expression levels using iAFLP method. 5. Zipf's law and human transcriptomes: an explanation with an evolutionary model (Ogasawara O and Okubo K) Detailed analysis of human gene expression data reveals several patterns of relationship between transcript frequency and abundance rank. In muscle and liver, organs composed primarily of a homogeneous population of differentiated cells, they obey Zipf's law. In cell lines, epithelial tissue and compiled transcriptome data, only high- rankers deviate from it. We propose an evolutionary process model during which expression level changes stochastically proportionally to its intensity, providing a novel interpretation of transcriptome data and of evolutionary constraints on gene expression. (Okubo K) 3. CIB-DDBJ Staff Publications in 2004 *Bold are CIB-DDBJ members. Abe T, Ikemura T, Kanaya S, Kinouchi M, Sugawara H. (2004) Novel genome informatics for unveiling hidden signatures in genome sequences: self-organizing map (SOM) of oligonucleotide frequencies. Proceedings of Information-Based Induction Sciences. 94-99. Abe T, Kanaya S, Kinouchi M, Ikemura T. (2004) Genome Informatics for Unveiling Hidden Genome Signatures. Proceedings of the Institute of Statistical Mathematics. 52:207-215. Abe T, Kanaya S, Kinouchi M, Kosaka Y, Ikemura T. (2004) Novel bioinformatics for unveiling hidden characteristics in genome sequences and searching in silico for genetic signal sequences. The 8th World Multi-Conference on Systemics, Cybernetics and Informatics. Alexopoulos H, Bottger A, Fischer S, Levin A, Wolf A, Fujisawa T, Hayakawa S, Gojobori T, Davies J, David C, Bacon J. (2004) Evolution of gap junctions: the missing link? Curr Biol. 14(20):R879-80. Andrews TD, Gojobori T. (2004) Strong positive selection and recombination drive the antigenic variation of the PilE protein of the human pathogen neisseria meningitidis. Genetics. 166(1):25-32. Ball CA, Brazma A, Causton H, Chervitz S, Edgar R, Hingamp P, Matese JC, Parkinson H, Quackenbush J, Ringwald M, Sansone SA, Sherlock G, Spellman P, Stoeckert C, Tateno Y, Taylor R, White J, Winegarden N. (2004) Submission of microarray data to public repositories. PLoS Biol. 2:1276-1277, also Microbiology. 150:35223524 and Environ Health Perspect 112:A666-A667. Epub 2004 Jan 31. Bellgard M, Ye J, Gojobori T, Appels R. (2004) The bioinformatics challenges is comparative analysis of cereal genomes - an overview. Funct Integr Genomics. 4(1):1-11. Epub 2004 Feb 10 . = CIB-DDBJ Research Report 2005 = 43 Chiba H, Michibata H, Wakimoto K, Seishima M, Kawasaki S, Okubo K, Mitsui H, Torii H, Imai Y. (2004) Cloning of a gene for a novel epithelium-specific Cytosolic Phospholipase A2,cPLA2delta, induced in Psoriatic Skin. J Biol Chem. 279(13):12890-7. Epub 2004 Jan 06 Fukuchi S, Nishikawa K. (2004) Estimation of the number of authentic orphan genes in bacterial genomes. DNA Res. 11(4), 219-231, 311-313. Hanada K, Suzuki Y, Gojobori T. (2005) A large variation in the rates of synonymous substitution for RNA viruses and its relationship to a diversity of viral infection and transmission modes. Mol Biol Evol. 21, 1074-80. Hishiki T, Ogasawara O, Tsuruoka Y, Okubo K. (2004) Indexing anatomical concepts to OMIM Clinical Synopsis using the UMLS Metathesaurus. In Silico Biol. 4:31-54. Epub 2003 Dec 28. Homma K, Kikuno RF, Nagase T, Ohara O, Nishikawa K. (2004) Alternative splice variants encoding unstable protein domains exist in the human brain. J Mol Bio. 343(5):1207-20. Hwang JS, Kobayashi C, Agata K, Ikeo K, Gojobori T. (2004) Detection of apoptosis during planarian regeneration by the expression of apoptosis-related genes and TUNEL assay. Gene. 333:15-25. Imanishi T, and another 151 authors including Suzuki Y, Fukuchi S, Barrero RA, Miyazaki S, Ikeo K, Nishikawa K, Sugawara H, Tateno Y, Okubo K, Gojobori T. (2004) Integrative annotation of 21,037 human genes validated by full-length cDNA clones. PLoS Biol. 2004 Jun;2(6):e162. Epub 2004 Apr 20. Iwama H, Gojobori T. (2004) Highly conserved upstream sequences for transcription factor genes and implications for the regulatory network. Proc Natl Acad Sci USA. 101(49):17156-61. Epub 2004 Nov 30. Kadota M, Nishigaki R, Wang CC, Toda T, Shirayoshi Y, Inoue T, Gojobori T, Ikeo K, Rogers MS, Oshimura M. (2004) Containing a single human chromosome 21 in neuronal differentiation: an in vitro model of Down syndrome. Neuroscience. 129(2):325-35. Kaimori J, Takenaka M, Okubo K.(2004) Quantification of Gene Expression in Mouse and Human Renal Proximal Tubules., Laser Capture Microdissection Methods and Protocols. In: Methods in Molecular Biology 293. Grame I. Murray and Stephanie Curran ed (Humana Press). 209-220. Kashiwagi K, Fukami-Kobayashi K, Shiba K, Nishikawa K. (2004) Construction and characterization of chimeric proteins composed of type-1 and type-2 periplasmic binding proteins MglB and ArgT. Biosci Biotechnol Biochem. 68(4):808-813 Kawai Y, Ishii Y, Arakawa K, Uemura K, Saitoh B, Nishimura J, Kitazawa H, Yamazaki Y, Tateno Y, Itoh T, Saito T. (2004) Structural and functional differences in two cyclic bacteriocins with the same sequences produced by lactobacilli. Appl Environ Microbiol. 70(5):2906-2911. Kinjo AR, Nishikawa K. (2004) Eigenvalue analysis of amino acid substitution matrices reveals a sharp transition of the mode of sequence conservation in proteins. Bioinformatics. 20(16):2504-2508. Epub 2004 May 6. Komiyama T, Ikeo K, Gojobori T. (2004) The evolutionary origin of long-crowing chicken: its evolutionary relationship with fighting cocks disclosed by the mtDNA sequence analysis. Gene. 333:91-99. Komiyama T, Ikeo K, Tateno Y, Gojobori T. (2004) Japanese domesticated chickens have been derived from Shamo, traditional fighting cocks. Mol Phylogenet Evo. 33(1):16-21. Mano S, Yasuda N, Katoh T, Tounai K, Inoko H, Imanishi T, Tamiya G, Gojobori, T. (2004) Notes on the maximum likelihood estimation of haplotype frequescies. Ann Hum Genet. 68(Pt 3):257-64. Matsumoto T, Yukawa W, Nozaki, Y, Nakashige R, Shinya M, Makino S, Yagura, M, Ikuta T, Imanishi T, Inoko H, Tamiya G, Gojobori T. (2004) Novel algorithm for automated genotyping of microsatelites. Nucleic Acids Res. 32(20):6069-77. Michibata H, Chiba H, Wakimoto K, Seishima M, Kawasaki S, Okubo K, Mitsui H, Torii H, Imai Y. (2004) Identification and characterization of a novel component of the cornified envelope, cornifelin. Biochem Biophys Res Commun. 318(4):803-13. Miyazaki S, Sugawara H, Ikeo K, Gojobori T, Tateno Y. (2004) DDBJ in the stream of various biological data. Nucleic Acids Res. 32(Database issue):D31-4. Nakamura Y, Itoh T, Matsuda H, Gojobori T. (2004) Biased biological functions of horizontally transferred genes on 44 = CIB-DDBJ Research Report 2005 = 324,653 open reading frames of 116 prokaryotic complete genomes. Nat Genet. 36(7):760-6. Epub 2004 Jun 20. Nishio H, Altaf-Ul-Amin M, Nakamura Y, Abe T, Kinouchi M, Ikemura T, Kobayashi K, Ogasawara N, Kanaya S. (2004) Gene Classification Based on Expression Profile Using BL-SOM: Suitability Assessment of Multivariate Gene Expression Data to Spherical and Plain SOM by N-Measure. The 8th World Multi-Conference on Systemics. Cybernetics and Informatics, Nishio Y, Nakamura Y, Usuda Y, Sugimoto S, Matsui, K, Kawarabayashi Y, Kikuchi H, Gojobori T, Ikeo K. (2004) Evolutionary process of the amino acids biosynthesis in Corynebacterium at the whole genome level. Mol Biol Evol. 21(9):1683-91. Epub 2004 May 26. Ogura A, Ikeo K, Gojobori T. (2004) Comparative analysis of gene expression for convergent evolution of camera eye between octopus and human. Genome Res. 14(8):1555-61. Sugawara H. (2004) Tsunami of data: Data resources and utilization. Kurtboke I. and Swings J. (ed.) Microbial Genetic Resources and Biodiscovery. 40-56/ National Library of Australia. Sugawara H, Abe T, Tanaka N, Miyazaki S. (2004) Encounter of microbiology with the data science in the phase called post-genome sequencing. Soil microorganisms. 58(2):57-67. Suzuki Y. (2004) Negative selection on neutralization epitopes of poliovirus surface proteins: implications for prediction of candidate epitopes for immunization. Gene. 328:127-133. Suzuki Y. (2004) New methods for detecting positive selection at single amino acid sites. J Mol Evol. 59(1):11-9. Suzuki Y, Nei M. (2004) False positive selection identified by ML-based methods: examples from the Sig1 gene of diatom Thalassiosira weissflogii and the tax gene of a human T-cell lymphotropic virus. Mol Bio Evol. 21(5):914921. Epub 2004 Mar 10. Suzuki Y. (2004) Three-dimensional window analysis for detecting positive selection at structural regions of proteins. Mol Biol Evol. 21(12):2352-2359. Epub 2004 Sep 08. Tateno Y, Saitou N, Okubo K, Sugawara H, Gojobori T. (2005) DDBJ in collaboration with mass-sequencing teams on annotation. Nucleic Acids Res. 33: D25-D28. Toyoda R, Kasai A, Sato S, Wada S, Saiga H, Ikeo K, Gojobori T, Numakunai T, Yamamoto H. (2004) Pigment cell lineage-specific expression activity of the ascidian tyrosinase-related gene. Gene. 332:61-69. Wang CC, Kadota M, Nishigaki ., Kazuki Y, Shirayoshi Y, Rogers MS, Gojobori T, Ikeo K, Oshimura M. (2004). Molecular hierarchy in neurons differentiated from mouse ES cells containing a single human chromosome 21. Biochem Biophys Res Commun. 314(2):335-50 Watanabe M, Kobayashi N, Shin-I T, Horiike T, Tateno Y, Kohara Y, Okada N. (2004) Extensive analysis of ORF sequences from two different cichlid species in Lake Victoria provides molecular evidence for a recent radiation event of the Victoria species flock Identity of EST sequences between Haplochromis chilotes and Haplochromis sp. "Redtailsheller". Gene. 343: 263-269. Yokomine T, Shirohzu H, Purbowasito W, Toyoda A, Iwama H, Ikeo K, Hori T, Mizuno S, Tsudzuki M, Matsuda Y, Hattori M, Sakaki Y, Sasaki H. (2005). Structural and functional analysis of a 0.5-Mb chicken region orthologous to the imprinted mammalian Ascl2/Mash2-Igf2-H19 region. Genome Res. 15(1):154-65. Epub 2004 Dec 08. * Some of the publications in Japanese are excluded. See our homepage for details. = CIB-DDBJ Research Report 2005 = 45 4. CIB-DDBJ Staff Oral Presentations in 2004 * in English only Gojobori T. Genomics Data Banks and Biotechnology/Bioinformatics. The 28th IUBS General Assembly & The IUBS Conference International Conference Biological Sciences, Development and Society (Cairo, Egypt ), January 19. Sugawara H. Culture collections face challenges and opportunities. International Symposium Towards a New Era's Microbial Resource Center (Beijing, China), February 14-17. Ikeo K. Comparative study to understand the evolution of central nervous system. Gordon Research Conference on Structural, Functional & Evolutionary Genomics. (Ventura, U.S.A.), February 17. Gojobori T. New Developments in Evolutionary Genomics. Gordon Research Conference on Structural, Functional & Evolutionary Genomics. (Ventura, U.S.A.), February 17. Kinjo R.A. Competition between protein folding and aggregation inside the cell: Studies by density functional theory. NMRS 2004 Symposium on NMR, Drug Design, and Bioinformatics. Saha Institute of Nuclear Physics (Kolkata, India), February 15-22. Gojobori T. Evolution of central nervous system from the viewpoint of gene expression. Molecular Bases of Organismal Diversity and Evolution (Kyoto), February 28. Miyazaki S, Sugawara H. Exhaustive analysis of microbial genomes by Web services and GRID. JST-BIRD International Workshop "Integrated Databases and DataGrid for Structural Biology and Molecular Biology" (Osaka), March 1-2. Tateno Y. International standardization of microarray data and our microarray database, CIBEX. A-IMBN/EMBO Workshop (Tokyo), March 20. Nishikawa K. A study of comparative genomics based on domain structures of proteins. Satellite Symposium of PRICPS2004 (Yokohama), Apr 14-17. Nishikawa K. Genome-wide compositional changes of DNA and proteins in thermophilic bacteria for adaptation to higher temperatures. The 1st Pacific-Rim International Conference on Protein Science (Yokohama), Apr 14-17. Sugawara H. Evolution of WFCC-MIRCEN World Data Centre for Microorganisms (WDCM). ISBER US Meeting 2004 (New York City, U.S.A.), May 12-15. Gojobori T. Activities of Human Full-length cDNA Annotation Project and H-Invitational Database. First ISN Special Neurochemistry Conference (Avignon, France), May 14. Sugawara H. Gene Trek in Procaryote Space powered by a GRID environment Proceedings of the First International Workshop on Life Science Grid. LSGRID2004 (Kanazawa), May 30 – June 1. Ikeo K. Molecular Evolution of Nervous system from gene expression profile. Genome & Evolution 2004: SMBE Meeting (Pennsylvania, U.S.A.), June 19. Suzuki Y. New methods for detecting positive selection at single amino acid sites. Genome & Evolution 2004: SMBE Meeting (Pennsylvania, U.S.A.), June 19. Gojobori T. Origins and evolution of the central nervous system in animals: gene expression profiles in hydra neural cells and planarian brai. Genome & Evolution 2004: SMBE Meeting (Pennsylvania, U.S.A.), June 20. Gojobori T. Greetings and overview of H-Invitational Disease Edition Project. H-Invitational Disease Editon Preparatory Meeting4 , National Institute of Advanced Industrial Science and Technology : AIST (Tokyo), June 28-29. Okubo K. Machine use of medical textbooks for establishing knowledge handling environment in functional genomics. The Third Workshop on Ontology and Genome - Development and Applications of Ontologies on OMICS Research (Gottingen, Germany), July 1-3. Gojobori T. Evolutionary implication of horizontally transferred genes that were revealed by the sequence compari- 46 = CIB-DDBJ Research Report 2005 = sons of more than 110 prokaryotic complete genomes. Structural approaches to sequence evolution: Molecules, networks, populations (Dresden, Germany), July 7-12. Barrero R.A. Evolution of mammalian microRNAs and their regulatory targets. 6th Japanese Society of Evolution (Tokyo), August 6. Gojobori T. Search for the evolutionary origin of the CNS: Comparative studies of gene expression in planarian and hydra neural cells. Origins and Evolution of The Nervous Systems (Cold Spring Harbor, U.S.A.), August 30. Gojobori T. Greetings, self introduction & overview. H-Invitational DE Jamboree, National Institute of Advanced Industrial Science and Technology : AIST (Tokyo), September 2. Tateno Y, Ikeo K, Hayashizaki Y. CIBEX and data standardization. The 7th MGED Society Meeting (Toronto, Canada), September 9-12. Abe T, Sugawara H. A Novel Bioinformatics Approach for Genome Analyses of Environmental Samples on the basis of self-organizing map (SOM). 16th International Genome Sequencing & AnalysisÅiWashington DC, USAÅj, September 27. Sugawara H. The Butterfly Effect. JSCC Award Lecture (Tsukuba), October 9-15. Gojobori T. Genome Evolution. International Lecture in Bioinformatics and Genomics in Collaboration with the Chinese Academy of Sciences and SOKENDAI (Shanghai, China), October 20. Gojobori T. New Developments of Human Full-length cDNA Annotation Invitational (H-Invitational) Data Base. The 2nd International Conference on Bioinformatics and Computational Biology (Angra dos Reis, Brazil), October 25. Ikeo K. Comparative analysis of gene expression of camera eye octopus and human. BITS2004 ("Beyond the Identification of Transcribed Sequences: Functional, Expression and Evolutionary Analysis"14th International Workshop) (Chiba), October 30. Tateno Y. DNA Data Bank of Japan and the H-Invitational. KISTI (Deajeon, Korea), November 1-5. Sugawara H. WFCC-MIRCEN World Data Centre for Microorganisms (WDCM) meets Global Biodiversity Information Facility (GBIF). 19th International CODATA Conference The Information Society: New Horizons for Science (Berlin, Germany), November 7-12. Barrero R.A. Evolution of microRNA genes and their targets. The 5th HUGO Pacific Meeting and 6th Asia-Pacific Conference on Human Genetics (Singapore, Singapore), November 16-21. Okubo K. MACHINE USE OF MEDICAL TEXTBOOKS FOR ESTABLISHING KNOWLEDGE HANDLING ENVIRONMENT IN FUNCTIONAL GENOMICS. The 5th HUGO Pacific Meeting and 6th Asia-Pacific Conference on Human Genetics (Singapore, Singapore), November.17-20. Tateno Y. Genomic evolution of MHC class I regions in primates. The 2nd Mishima Workshop (Hakone), November 25-27. Kosuge K, Okido T, Hirahata M, Shigemoto S, Miyazaki S, Abe T, Gojobori T, Sugawara S. Development of a common protocol for the prediction of microbial genes. Genome Informatics Workshop (Yokohama), December 13. = CIB-DDBJ Research Report 2005 = 47 5. CIB-DDBJ Research Staff Takashi Gojobori, Director and Professor ([email protected]) Kazuho Ikeo, Associate Professor ([email protected]) Yoshiyuki Suzuki, Assistant Professor ([email protected]) Yoshio Tateno, Professor ([email protected]) Roberto A .Barrero, Assistant Professor ([email protected]) Ken Nishikawa, Professor ([email protected]) Satoshi Fukuchi, Assistant Professor ([email protected]) Akira Kinjo, Assistant Professor ([email protected]) Hideaki Sugawara, Professor ([email protected]) Takashi Abe, Assistant Professor ([email protected]) Kosaku Okubo, Professor ([email protected]) Koichi Itoh, Assistant Professor ([email protected]) CIB-DDBJ Research Report, Vol. 8, March 2005 Center for Information Biology and DNA Data Bank of Japan National Institute of Genetics Yata 1-111, Mishima, Shizuoka 411-8540, Japan Fax: +81-55-981-6848 Home Page: http://www.cib.nig.ac.jp/ Editorial Staff: Akira Kinjo Junko Kohira 48 = CIB-DDBJ Research Report 2005 = Addresses Related to DDBJ/CIB Activities NIG mainframe computer system Large scale analysis server Vector parallel super computer NIG web server general inquiry on computers inquiry on minerva : : : : : supernig.nig.ac.jp minerva.nig.ac.jp http://www.nig.ac.jp/ [email protected] [email protected] : : : : : http://www.cib.nig.ac.jp/ http://www.ddbj.nig.ac.jp/ http://sakura.ddbj.nig.ac.jp/ ftp.ddbj.nig.ac.jp http://srs.ddbj.nig.ac.jp/ : : : : : : : : : [email protected] [email protected] [email protected] [email protected] [email protected] [email protected] [email protected] [email protected] [email protected] : : : : : : [email protected] [email protected] [email protected] [email protected] [email protected] [email protected] Network Servers DDBJ-CIB web server DDBJ web server SAKURA web server anonymous-ftp server SRS web server DDBJ E-mail Servers BLAST E-mail server CLUSTALW E-mail server FASTA E-mail server get-entry E-mail server get-version E-mail server malign E-mail server S&W SEARCH E-mail server SSEARCH E-mail server ssthread E-mail server E-mail Addresses of DDBJ general inquiry on DDBJ data submission updating submitted data inquiry on DDBJ web inquiry on SAKURA inquiry on MASS submission List of main databases in the NIG mainframe computer (supernig) Nucleotide Sequence Databases $DDBJ, $DDBJNEW : DDBJ periodical release and new data Amino Acid Sequence Databases $DAD : DDBJ amino acid database $PIR : PIR periodical release $SWISS : SWISSPROT periodical release $PRF : PRF periodical release Protein Three-Dimensional Structure Database $PDB : PDB periodical release この DDBJ/CIB reportは無料で提供しています。 情報の引用を自由に行なうことができますが,その際は DDBJ までご一報の上,引用した旨を明記して下さい。 Web 版は DDBJ の発行物オンラインをご覧下さい。 http://www.ddbj.nig.ac.jp/ddbjnew/pub-j.html DDBJ/CIB Report March 2005 編集 / 発行 日本 DNA データバンク (DDBJ) 〒 411-8540 静岡県三島市谷田 1111 大学共同利用機関法人 情報・システム研究機構 国立遺伝学研究所 生命情報・DDBJ 研究センター E-mail : [email protected] FAX : 055-981-6849 Edited and Published by DNA Data Bank of Japan (DDBJ) 1111 Yata, Mishima 411-8540, Japan Research Organization of Information and Systems National Institute of Genetics Center for Information Biology and DNA Data Bank of Japan E-mail : [email protected] FAX : +81-55-981-6849 DDBJ/CIB Report March 2005
© Copyright 2024 ExpyDoc