2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研) 北海道大学工学部 情報エレクトロニクス学科 コンピュータサイエンス・コース 3年ゼミナール紹介 情報知識ネットワーク 有村・喜田研究室 {arim,kida}@ist.hokudai.ac.jp ex. 7678, 7679 研究室ホームページ http://www-ikn.ist.hokudai.ac.jp/ 1 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 紹介: 情報知識ネットワーク研究室 (有村・喜田 研) 研究テーマ: 情報検索とデータマイニング 教官: 有村博紀 教授,喜田拓也 助教授 研究協力者: 宇野毅明,佐藤健(国立情報学研究所), 湊 真一,トーマス・ツォイグマン(北大大学院情報科学研究科) 坂本比呂志,下薗真一(九工大), 北大情報科学CS専攻知識ソフトウェア科学講座メンバーとも研究交流 2 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 有村博紀 専門: データマイニング 情報検索(とくに全文テキスト索引) 計算学習理論(機械学習) 興味があること 膨大なデータから,人間に役立つ情報と知識を とりだすこと 高速なアルゴリズム(プログラム)を設計すること 最近面白かったこと 企業の人たちと一緒に,ソフトウェア開発をしたこと. 3 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 データマイニング・エンジンの開発 ウェブやHTML,テキストデータなどのグラフデータから 特徴的なパターンを高速に取り出す. 情報検索や日本語テキスト処理,画像データ処理に役立つ. AWAP: Fast Text Mining Engine (1997-2002) FREQT: Fast XML and Tree-like Data Miner (SDM'02) A collection of trees OPTT: Optimized Pattern Disocvery Frequent Patterns with s = 50 % Mining (PKDD'02) StreamT: Online XML Stream Miner (IEEE ICDM'02) UnoT: Unordered Tree Miner (Discovery Science'03) (with 浅井達哉君@現・富士通研,安部賢治君@現・シャープ,宇野毅明先生@NII,中野眞一先生@群馬大,) 4 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 AWAP: Fast Text Mining Engine (1997-2002) HONDA vs. SOFTBANK HONDA vs. TOYOTA HONDA vs. SOFTBANK Rank Other 0 0 1 1 2って 33 3 >350 4 どんな会社だろう? >350 5 >350 6 5 7 >350 8 2 9 24 10 108 11 じゃなくて, 4 12 6 に出ているもの 13 >350 14 19 はなにかな? 15 3 16 28 17 >350 18 >350 19 >350 ホンダ ソフトバンク ホンダ Pattern HONDA vs. TOYOTA Rank Other Pattern 0 0 <honda > 1 1 <prelude > 2 8 <vtec > 3 15 <si > 4 11 <bike > 5 6 <99 > 6 12 <motorcycle > 7 25 <the honda > 8 41 <prelude si > 9 20 <civic > 10 35 <honda prelude > 11 48 <98 > 12 53 <valkyrie > 13 60 <99 time > じゃなくて, 14 37 <honda s > 15 36 <rims > に出ているもの 16 40 <looking > 17 30 <looking for > はなにかな? 18 67 <scooters > 19 14 <black > <honda > <prelude > <i > <car > <parts > <engine > <99 > <rear > <vtec > <exhaust > <miles > <bike > <motorcycle > <racing > トヨタ <black > <si > ホンダ <me > <tires > <fuel > <my > 5 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 喜田拓也 専門: 情報検索(特に文字列照合) テキスト・アルゴリズム データ圧縮 興味があること 巧妙なアルゴリズムを知るor設計すること 効率よく情報を検索するためにコンピュータが できること 最近面白かったこと 国際会議でイタリアへ行ったこと. 6 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 圧縮データに対する文字列照合 テキスト データ 文字列照合 アルゴリズム 転送 二次記憶装置上 主記憶装置上 圧縮テキスト 復号 転送 二次記憶装置上 文字列照合 アルゴリズム 主記憶装置上 主記憶装置上 圧縮テキスト 転送 二次記憶装置上 主記憶装置上 圧縮文字列照合 アルゴリズム 7 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 実験結果(非圧縮テキスト上のアルゴリズムとの対比) CPU時間(秒) 0.8 0.7 AlphaStation XP1000 (Alpha21264: 667MHz) Tru64 UNIX V4.0F 0.6 Medline(英文テキスト) 60.3Mbyte 0.5 非圧縮テキストをKMPで照合 0.4 BPE圧縮テキストに対する照合 0.3 非圧縮テキストをAgrepで照合 0.2 BPE圧縮テキストに対する Boyer-Moore型のアルゴリズム を用いた照合(Shibataら[2000]) 0.1 0.0 5 10 15 20 25 パタンの長さ 30 * BPEはByte Pair Encoding圧縮法 * KMPはKnuth-Morris-Pratt法 * AgrepはWu&Manberが開発した検索ツール (with 柴田裕介君@現・NTTコムウェア, 松本徹也君@現・NTTドコモ, 竹田正幸先生@九大,篠原歩先生@九大) 8 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 3年生ゼミナール ゼミナール 英語または日本語の資料を読む わかったことを他のひとに説明する 新しい考え/方法を作る プログラムを作る/実験する これは今回は見送り 日本語または英語で書く 大学の残りの2年間でしてほしいこと* 興味があること/やりたいことをみつける 何でもいいから,集中して基礎的な勉強をしてみる (20代前半に) 9 *)大学院の2年間で身につけてほしいことでもあります. 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 H16年の例 3年生ゼミナール: テキスト 英語の教科書 "Managing Gigabytes" (ギガバイトを征服!) 著者: Ian H. Witten, Alistair Moffat, Timothy C. Bell, Morgan Kaufmann Publishers, 1999. ウェブサーチ・エンジンを作るための 現在唯一の教科書 テキストと画像の圧縮 テキスト索引の実装 問合せの実現 ManagingGygabyte site: http://www.cs.mu.oz.au/mg/ 写真略 Ian Witten先生 ワイカト大学, NZ 写真略 Alistair Moffat先生 メルボルン大学, AU 10 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 3年生ゼミナール: ゼミで直接まなぶこと 情報検索の基礎技術 データ圧縮の技術 ウェブ検索エンジンのしくみ 情報工学として アルゴリズムとデータ構造の 議論に慣れる 情報理論と統計の実際をしる 工学(engineering)の感覚 読む・話す・聞く・作る 11 情報知識ネットーワーク 研究室紹介(有村・喜田研) 2005/10/06 3年生ゼミナール オプション(希望者があれば) プログラム作成 複数パターン照合機械 (情報検索) ハフマンor LZ圧縮プログラム (テキスト圧縮) アイテム集合発見プログラム (データマイニング) コンテスト??? 12 2005/10/06 情報知識ネットーワーク 研究室紹介(有村・喜田研) おまちしています 情報知識ネットワーク 有村・喜田研究室 {arim,kida}@ist.hokudai.ac.jp ex. 7678, 7679 研究室ホームページ http://www-ikn.ist.hokudai.ac.jp/ 13
© Copyright 2024 ExpyDoc