-インターネットで世界を探検しよう!- 21日:「インターネットを知ろう」 22日:「サーチエンジンを使ってみよう」 23日:「自分自身の世界旅行を計画してみよう」 山名早人 大塚崇志 早稲田大学 理工学部 コンピュータ・ネットワーク工学科 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 1 • 山名早人(http://www.yama.info.waseda.ac.jp/~yamana/) – 早稲田大学 理工学部 助教授 – 山口県生まれ • 大塚崇志 • • • • • 平成5年早稲田大学大学院博士後期課程了。博士(工学) 平成5~12年通産省工業技術院電子技術総合研究所 平成11年成蹊大学大学院非常勤講師 平成12年理工学部助教授、現在に至る サーチエンジン等の情報検索の研究に従事 – 早稲田大学大学院理工学研究科 情報科学専攻 修士2年生 – 群馬県生まれ • 平成14年 早大 教育学部理学科数学専修 卒業 • 現在、情報検索の研究に従事 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 2 別のスライドが開きます 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 3 講義・実習の進め方 • 一日目(今日) – インターネットを知ろう • 講義:「インターネットとサーチエンジン-裏の技術に迫る -」 • 実習:サーチエンジンを使って地図を検索してみよう • 二日目(明日22日) – サーチエンジンを使ってみよう • 実習: • 三日目(明後日23日) – 自分自身の世界旅行(国内旅行)を計画してみよう • 実習: 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 4 講義 山名 早人 早稲田大学 理工学部 http://www.yama.info.waseda.ac.jp/ 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 5 1. 2. 3. 4. 5. 6. 7. インターネットって何? 世界中にはどのくらいの情報がある? サーチエンジンで検索できる情報量は? サーチエンジンで何ができる? サーチエンジンの仕組みは? サーチエンジンが持つ課題は? Google(グーグル)って何? 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 6 「Googleで「インターネットって何?」で検索」 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 7 インターネット • 電話やテレビのように、生活を便利に快適にす る情報通信(じょうほうつうしん)メディア • 世界各国のコンピュータが網(あみ)の目のよう につながり、日本にいながらにして時間と空間を 超え、海外の情報を手に入れたり、情報交換 (じょうほうこうかん)することができる。 • 最近はコンピュータだけでなく、車やテレビ、電 子レンジなど家電にもインターネットがつながる ようになり、電気のように生活のあらゆるところ で使われるようになってきている。 (総務省 情報通信白書for Kidsより引用) 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 8 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 9 コンピュータ台数とWebページ数 数える単位 → Webページを基準にしよう! 例:生涯学習センターのWebページ 総Webページ数 =コンピュータ台数 ×1台のコンピュータの平均Webページ数 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 10 コンピュータ台数 3500万台(2003/1) 4200万台(2003/8) インターネットに接続するコンピュータ台数とWWWサーバ数の推移 Internet Software Consortium(http://www.isc.org/)のInternet Domain SurveyAll 及びNetcraft社(http://www.netcraft.co.uk/)のWWW Server Surveyの公開データから作成 11 2015/9/30 (C) 2003 Rights Reserved Hayato YAMANA Webページ数の推定 • 全世界のWebページ数 – 1997年12月:3.2億 [1] – 1999年 2月:8億 [2] – 2003年 8月:約78億と推定 • 各サーバ毎のページ数は、[1]では190ページ、 [2]では186ページ。 • 186ページ×4200万Webサイト[3]≒78億 [1]S.Lawrence, C.L.Giles:"Searching the World Wide Web", Science, Vol.280, No.5360, pp.98-100 (1998) [2] S.Lawrence, C.L.Giles:"Accessibility of Information on the Web", Nature, Vol.400, pp.107-109 (1999) [3] -: Netcraft Home Page, http://www.netcraft.co.uk/ 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 12 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 13 サーチエンジンのデータ規模 約30億 (全体の約40%) 3,500,000,000 3,000,000,000 Lycos … 2,500,000,000 2,000,000,000 1,500,000,000 Docomo AOL(’03/7) 1,000,000,000 Excite Hotbot AOL('02/5) Goo 500,000,000 Yahoo! JAPAN MSN Search @Nifty('01/4) 0 Google FAST Altavista Inktomi Yahoo!(米)('00/6) Biglobe('00/2) 2003年8月現在の大規模サーチエンジンのインデックス規模 Netscape('99/6) 14 (C) 2003 All Rights Reserved Hayato YAMANA … 2015/9/30 サーチエンジンの仕組みを知ろう(総務省のページが開きます) 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 15 サーチエンジンはこんなに便利 • • • • 宿題の強い味方 電車や映画などの時間や料金もすぐわかる 待ち合わせの地図がすぐに手に入る 好きな歌手やタレントの情報がたくさん見つかる • 旅行に出かける前に、事前(じぜん)に行き先の 情報が手に入る • などなど… (総務省 情報通信白書 for Kidsより引用) 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 16 サーチエンジンの分類 • キーワードで検索(例:Google) キーワードを入れるだけで、その言葉(ことば)がふくま れているウェブページを見つけ出してくれます。 • ディレクトリーで検索(例:Yahoo! JAPAN) 分野(ぶんや)ごとに分類整理(ぶんるいせいり)されク リックするだけで欲(ほ)しい情報にたどりつくことできま す。 (総務省 情報通信白書 for Kidsより引用) 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 17 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 18 サーチエンジンの仕組み Webページ を自動的に 集める 検索語 クローラー クローラー クローラー 検索語受付 クローラー 検索結果 索 引 2015/9/30 並べ替え(ランキング) 一般的なサーチエンジンの仕組み (C) 2003 All Rights Reserved Hayato YAMANA 19 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 20 検索エンジンの主な課題 • 頻繁(ひんぱん)に更新(こうしん)されるWeb ページをどうやって効率よく集めるか • 検索結果をいかに並べ替えるか(ランキングす るか) 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 21 • • 次のようなWebページとクローラ(Webページを収集する システム)があります。 新しいWebページが検索できるようにするには、それぞれ のWebページをどのような頻度(ひんど)で集めれば、もっ とも効率がよいでしょう? ページa : ページb : ページc : ページd : ページe : 1日に1回更新される 1日に2回更新される 1日に3回更新される 1日に4回更新される 1日に5回更新される クローラ: 1日に最大5ページしか集められない 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 22 答え • • • • • 1日に1回更新されるページは平均1.15回/日集める 1日に2回更新されるページは平均1.35回/日集める 1日に3回更新されるページは平均1.35回/日集める 1日に4回更新されるページは平均1.15回/日集める 1日に5回更新されるページは集めない 一日の 平均 収集回数 文献[10]より引用 一日の更新頻度 [10] J.Cho and H.G.Molina:"Synchronizing a database to improve freshness", Proc. of International Conf. on Management of Data, pp.117-128 (2000) 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 23 検索結果の並べ替え 例: 全国の小学校数を知りたくて「小学校数」で検索した場合 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 24 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 25 http://www.google.co.jp/ 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 26 起業(きぎょう) • 1998年9月 – アメリカ スタンフォード大学 博士課程コース の学生 ラリー・ページ と サルゲイ・ブリン(ロ シア生まれ) (当時25歳) が起業 – アメリカ カリフォルニア州 マウンテンビュー • 従業員約1000名 (2003.8) (内日本人の技術者 10名程度) 2015/9/30 2001.3 Photo by H.Yamana 27 (C) 2003 All Rights Reserved Hayato YAMANA Googleの会社に入ると… at 受付 2001.3 Photo by H.Yamana 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 28 数々の賞 Photo by H.Yamana • • • • Time magazine 「Best Cybertech of 1999」 Time Digital magazine「Top Ten Sites 2000」でトップ。 1999 PC Magazine Technical Excellent Award 2000 Search Engine Watch Awards – Outstanding Search Service – Most Webmaster Friendly • … 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 29 企業までの歴史(1) • 学生時代 – サルゲイがデータマイニングの研究を大学でして いたところに、ラリーが加わる。 – ラリーがWebページを対象として研究を進める。 Webデータに非常に興味を引かれ…… – 「多くのコンピュータがなければ研究が続けられな い」というところから起業を決心。 – 2人で1.5万ドル(180万円)のお金を出し、TB(テラ バイト)オーダーのハードディスクを購入。 – その後、ビジネスプランを2年間書き続ける。 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 30 企業までの歴史(2) • アンディ(サン・マイクロシステムズ社の共同 設立者)との出会い – 10万ドル(1200万円)を即決で小切手でもらう。 • 2大ベンチャー・キャピタルからの資金 – 25MUSドル(30億円)の投資(とうし) • 他のサーチエンジンとの差別化(さべつか) – Googleは検索というコア技術に専念(せんねん) 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 31 Googleの人物像 Googleの技術担当者 • 技術担当取締役 クレイグさん(左) • ハーバード大卒業 後、Xeroxパルア ルト研究所へ、現 在スタンフォード大 学で博士課程。 2001.3 Photo by H.Yamana 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 32 Googleの人物像 チーフ運用エンジニア: ジム・リーズ • コンピュータは独学 • 医学博士 • ハーバード大学卒業 → エール 医科大学大学院 → スタン フォード大学で神経外科専門 (3.5年) → スタンフォードSRI International(1.5年) • スタンフォードSRIで脳のMRI 画像を鮮明にするコンピュータ ソフト開発に従事 • 上記のプロジェクト後、リーズ はUNIX コンピュータのコンサ ルタントとして病院以外で活躍 引用:http://www.interex.org/hpworldnews/hpw009/02nt.html 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 33 Googleの人物像 ジム・リーズ(その2) • SRIを去る半年前にGoogleの検索のスピード、正確さに非 常に感動。 • Googleに履歴書を提出。 • Googleでは、神経外科からの応募に戸惑い、最初は採用 を考えていなかった。 • Googleはスタンフォード大学のツテを使ってリーズが医学 博士であることを確認した後、電話インタビューを実施。 • 2回目の面接で1時間以上にわたる激論(げきろん)の末、 ラリーと サルゲイが出した(Googleが当時直面していた) 難題に対し、リーズが解決策を示したことで無事採用決定。 • その面接の翌日からGoogleで勤務。 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 34 コンピュータ台数と収集ページ数の推移(すいい) 20億 10000 2001.4 @Niftyと提携 9000 18億 2000.12 Biglobe と提携 8000 16億 14億 7000 2000.6 Yahoo!と提携 P 6000 C 5000 台 数 4000 2001.3 8000台 12億 10億 平均33台/日で増加 8億 1998.8 30台 3000 6億 収 集 W e b ペ ー ジ 数 4億 2000 1000 2億 1999.6 Netscapeと提携 2015/9/30 Feb-02 Aug-01 Feb-01 Aug-00 Feb-00 Aug-99 Feb-99 Aug-98 0 (C) 2003 All Rights Reserved Hayato YAMANA 35 参考 コンピュータの構成(1) • 19inchラック(210cmH x 60cmW x 75cmD) PC に1UのPC80台を設置。 ラック前面に20台 裏面に20台 (Rackable Systemsの 技術:ラックの全面と背 2x44port Fast Ethernet Switch 面の両方に奥行半分の PCを設置) PC ラック前面に20台• 2 Fast Ethernet 裏面に20台 Switch / 筐体 • 4筐体をGigaEtherにて 接続し1クラスタを構成。 空調 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 36 参考 コンピュータの構成(2) • PC (as of 2001.3) →現在は更新! – RAIS(Redundant Arrays of Inexpensive Servers) – PentiumIII 533~800MHz – 256~512MB RAM – 40-80GB IDE Disk×2台 (各Diskに1 chanel) – Intel EtherExpressPro 100 (100BaseT) – Red Hat Linux (stripped-down version) • (標準ディストリビューション)-(グラフィック) 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 37 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 38 検索結果の並べ替え技術 沢山ありますが……、一つ挙げるとすると: • ページランク (Googleが特許を持つランキングシステム) – 考え方 • 多くの人がリンクしているページは「素晴らしい」 ページ • 「素晴らしい」ページからリンクされているページ は「素晴らしい」ページ 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 39 ページランク法 あるページから 別のあるページ の推薦(すいせん) 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 40 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 41 ビジネスモデル • 広告 – 最小限の広告 – アドワーズ広告 • 特定のWebサイトや 同一経営社の複数 Webサイトに対する検 索エンジン提供 • サーチエンジンのバッ クエンド 2015/9/30 300社以上(as of 2002.5) (C) 2003 All Rights Reserved Hayato YAMANA 42 Google - まとめ • Googleは現在30億のWebページを検索 でき、規模、性能で世界一。 • 世界第2位は、ノルウェーのFast Search 社で20億ページを検索可能(オスロ工科 大学の学生が1997/7に起業) 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 43 参考資料 Google Hacks (2003.8) Google Hacks ―プロが使うテクニック & ツール 100選 Tara Calishain, Rael Dornfest 著 山名 早人 監訳 田中 裕子 訳 2003年8月発行 本体価格2,900円 ISBN4-87311-136-6 オライリー・ジャパン発行 オーム社販売 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 44 参考資料 Googleでの検索法(1) intitle: でタイトルに限定して検索 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 45 参考資料 Googleでの検索法(2) • intitle: – タイトル内の文字に限定して検索 例: intitle:waseda allintitle:早稲田 理工 • inurl: – URL内の文字に限定して検索 例 inurl:faq allinurl:faq microsoft • inanchor: – 2015/9/30 アンカー文字に限定して検索 (C) 2003 All Rights Reserved Hayato YAMANA 46 参考資料 Googleでの検索法(3) • site: – 特定のサイトに限定して検索 例 コンピュータ site:waseda.ac.jp • link: – バックリンクを検索 例 link:www.yama.info.waseda.ac.jp • filetype: – ファイル形式を指定して検索(ps,pdf,doc,xls,ppt,rtf) 例 filetype:pdf • related: – 関連ページを検索 例 related:www.yama.info.waseda.ac.jp 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 47 参考資料 Googleでの検索法(4) • info:各種情報を表示 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 48 参考資料 Googleでの検索法(4) • その他 – intext: HTML BODYに限定して検索 – cache: キャッシュを表示 – datarange: ユリウス歴で日付を指定 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 49 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 50 実習内容 ①生涯学習センターを地図上で見つける 経度・緯度を確認 (以下はオプション) ②自分の家を地図上で探す 経度・緯度を確認 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 51 ①生涯学習センターを地図上で見つける 1. http://www.google.co.jp/を開く 2. 検索ボックスに「日本地図」を入れて検索。 ここをクリック 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 52 ①生涯学習センターを地図上で見つける 3.(財)日本地 図センターを クリック 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 53 ①生涯学習センターを地図上で見つける 4.サービスの下にある 「2万5千分1地形図 を選択 5.次の画面で「地図閲 覧システムへ」を選 択して地図(台東区) を表示しよう (ヒント)東京首都北西 6.生涯学習センターの 位置にマウスを移動 させクリックしよう 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 54 ①生涯学習センターを地図上で見つける 7.経度・緯度が表示さ れる。 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 55 ①生涯学習センターを地図上で見つける 8.Yahoo!の地図でも探して みよう。 http://map.yahoo.co.jp/ ここに、検索語として 「区教育研究所」 を入れて検索 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 56 ①生涯学習センターを地図上で見つける 9.地図が表示される 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 57 ②自分の家を地図上で見つける (早く終わって時間がある人は 挑戦してみよう) 1.同じ手順で、2万5千分1の地図上で自分の家 の位置を確認しよう 2.同じ手順で、Yahoo!の地図で自分の家の位置を 確認しよう 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 58 宿題 • いつも不思議に思っていること、知りたい ことを2~3つ考えてきてください。 2015/9/30 (C) 2003 All Rights Reserved Hayato YAMANA 59
© Copyright 2024 ExpyDoc