台東 区生涯学習センター・2003小中学生向け講座

-インターネットで世界を探検しよう!-
21日:「インターネットを知ろう」
22日:「サーチエンジンを使ってみよう」
23日:「自分自身の世界旅行を計画してみよう」
山名早人 大塚崇志
早稲田大学 理工学部 コンピュータ・ネットワーク工学科
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
1
• 山名早人(http://www.yama.info.waseda.ac.jp/~yamana/)
– 早稲田大学 理工学部 助教授
– 山口県生まれ
• 大塚崇志
•
•
•
•
•
平成5年早稲田大学大学院博士後期課程了。博士(工学)
平成5~12年通産省工業技術院電子技術総合研究所
平成11年成蹊大学大学院非常勤講師
平成12年理工学部助教授、現在に至る
サーチエンジン等の情報検索の研究に従事
– 早稲田大学大学院理工学研究科 情報科学専攻 修士2年生
– 群馬県生まれ
• 平成14年 早大 教育学部理学科数学専修 卒業
• 現在、情報検索の研究に従事
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
2
別のスライドが開きます
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
3
講義・実習の進め方
• 一日目(今日)
– インターネットを知ろう
• 講義:「インターネットとサーチエンジン-裏の技術に迫る
-」
• 実習:サーチエンジンを使って地図を検索してみよう
• 二日目(明日22日)
– サーチエンジンを使ってみよう
• 実習:
• 三日目(明後日23日)
– 自分自身の世界旅行(国内旅行)を計画してみよう
• 実習:
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
4
講義
山名 早人
早稲田大学 理工学部
http://www.yama.info.waseda.ac.jp/
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
5
1.
2.
3.
4.
5.
6.
7.
インターネットって何?
世界中にはどのくらいの情報がある?
サーチエンジンで検索できる情報量は?
サーチエンジンで何ができる?
サーチエンジンの仕組みは?
サーチエンジンが持つ課題は?
Google(グーグル)って何?
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
6
「Googleで「インターネットって何?」で検索」
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
7
インターネット
• 電話やテレビのように、生活を便利に快適にす
る情報通信(じょうほうつうしん)メディア
• 世界各国のコンピュータが網(あみ)の目のよう
につながり、日本にいながらにして時間と空間を
超え、海外の情報を手に入れたり、情報交換
(じょうほうこうかん)することができる。
• 最近はコンピュータだけでなく、車やテレビ、電
子レンジなど家電にもインターネットがつながる
ようになり、電気のように生活のあらゆるところ
で使われるようになってきている。
(総務省 情報通信白書for Kidsより引用)
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
8
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
9
コンピュータ台数とWebページ数
数える単位
→ Webページを基準にしよう!
例:生涯学習センターのWebページ
総Webページ数
=コンピュータ台数
×1台のコンピュータの平均Webページ数
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
10
コンピュータ台数
3500万台(2003/1)
4200万台(2003/8)
インターネットに接続するコンピュータ台数とWWWサーバ数の推移
Internet Software Consortium(http://www.isc.org/)のInternet
Domain
SurveyAll
及びNetcraft社(http://www.netcraft.co.uk/)のWWW
Server Surveyの公開データから作成
11
2015/9/30
(C)
2003
Rights Reserved Hayato YAMANA
Webページ数の推定
• 全世界のWebページ数
– 1997年12月:3.2億 [1]
– 1999年 2月:8億 [2]
– 2003年 8月:約78億と推定
• 各サーバ毎のページ数は、[1]では190ページ、
[2]では186ページ。
• 186ページ×4200万Webサイト[3]≒78億
[1]S.Lawrence, C.L.Giles:"Searching the World Wide Web", Science, Vol.280, No.5360, pp.98-100 (1998)
[2] S.Lawrence, C.L.Giles:"Accessibility of Information on the Web", Nature, Vol.400, pp.107-109 (1999)
[3] -: Netcraft Home Page, http://www.netcraft.co.uk/
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
12
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
13
サーチエンジンのデータ規模
約30億
(全体の約40%)
3,500,000,000
3,000,000,000
Lycos
…
2,500,000,000
2,000,000,000
1,500,000,000
Docomo AOL(’03/7)
1,000,000,000
Excite
Hotbot
AOL('02/5)
Goo
500,000,000
Yahoo! JAPAN
MSN Search
@Nifty('01/4) 0
Google
FAST
Altavista
Inktomi
Yahoo!(米)('00/6)
Biglobe('00/2)
2003年8月現在の大規模サーチエンジンのインデックス規模
Netscape('99/6)
14
(C) 2003 All Rights Reserved Hayato YAMANA
… 2015/9/30
サーチエンジンの仕組みを知ろう(総務省のページが開きます)
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
15
サーチエンジンはこんなに便利
•
•
•
•
宿題の強い味方
電車や映画などの時間や料金もすぐわかる
待ち合わせの地図がすぐに手に入る
好きな歌手やタレントの情報がたくさん見つかる
• 旅行に出かける前に、事前(じぜん)に行き先の
情報が手に入る
• などなど…
(総務省 情報通信白書 for Kidsより引用)
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
16
サーチエンジンの分類
• キーワードで検索(例:Google)
キーワードを入れるだけで、その言葉(ことば)がふくま
れているウェブページを見つけ出してくれます。
• ディレクトリーで検索(例:Yahoo! JAPAN)
分野(ぶんや)ごとに分類整理(ぶんるいせいり)されク
リックするだけで欲(ほ)しい情報にたどりつくことできま
す。
(総務省 情報通信白書 for Kidsより引用)
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
17
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
18
サーチエンジンの仕組み
Webページ
を自動的に
集める
検索語
クローラー
クローラー
クローラー
検索語受付
クローラー
検索結果
索
引
2015/9/30
並べ替え(ランキング)
一般的なサーチエンジンの仕組み
(C) 2003 All Rights Reserved Hayato YAMANA
19
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
20
検索エンジンの主な課題
• 頻繁(ひんぱん)に更新(こうしん)されるWeb
ページをどうやって効率よく集めるか
• 検索結果をいかに並べ替えるか(ランキングす
るか)
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
21
•
•
次のようなWebページとクローラ(Webページを収集する
システム)があります。
新しいWebページが検索できるようにするには、それぞれ
のWebページをどのような頻度(ひんど)で集めれば、もっ
とも効率がよいでしょう?
ページa :
ページb :
ページc :
ページd :
ページe :
1日に1回更新される
1日に2回更新される
1日に3回更新される
1日に4回更新される
1日に5回更新される
クローラ: 1日に最大5ページしか集められない
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
22
答え
•
•
•
•
•
1日に1回更新されるページは平均1.15回/日集める
1日に2回更新されるページは平均1.35回/日集める
1日に3回更新されるページは平均1.35回/日集める
1日に4回更新されるページは平均1.15回/日集める
1日に5回更新されるページは集めない
一日の
平均
収集回数
文献[10]より引用
一日の更新頻度
[10] J.Cho and H.G.Molina:"Synchronizing a database to improve freshness", Proc. of International
Conf. on Management of Data, pp.117-128 (2000)
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
23
検索結果の並べ替え
例: 全国の小学校数を知りたくて「小学校数」で検索した場合
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
24
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
25
http://www.google.co.jp/
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
26
起業(きぎょう)
• 1998年9月
– アメリカ スタンフォード大学 博士課程コース
の学生 ラリー・ページ と サルゲイ・ブリン(ロ
シア生まれ) (当時25歳) が起業
– アメリカ
カリフォルニア州
マウンテンビュー
• 従業員約1000名
(2003.8)
(内日本人の技術者
10名程度)
2015/9/30
2001.3 Photo by H.Yamana
27
(C) 2003 All Rights Reserved Hayato YAMANA
Googleの会社に入ると…
at 受付
2001.3 Photo by H.Yamana
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
28
数々の賞
Photo by H.Yamana
•
•
•
•
Time magazine 「Best Cybertech of 1999」
Time Digital magazine「Top Ten Sites 2000」でトップ。
1999 PC Magazine Technical Excellent Award
2000 Search Engine Watch Awards
– Outstanding Search Service
– Most Webmaster Friendly
• …
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
29
企業までの歴史(1)
• 学生時代
– サルゲイがデータマイニングの研究を大学でして
いたところに、ラリーが加わる。
– ラリーがWebページを対象として研究を進める。
Webデータに非常に興味を引かれ……
– 「多くのコンピュータがなければ研究が続けられな
い」というところから起業を決心。
– 2人で1.5万ドル(180万円)のお金を出し、TB(テラ
バイト)オーダーのハードディスクを購入。
– その後、ビジネスプランを2年間書き続ける。
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
30
企業までの歴史(2)
• アンディ(サン・マイクロシステムズ社の共同
設立者)との出会い
– 10万ドル(1200万円)を即決で小切手でもらう。
• 2大ベンチャー・キャピタルからの資金
– 25MUSドル(30億円)の投資(とうし)
• 他のサーチエンジンとの差別化(さべつか)
– Googleは検索というコア技術に専念(せんねん)
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
31
Googleの人物像
Googleの技術担当者
• 技術担当取締役
クレイグさん(左)
• ハーバード大卒業
後、Xeroxパルア
ルト研究所へ、現
在スタンフォード大
学で博士課程。
2001.3 Photo by H.Yamana
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
32
Googleの人物像
チーフ運用エンジニア: ジム・リーズ
• コンピュータは独学
• 医学博士
• ハーバード大学卒業 → エール
医科大学大学院 → スタン
フォード大学で神経外科専門
(3.5年) → スタンフォードSRI
International(1.5年)
• スタンフォードSRIで脳のMRI
画像を鮮明にするコンピュータ
ソフト開発に従事
• 上記のプロジェクト後、リーズ
はUNIX コンピュータのコンサ
ルタントとして病院以外で活躍
引用:http://www.interex.org/hpworldnews/hpw009/02nt.html
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
33
Googleの人物像
ジム・リーズ(その2)
• SRIを去る半年前にGoogleの検索のスピード、正確さに非
常に感動。
• Googleに履歴書を提出。
• Googleでは、神経外科からの応募に戸惑い、最初は採用
を考えていなかった。
• Googleはスタンフォード大学のツテを使ってリーズが医学
博士であることを確認した後、電話インタビューを実施。
• 2回目の面接で1時間以上にわたる激論(げきろん)の末、
ラリーと サルゲイが出した(Googleが当時直面していた)
難題に対し、リーズが解決策を示したことで無事採用決定。
• その面接の翌日からGoogleで勤務。
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
34
コンピュータ台数と収集ページ数の推移(すいい)
20億
10000
2001.4 @Niftyと提携
9000
18億
2000.12 Biglobe
と提携
8000
16億
14億
7000
2000.6 Yahoo!と提携
P 6000
C
5000
台
数
4000
2001.3 8000台
12億
10億
平均33台/日で増加
8億
1998.8 30台
3000
6億
収
集
W
e
b
ペ
ー
ジ
数
4億
2000
1000
2億
1999.6 Netscapeと提携
2015/9/30
Feb-02
Aug-01
Feb-01
Aug-00
Feb-00
Aug-99
Feb-99
Aug-98
0
(C) 2003 All Rights Reserved Hayato YAMANA
35
参考
コンピュータの構成(1)
• 19inchラック(210cmH
x 60cmW x 75cmD)
PC
に1UのPC80台を設置。
ラック前面に20台
裏面に20台
(Rackable Systemsの
技術:ラックの全面と背
2x44port Fast
Ethernet Switch 面の両方に奥行半分の
PCを設置)
PC
ラック前面に20台• 2 Fast Ethernet
裏面に20台
Switch / 筐体
• 4筐体をGigaEtherにて
接続し1クラスタを構成。
空調
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
36
参考
コンピュータの構成(2)
• PC (as of 2001.3) →現在は更新!
– RAIS(Redundant Arrays of Inexpensive
Servers)
– PentiumIII 533~800MHz
– 256~512MB RAM
– 40-80GB IDE Disk×2台 (各Diskに1
chanel)
– Intel EtherExpressPro 100 (100BaseT)
– Red Hat Linux (stripped-down version)
• (標準ディストリビューション)-(グラフィック)
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
37
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
38
検索結果の並べ替え技術
沢山ありますが……、一つ挙げるとすると:
• ページランク
(Googleが特許を持つランキングシステム)
– 考え方
• 多くの人がリンクしているページは「素晴らしい」
ページ
• 「素晴らしい」ページからリンクされているページ
は「素晴らしい」ページ
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
39
ページランク法
あるページから
別のあるページ
の推薦(すいせん)
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
40
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
41
ビジネスモデル
• 広告
– 最小限の広告
– アドワーズ広告
• 特定のWebサイトや
同一経営社の複数
Webサイトに対する検
索エンジン提供
• サーチエンジンのバッ
クエンド
2015/9/30
300社以上(as of 2002.5)
(C) 2003 All Rights Reserved Hayato YAMANA
42
Google - まとめ
• Googleは現在30億のWebページを検索
でき、規模、性能で世界一。
• 世界第2位は、ノルウェーのFast Search
社で20億ページを検索可能(オスロ工科
大学の学生が1997/7に起業)
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
43
参考資料
Google Hacks (2003.8)
Google Hacks
―プロが使うテクニック & ツール 100選
Tara Calishain, Rael Dornfest 著
山名 早人 監訳
田中 裕子 訳 2003年8月発行
本体価格2,900円
ISBN4-87311-136-6
オライリー・ジャパン発行
オーム社販売
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
44
参考資料
Googleでの検索法(1)
intitle: でタイトルに限定して検索
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
45
参考資料
Googleでの検索法(2)
• intitle:
– タイトル内の文字に限定して検索
例:
intitle:waseda
allintitle:早稲田 理工
• inurl:
– URL内の文字に限定して検索
例
inurl:faq
allinurl:faq microsoft
• inanchor:
– 2015/9/30
アンカー文字に限定して検索
(C) 2003 All Rights Reserved Hayato YAMANA
46
参考資料
Googleでの検索法(3)
• site:
– 特定のサイトに限定して検索
例
コンピュータ site:waseda.ac.jp
• link:
– バックリンクを検索
例
link:www.yama.info.waseda.ac.jp
• filetype:
– ファイル形式を指定して検索(ps,pdf,doc,xls,ppt,rtf)
例
filetype:pdf
• related:
– 関連ページを検索
例
related:www.yama.info.waseda.ac.jp
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
47
参考資料
Googleでの検索法(4)
• info:各種情報を表示
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
48
参考資料
Googleでの検索法(4)
• その他
– intext: HTML BODYに限定して検索
– cache: キャッシュを表示
– datarange: ユリウス歴で日付を指定
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
49
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
50
実習内容
①生涯学習センターを地図上で見つける
経度・緯度を確認
(以下はオプション)
②自分の家を地図上で探す
経度・緯度を確認
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
51
①生涯学習センターを地図上で見つける
1. http://www.google.co.jp/を開く
2. 検索ボックスに「日本地図」を入れて検索。
ここをクリック
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
52
①生涯学習センターを地図上で見つける
3.(財)日本地
図センターを
クリック
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
53
①生涯学習センターを地図上で見つける
4.サービスの下にある
「2万5千分1地形図
を選択
5.次の画面で「地図閲
覧システムへ」を選
択して地図(台東区)
を表示しよう
(ヒント)東京首都北西
6.生涯学習センターの
位置にマウスを移動
させクリックしよう
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
54
①生涯学習センターを地図上で見つける
7.経度・緯度が表示さ
れる。
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
55
①生涯学習センターを地図上で見つける
8.Yahoo!の地図でも探して
みよう。
http://map.yahoo.co.jp/
ここに、検索語として
「区教育研究所」
を入れて検索
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
56
①生涯学習センターを地図上で見つける
9.地図が表示される
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
57
②自分の家を地図上で見つける
(早く終わって時間がある人は
挑戦してみよう)
1.同じ手順で、2万5千分1の地図上で自分の家
の位置を確認しよう
2.同じ手順で、Yahoo!の地図で自分の家の位置を
確認しよう
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
58
宿題
• いつも不思議に思っていること、知りたい
ことを2~3つ考えてきてください。
2015/9/30
(C) 2003 All Rights Reserved Hayato YAMANA
59