検索の話 - 地球惑星科学科

けんさくのおはなし
北海道大学理学部地球科学科地球物理学
惑星物理学研究室 B4
加藤 学
もくじ



そのいち 世界は検索で満ちている、という
おはなし
そのに 検索エンジンはどうやって検索して
いるのだろう、というおはなし
そのさん コンピュータ将棋とボナンザのお
はなし(都合により割愛)
検索……書物・カードなどから、必要な事柄を
探し出すこと。「索引があるので―するのに
便利だ」(goo辞書より)
世界は検索で満ちている







皆さんはきっと、昨日も今日も明日も、来年
の今頃も検索をしているはず
フォルダ内検索を使って検索
図書館へ行って蔵書検索
アマゾンで欲しい商品があるので検索
Wikipedia で調べたいことがあるので検索
Youtube で見たい動画を検索
レポートが終わらないので、どこか丸ごとコ
ピペできるウェブサイトはないかと検索(非
推奨)
直接検索と間接検索

直接検索
- データそのものを直接計算アルゴリズ
ムで処理する

間接検索
- 収集したデータからメタデータを抽出
して、入力された内容とメタデータを比較す
る
検索エンジンのしくみ



ウェブページを大量に収集したデータベース
内を検索
検索語を入力するたびに検索エンジンがウェ
ブページを飛び回るわけではない
おおまかに、ディレクトリ型とロボット型が
ある
ディレクトリ型とロボット型

ディレクトリ型

- 基本的にはウェブページの運営者が自
ら検索エンジンに登録申請をする
ロボット型

- ロボットがリンクからリンクへとウェ
ブページをたどって、かたっぱしから情報を
集めていく
Google はロボット型、Yahoo! はロボット型と
ディレクトリ型を併用
検索エンジンで検索する





例えば何かごくありふれた単語を検索窓に打
ち込んで、えいっとEnterボタンを押す
その結果、もし10,000,000件という検索結果
が出てきたら、まず間違いなく、全部は見な
い
普通は1件目から順に見ていき、適当なとこ
ろで見るのをやめる
ということは、最初に表示されるウェブサイ
トが、たくさん見てもらえる
ん? じゃあ、検索エンジンってどういう風
にして表示する順番を決めているのだろう?
続・検索エンジンで検索する



検索エンジンにとって、検索結果の表示順は
一番肝心なところ
一番肝心なので、アルゴリズムは非公開
Google は一部に限り公開
PageRank





ウェブページの重要度をはかるアルゴリズム
で、Google が取り入れている
たくさんリンクされているページは、重要
たくさんリンクされているページからリンク
されているページは、重要
あまりに乱発されているリンクには、価値が
ない
ページランクを調べられるウェブサイトがあ
る
まとめ


検索エンジンの検索結果は例えば企業におい
ては業績に大きく関わってくる
すぐれたアルゴリズムを構築することが大切
参考文献

Wikipedia
http://ja.wikipedia.org/

RAK2ホームページ作成
http://www.430.jp/rak/howtohp/search.html

Google PageRank Checker
http://pagerank.bookstudio.com/