人間とコンピュータ インターネット検索

11月24日
インターネット検索の応用

ロボット型検索エンジンの使い方



ロボット型検索エンジンの仕組み




goo
Google
スパイダ
インデクサ
ランキングアルゴリズム
全文検索エンジン Namazu
ロボット型検索エンジンの使い方




目的のページの作成者はどんな単語を使
うかを想像する
検索エンジンの表示順位を想像する
見つからなかったら同義語で検索する
AND OR NOT検索をする



コアラ AND 動物
コアラ OR koala
コアラ –ネット -ADSL
一度検索して見つからなかったら

同義語で検索する

シソーラス検索


用語辞典


http://www.gengokk.co.jp/thesaurus/
http://e-words.jp/ IT用語辞典
検索されたページを読んで使えそうな専門用語
を見つけ,その専門用語で検索する
gooで検索してみよう
http://www.goo.ne.jp


画像,カテゴリー,タウンページ,ケータイ
検索オプションを使う



教えて!goo



いろいろな検索オプションを使う
http://search.goo.ne.jp/advanced.jsp
みんなの疑問、みんなで解決!
ブログの検索
キャッシュページを見てみる

Webサーバーが一時的に利用できない場合や頻繁に書き換
えを行っているWebページを見るときに便利
Googleで検索してみよう
http://www.google.co.jp

I’m Feeling Luckyを使う


検索オプションを使う



検索結果の関連ページリンク
キャッシュページを見てみる


いろいろな検索オプションを使う
関連ページを検索する


会社のホームページを見る
Webサーバーが一時的に利用できない場合や頻繁に書き換
えを行っているWebページを見るときに便利
分野を絞って検索する
その他

荷物検索,会社情報検索,株価検索,辞書検索,路線検索
ロボット型検索エンジンの仕組み
1.
スパイダ(ロボット)と呼ばれる自動プログラムを使って
Webサイトのページをダウンロードする
2.
インデクサと呼ばれる自動プログラムでページの可視部
分を抽出し,キーワード,タイトル,リンク,などの重要な
情報を用いてページ解析する.
3.
データベースにWebサイトの解析結果を追加し,ユーザ
が検索可能な状態にする.ランキングアルゴリズムによ
り,検索結果の順位が決定される
スパイダ


ウェブ上のリンクをたどって情報を収集すること
ウェブ(蜘蛛の巣)のリンク(糸)をたどって目的
の情報(獲物)を捕らえる → スパイダ(蜘蛛)
インデクサ


検索したいコンテンツをあらかじめ検索し
やすい形のファイルに変換するプログラム
各コンテンツを形態素解析技術を用いて
単語を分解し,それらの単語をインデック
スファイルに記録する
形態素解析


(インデクサ)
形態素 = 意味を担う最小の言語要素
形態素解析

単語の出現形から原形を求める処理(英語など)




solving → solve + ing (進行形)
easier → easy + er (比較級)
problems → problem + s (複数)
単語分割と語の活用(日本語など)



日本的 → 日本 + 的
言語モデル → 言語 + モデル
使い込む → 使う + 込む
形態素解析の手法




(インデクサ)
最長一致法
分割数最小法
例:畜産物価格安定法
畜産物|価格|安定|法
最長一致法



(インデクサ)
文字列の先頭から解析を始め,後続する可能性
がある単語が複数あるときは,最長の単語を選
択して先に進む
○ (8) 畜産物|価格|安定|法
× (4) 畜産
価
安
分割数最小法





(インデクサ)
入力文字列を構成する単語の総数が最小
になる解釈を優先する方法
例:言語学入門講座
○ (3) 言語学|入門|講座
× (4) 言語|学|入門|講座
× (4) 言語学|入|門|講座
ランキングアルゴリズム
Googleの中身(ちょっとだけ)

Googleの検索結果の順位付け



如何にすれば自分の作ったページを高順位に表示さ
せられるか.
Googleは何を基準に検索結果を順位付けしている
のか
PageRankとその他のランキングアルゴリズム
キーワード(検索語)の埋め込み
方(Googleに好かれるには)

キーワード : w が入力された時,検索結果の上位
に表示されるためには

キーワード w を







Webページのタイトル内に使う
イメージファイル名,ALT属性,title属性に使う
大きな字で表示する
トップページからのリンクで使用する
別のサイトや内部サイトへのリンクテキストで使用する
メジャーなサイトへのリンクで使用する
などなど
キーワード(検索語)の埋め込み方
(Googleに好かれるには) 続き





last modified(最終更新日)ヘッダを使う
HTMLの構文誤りのないWebページを作る
1つのファイルのサイズを大きくしない(20kバイト以
下)
HTMLファイル中のテキストの比率を高くする
などなど
PageRank

学術論文の重要度


他の研究論文から何度引用されているかによって評
価できる
Webページの重要度

他のWebページからのハイパーリンクの数で評価で
きる
PageRankの式
PR(T 1)
PR(Tn)
PR( A)  (1  d )  d (

)
C (T 1)
C (Tn)
PR( A) : ページ Aの PageRank
PR(T 1) : ページ T 1の PageRank
C (T 1) : ページ T 1から外に向けられるリ
ンクの数
d : 制動係数 (0  d  1)通常0.85
WebページAのPageRankはWebページAにリンクしている
各ページのPageRankを,それぞれのページからの外向き
リンク数で割った値の総和
PageRankの図1
ハイパーリンク
ハイパーリンク
A
ページBの方がページAよりも重要なページ
B
PageRankの図2
ハイパーリンク
たくさんの
ハイパーリンク
外部リンクを
持つページ
A
ページBの方がページAよりも重要なページ
B
個人で手軽に使える検索システム
Namazu



URL: http://www.namazu.org
自分の管理しているWebサイト内の検索
例:
http://ir.cs.yamanashi.ac.jp/~ysuzuki
最後に
インターネット検索での注意

Webに書いてあることを鵜呑みにしない




検索結果をいくつか読んでみる
できれば他のメディアでも確認する
いろいろな検索サイトで検索を試してみる
検索サイトの「使い方」のページをよく読む

検索方法が頻繁に改良されているので,たま
には読み直す
授業資料
http://ir.cs.yamanashi.ac.jp/~ysuzuki/man-machine.html
参考にした文献
 インターネット 最強の検索術 関裕司著 リブロス刊
 検索の鉄人/関裕司



http://www.shikencho.com/
GOOGLE HACKS オライリー・ジャパン
SPIDERING HACKS オライリー・ジャパン
レポート

ロボット型の検索エンジン(Google,gooなど)を使って検
索してください.





検索して調べたいことを明確に書く
利用したキーワード,検索オプションを書く
目的のページのURLとその表示順位を書く
授業の前と後でインターネット検索についての考え方に
変化はありましたか.あればどのように変化したか書い
てください.なければ検索の方法について書いてください.
授業の感想を書いてください(悪く書いても減点はしませ
ん)
レポート(提出期限,提出方法)


提出期限 12月01日17:00
提出方法

Email



[email protected] 宛て
Subjectは人間とコンピュータ レポート
レポート用紙

A3号館5階K514号室の前のレポート入れ