11月24日 インターネット検索の応用 ロボット型検索エンジンの使い方 ロボット型検索エンジンの仕組み goo Google スパイダ インデクサ ランキングアルゴリズム 全文検索エンジン Namazu ロボット型検索エンジンの使い方 目的のページの作成者はどんな単語を使 うかを想像する 検索エンジンの表示順位を想像する 見つからなかったら同義語で検索する AND OR NOT検索をする コアラ AND 動物 コアラ OR koala コアラ –ネット -ADSL 一度検索して見つからなかったら 同義語で検索する シソーラス検索 用語辞典 http://www.gengokk.co.jp/thesaurus/ http://e-words.jp/ IT用語辞典 検索されたページを読んで使えそうな専門用語 を見つけ,その専門用語で検索する gooで検索してみよう http://www.goo.ne.jp 画像,カテゴリー,タウンページ,ケータイ 検索オプションを使う 教えて!goo いろいろな検索オプションを使う http://search.goo.ne.jp/advanced.jsp みんなの疑問、みんなで解決! ブログの検索 キャッシュページを見てみる Webサーバーが一時的に利用できない場合や頻繁に書き換 えを行っているWebページを見るときに便利 Googleで検索してみよう http://www.google.co.jp I’m Feeling Luckyを使う 検索オプションを使う 検索結果の関連ページリンク キャッシュページを見てみる いろいろな検索オプションを使う 関連ページを検索する 会社のホームページを見る Webサーバーが一時的に利用できない場合や頻繁に書き換 えを行っているWebページを見るときに便利 分野を絞って検索する その他 荷物検索,会社情報検索,株価検索,辞書検索,路線検索 ロボット型検索エンジンの仕組み 1. スパイダ(ロボット)と呼ばれる自動プログラムを使って Webサイトのページをダウンロードする 2. インデクサと呼ばれる自動プログラムでページの可視部 分を抽出し,キーワード,タイトル,リンク,などの重要な 情報を用いてページ解析する. 3. データベースにWebサイトの解析結果を追加し,ユーザ が検索可能な状態にする.ランキングアルゴリズムによ り,検索結果の順位が決定される スパイダ ウェブ上のリンクをたどって情報を収集すること ウェブ(蜘蛛の巣)のリンク(糸)をたどって目的 の情報(獲物)を捕らえる → スパイダ(蜘蛛) インデクサ 検索したいコンテンツをあらかじめ検索し やすい形のファイルに変換するプログラム 各コンテンツを形態素解析技術を用いて 単語を分解し,それらの単語をインデック スファイルに記録する 形態素解析 (インデクサ) 形態素 = 意味を担う最小の言語要素 形態素解析 単語の出現形から原形を求める処理(英語など) solving → solve + ing (進行形) easier → easy + er (比較級) problems → problem + s (複数) 単語分割と語の活用(日本語など) 日本的 → 日本 + 的 言語モデル → 言語 + モデル 使い込む → 使う + 込む 形態素解析の手法 (インデクサ) 最長一致法 分割数最小法 例:畜産物価格安定法 畜産物|価格|安定|法 最長一致法 (インデクサ) 文字列の先頭から解析を始め,後続する可能性 がある単語が複数あるときは,最長の単語を選 択して先に進む ○ (8) 畜産物|価格|安定|法 × (4) 畜産 価 安 分割数最小法 (インデクサ) 入力文字列を構成する単語の総数が最小 になる解釈を優先する方法 例:言語学入門講座 ○ (3) 言語学|入門|講座 × (4) 言語|学|入門|講座 × (4) 言語学|入|門|講座 ランキングアルゴリズム Googleの中身(ちょっとだけ) Googleの検索結果の順位付け 如何にすれば自分の作ったページを高順位に表示さ せられるか. Googleは何を基準に検索結果を順位付けしている のか PageRankとその他のランキングアルゴリズム キーワード(検索語)の埋め込み 方(Googleに好かれるには) キーワード : w が入力された時,検索結果の上位 に表示されるためには キーワード w を Webページのタイトル内に使う イメージファイル名,ALT属性,title属性に使う 大きな字で表示する トップページからのリンクで使用する 別のサイトや内部サイトへのリンクテキストで使用する メジャーなサイトへのリンクで使用する などなど キーワード(検索語)の埋め込み方 (Googleに好かれるには) 続き last modified(最終更新日)ヘッダを使う HTMLの構文誤りのないWebページを作る 1つのファイルのサイズを大きくしない(20kバイト以 下) HTMLファイル中のテキストの比率を高くする などなど PageRank 学術論文の重要度 他の研究論文から何度引用されているかによって評 価できる Webページの重要度 他のWebページからのハイパーリンクの数で評価で きる PageRankの式 PR(T 1) PR(Tn) PR( A) (1 d ) d ( ) C (T 1) C (Tn) PR( A) : ページ Aの PageRank PR(T 1) : ページ T 1の PageRank C (T 1) : ページ T 1から外に向けられるリ ンクの数 d : 制動係数 (0 d 1)通常0.85 WebページAのPageRankはWebページAにリンクしている 各ページのPageRankを,それぞれのページからの外向き リンク数で割った値の総和 PageRankの図1 ハイパーリンク ハイパーリンク A ページBの方がページAよりも重要なページ B PageRankの図2 ハイパーリンク たくさんの ハイパーリンク 外部リンクを 持つページ A ページBの方がページAよりも重要なページ B 個人で手軽に使える検索システム Namazu URL: http://www.namazu.org 自分の管理しているWebサイト内の検索 例: http://ir.cs.yamanashi.ac.jp/~ysuzuki 最後に インターネット検索での注意 Webに書いてあることを鵜呑みにしない 検索結果をいくつか読んでみる できれば他のメディアでも確認する いろいろな検索サイトで検索を試してみる 検索サイトの「使い方」のページをよく読む 検索方法が頻繁に改良されているので,たま には読み直す 授業資料 http://ir.cs.yamanashi.ac.jp/~ysuzuki/man-machine.html 参考にした文献 インターネット 最強の検索術 関裕司著 リブロス刊 検索の鉄人/関裕司 http://www.shikencho.com/ GOOGLE HACKS オライリー・ジャパン SPIDERING HACKS オライリー・ジャパン レポート ロボット型の検索エンジン(Google,gooなど)を使って検 索してください. 検索して調べたいことを明確に書く 利用したキーワード,検索オプションを書く 目的のページのURLとその表示順位を書く 授業の前と後でインターネット検索についての考え方に 変化はありましたか.あればどのように変化したか書い てください.なければ検索の方法について書いてください. 授業の感想を書いてください(悪く書いても減点はしませ ん) レポート(提出期限,提出方法) 提出期限 12月01日17:00 提出方法 Email [email protected] 宛て Subjectは人間とコンピュータ レポート レポート用紙 A3号館5階K514号室の前のレポート入れ
© Copyright 2024 ExpyDoc