発想ブログ

図書館ツール発想日記
～「東京大学内のサイトから関連学術用語のデータを得る」
（仮称）システムへの寄り道思考経路～
平成20年7月31日
図書系のためのアプリケーション開発講習会
図書館で使えそうな情報を集める

図書「集合知プログラミング」（オライリー）を
生協でみかけて購入
Web 2.0 的な図書館
サービスというのも
いいかも？？？？
いきなり挫折する

「集合知プログラミング」における”洗練さ
れた手法”あたりは、まえだには手にあま
る
– SVMとか、非負行列とか
– ここまでくると、大学で統計の勉強をしていな
かったのが悔やまれる…
しかし、集合
知は、なんとか
使いたいのだ
！
コメント機能の逆を考える
Amazonや新世代OPACには、利用者がコ
メントを入れる機能をもつが….
 ….
 まえだのような面倒くさがりな人種はコメン
トを書かないかも….

学内サイトから書
評を探して提示す
るほうが、面倒な
い？
検索エンジン(Yahoo!)で
学内検索
GoogleとYahoo!ともに、サイトを絞った検索
が可能
 Webサービスとしては、Yahoo! (REST方式
）のほうが簡単なので、めんどうくさがりな
まえださんは、こちらを使うことにする

専門用語を検索エ
ンジンで検索して得
られる結果=“要約
”は、書評として
は使えないかも
用語抽出ソフトを組合わせる


検索結果の要約を書評として使うことは厳しくて
も、関連用語を提示することはできそう
「言選Web」（TermExtract)を使えば楽に処理でき
る（そもそも開発担当だし…）
「言選Web」に
乗ってGo!
OPACとの連携

OPAC → 関連用語へのシームレスな連
携は難しい
逆に関連用
語からOPAC
にリンクする
とか
連想検索っぽい？



一見、WebCat Plusの連想検索のように、関連用語から所蔵にナビ
ゲートするが…
自然言語処理の理論としては、いちおう用語同士の「共起」（同じ文
脈中に現れる回数）にのっとっているが、結果は「言選Web」の”重要
度”でランキングしただけ（精度の保障なし）
ただ、かつての「ことわけWeb」のように、まともにつくると結構処理時
間がかかるので、これはこれでよいかも？？？
精度はさておき、
コスト（マシン、
維持、開発）が
かからないので、
これもありかも？
たねあかし
Yahoo! ウェブ検索(Webサービス）で
ランク上位から５０件までのサイトを検索
Yahoo!検索結果のXMLからSummaryを
取り出す（オンラインでYahoo!検索した
ときの各サイトの要約と同じデータ）
専門用語自動抽出Perlモジュール
TermExtract (言選Web）にかける
用語リストに東京大学OPACへの
リンクを付与して結果表示
関連用語検索画面
画面例
関連用語検索結果とOPACリンク
OPAC検索結果

Download Report