発想ブログ

図書館ツール発想日記
~「東京大学内のサイトから関連学術用語のデータを得る」
(仮称)システムへの寄り道思考経路~
平成20年7月31日
図書系のためのアプリケーション開発講習会
図書館で使えそうな情報を集める

図書「集合知プログラミング」(オライリー)を
生協でみかけて購入
Web 2.0 的な図書館
サービスというのも
いいかも????
いきなり挫折する

「集合知プログラミング」における”洗練さ
れた手法”あたりは、まえだには手にあま
る
– SVMとか、非負行列とか
– ここまでくると、大学で統計の勉強をしていな
かったのが悔やまれる…
しかし、集合
知は、なんとか
使いたいのだ
!
コメント機能の逆を考える
Amazonや新世代OPACには、利用者がコ
メントを入れる機能をもつが….
 ….
 まえだのような面倒くさがりな人種はコメン
トを書かないかも….

学内サイトから書
評を探して提示す
るほうが、面倒な
い?
検索エンジン(Yahoo!)で
学内検索
GoogleとYahoo!ともに、サイトを絞った検索
が可能
 Webサービスとしては、Yahoo! (REST方式
)のほうが簡単なので、めんどうくさがりな
まえださんは、こちらを使うことにする

専門用語を検索エ
ンジンで検索して得
られる結果=“要約
”は、書評として
は使えないかも
用語抽出ソフトを組合わせる


検索結果の要約を書評として使うことは厳しくて
も、関連用語を提示することはできそう
「言選Web」(TermExtract)を使えば楽に処理でき
る(そもそも開発担当だし…)
「言選Web」に
乗ってGo!
OPACとの連携

OPAC → 関連用語へのシームレスな連
携は難しい
逆に関連用
語からOPAC
にリンクする
とか
連想検索っぽい?



一見、WebCat Plusの連想検索のように、関連用語から所蔵にナビ
ゲートするが…
自然言語処理の理論としては、いちおう用語同士の「共起」(同じ文
脈中に現れる回数)にのっとっているが、結果は「言選Web」の”重要
度”でランキングしただけ(精度の保障なし)
ただ、かつての「ことわけWeb」のように、まともにつくると結構処理時
間がかかるので、これはこれでよいかも???
精度はさておき、
コスト(マシン、
維持、開発)が
かからないので、
これもありかも?
たねあかし
Yahoo! ウェブ検索(Webサービス)で
ランク上位から50件までのサイトを検索
Yahoo!検索結果のXMLからSummaryを
取り出す(オンラインでYahoo!検索した
ときの各サイトの要約と同じデータ)
専門用語自動抽出Perlモジュール
TermExtract (言選Web)にかける
用語リストに東京大学OPACへの
リンクを付与して結果表示
関連用語検索画面
画面例
関連用語検索結果とOPACリンク
OPAC検索結果