オープンソースでできる全文検索 ★今やオープンソースという選択肢は当たり前 ◎オープンソース化は進んでいますか? 「オープンソース・ソフトウェア(OSS)は一時的な流行ではなく、これからあらゆる領域での採用が当然になるだろう」と言わ れる時代があったように思います。ハードウェアからミドルウェア、業務パッケージに至るまで大手ベンダーさんが「自社製 品」で固め、他ベンダーさんが参入しづらくする「ベンダーロックイン」状態が普通な時代もありました。 最近では、大手ベンダーさんも随所でオープンソース・ソフトウェアの活用・サポートをされているようで、ITの世界のスピー ドの速さを感じる一面です。 皆さんの組織においても既にいろいろと導入されているでしょうか? ◎全文検索エンジン さて、今回取り上げるのは "Apache Solr" (アパッチ・ソーラー)という全文検索エン ジン機能を持つOSSです。 全文検索については、インターネット上の膨大な情報から希望する内容を取り出すた めにGoogleやYAHOO!などの検索サービスを日常的に利用されていますよね。 また、組織で導入しているグループウェアの機能を利用して、組織内のさまざまなデ ータを検索されている方も多いでしょう。 図1:http://lucene.apache.org/solr/ ◎いろいろな情報を検索対象とできます 全文検索エンジンでは、高速な検索処理を実現するために文書の情報(どんな単語が含まれているか)や文書の所在(Web上の情 報であればURL等)を収集して「インデックス」と呼ばれるものをあらかじめ作成します。 図2:全文検索の仕組み Solrでは、シンプルなテキスト形式のデータだけでなくPDFファイルやMicrosoft Office形式ファイルなども検索対象として取 り扱うことができます。 また、指定したWebサイト上の情報やファイルサーバー上のファイルを定期的にチェックして、追加されたデータや更新され たデータを自動的にインデックスに取り込み、常に最新の情報を検索できるようにする仕組みも備わっています。 次のようなOSSとは思えない高度な機能も備えています。 「もしかして・・・」で表示する検索語提示 Google検索などで入力ミスや誤変換すると表示されますよね。 レコメンド機能 Amazonなどで「この商品を買った人はこんな商品も買っています」表示がありますよね。 検索結果のランキング表示 全文検索においては必須の機能ですが、適合度の高い順に結果が表示されます。 ◎全文検索エンジンSolrの導入にあたり Solrには、利用者がオリジナルで作成する各種システムと容易に連携できるような仕組みがあります。 どんなシステムでも情報を検索できるような機能は備わっていることが多いと思いますが、検索エンジンの大きなメリットと して、非常に細かい検索条件での検索処理を高速に実行できるところにあります。 また、より適合度が高い(と思われる)順に検索結果が表示されるのもありがたいですよね。 導入時に多少面倒な設定等はありますが、無料のOSSでそれでもこれだけ豊富な機能を手に入れられることを考えると費用対 効果は非常に高いと思います。 実績のある開発ベンダーさんであればいろいろ相談に乗ってくれると思いますので、高価な商用ソフトウェアを購入してしま う前にご検討してみてはいかがでしょうか。 運営企業 株式会社オープントーン 業務ソリューション事業部 〒101-0041 東京都千代田区神田須田町2-5-2 須田町佐志田ビル6F Tel:(03)4530 6222 http://opentone.co.jp
© Copyright 2024 ExpyDoc