「ことわけWeb」(仮称)の 構築について

「ことわけWeb」(仮称)の
構築について
平成19年5月19日 第5版
前田 朗
「言選Web」の現状
 フリーで使える「専門用語自動抽出」サイトとして
利用がある
 しかし、よりフリーとして活用が望まれているのは、
テキストマイニングであろう
 現在、ベクトル空間モデルを用い、文書間の類
似度を出すtermmi があり、特許関連で評価を得
ている
 より高度なテキストマイニング機能をWeb上にて
フリーで提供することは、ニーズがあると考える
期待される成果
 「言選Web」の関連サービスを増やす
応用がきく技術であることを示す
 自然言語処理の技術を一般向けにわかり
やすい形で示す
学術機関としての責務を果たす
 中川研究室の成果の一環とする
 図書館員の学術協力の一環とする
主な特徴
一. 単語クラスタリングの提供
二. 登録制で利用できるWebアプリケーション
三. 基本的な理論の実装
四. 手作業と自動処理の組み合わせ
五. 結果の2次活用
一. 単語クラスタリング

テキストマイニングの機能はさまざまだが、自
然言語処理の研究に密接に関連した機能は、
次の2つであると考えられる。
一. 文書間の関連を示す
二. キーワード間の関連を示す


上記の「文書間の関連」は、termmiにてある
程度は実現した。
本企画では、キーワード間の関連、その中で
もWeb上で実現しやすい単語クラスタリングを
目指す
二. 登録制で利用できるWebアプリケーション

テキストマイニングツールの多くは、ワークス
テーションもしくはPCに導入して動作させる。こ
れは、次の2つの理由によると考えられる
一. テキストマイニングはマシンの資源を酷使する
二. 結果のグラフィック表示に有利

本企画では、あえてWebアプリケーション上で
提供する。そのメリットは次のとおり。
一. インストールの手間が不要である
二. ユーザの動向を調査できる(性能調査が容易)
三. 基本的な理論の実装

用語抽出は「言選Web」を使う。しかし、それ
以外はできるだけ、基本的な単語クラスタリ
ング理論を使いたい。
一. 新しい理論の実験も有意義であるが、教育用シ
ステムとしての意味ももたせたい。ひいては、中
川研究室での研究に興味をもってもらえると望ま
しい。
二. 基本的な理論は、それだけ無難であるため、ある
程度の品質を保証できる
四. 手作業と自動処理の組み合わせ


不要語の削除や、不自然な形で抽出された用
語を、そしてそのTFを訂正できるようにする。そ
のことにより、キーワードのノイズを(いいかえ
れば、単語文書行列の次元を)効果的に減らす
ことができるのではないか。
そのために、必要なだけのWebインターフェイス
を用意する
五. 記録の2次活用

ユーザの作業記録をとり、本システム及
び「言選Web」の性能評価を行う。たと
えば、次の記録などが考えられる。
一. 抽出した用語に対して、どの程度の訂正・
削除が入ったか。
二. テキストマイニングにおいて、どのオプショ
ンを最終的に使用したか

利用についてのアンケートフォームを用
意する