「ことわけWeb」(仮称)の 構築について 平成19年5月19日 第5版 前田 朗 「言選Web」の現状 フリーで使える「専門用語自動抽出」サイトとして 利用がある しかし、よりフリーとして活用が望まれているのは、 テキストマイニングであろう 現在、ベクトル空間モデルを用い、文書間の類 似度を出すtermmi があり、特許関連で評価を得 ている より高度なテキストマイニング機能をWeb上にて フリーで提供することは、ニーズがあると考える 期待される成果 「言選Web」の関連サービスを増やす 応用がきく技術であることを示す 自然言語処理の技術を一般向けにわかり やすい形で示す 学術機関としての責務を果たす 中川研究室の成果の一環とする 図書館員の学術協力の一環とする 主な特徴 一. 単語クラスタリングの提供 二. 登録制で利用できるWebアプリケーション 三. 基本的な理論の実装 四. 手作業と自動処理の組み合わせ 五. 結果の2次活用 一. 単語クラスタリング テキストマイニングの機能はさまざまだが、自 然言語処理の研究に密接に関連した機能は、 次の2つであると考えられる。 一. 文書間の関連を示す 二. キーワード間の関連を示す 上記の「文書間の関連」は、termmiにてある 程度は実現した。 本企画では、キーワード間の関連、その中で もWeb上で実現しやすい単語クラスタリングを 目指す 二. 登録制で利用できるWebアプリケーション テキストマイニングツールの多くは、ワークス テーションもしくはPCに導入して動作させる。こ れは、次の2つの理由によると考えられる 一. テキストマイニングはマシンの資源を酷使する 二. 結果のグラフィック表示に有利 本企画では、あえてWebアプリケーション上で 提供する。そのメリットは次のとおり。 一. インストールの手間が不要である 二. ユーザの動向を調査できる(性能調査が容易) 三. 基本的な理論の実装 用語抽出は「言選Web」を使う。しかし、それ 以外はできるだけ、基本的な単語クラスタリ ング理論を使いたい。 一. 新しい理論の実験も有意義であるが、教育用シ ステムとしての意味ももたせたい。ひいては、中 川研究室での研究に興味をもってもらえると望ま しい。 二. 基本的な理論は、それだけ無難であるため、ある 程度の品質を保証できる 四. 手作業と自動処理の組み合わせ 不要語の削除や、不自然な形で抽出された用 語を、そしてそのTFを訂正できるようにする。そ のことにより、キーワードのノイズを(いいかえ れば、単語文書行列の次元を)効果的に減らす ことができるのではないか。 そのために、必要なだけのWebインターフェイス を用意する 五. 記録の2次活用 ユーザの作業記録をとり、本システム及 び「言選Web」の性能評価を行う。たと えば、次の記録などが考えられる。 一. 抽出した用語に対して、どの程度の訂正・ 削除が入ったか。 二. テキストマイニングにおいて、どのオプショ ンを最終的に使用したか 利用についてのアンケートフォームを用 意する
© Copyright 2024 ExpyDoc