日本語解析ツール「茶筌」「南瓜」 および 解析済みコ

日本語解析済みコーパス管理ツール
「茶器」
松本裕治, 浅原正幸, 岩立将和
奈良先端科学技術大学院大学
情報科学研究科
茶器:コーパス管理・検索システム
タグ付きコーパスのデータベース管理

形態素解析,文節区切り,文節係り受けを施したコーパス
を格納し,各種検索機能や修正機能を提供
種々の検索

文字列検索,単語(列)検索,係り受け構造検索
タグ付きコーパスと辞書の連携


コーパスは辞書へのポインタとして管理
(コーパス/辞書の修正が他方へ同期して反映)
コーパスのタグ付け誤りの修正

形態素,文節区切り,係り受け誤りの修正
コロケーション抽出機能

単語の共起出現頻度,単語N-gram,頻出単語列の抽出
CL-LAB
茶器(ChaKi)の構成
文書データ
(文集合)
言語解析ツール
(茶筌, 南瓜など)
/ 手作業による解析
解析済み +
テキスト
辞書
ChaKi
検索と
誤り修正
関係データベース
(MySQL)
CL-LAB
南瓜の出力
フォーマット
1文が1行に
茶器(ChaKi)の構成
特になくてもよい.
ない場合は,コー
パス中の単語が辞
書として取り扱わ
れる
なったファイル
文書データ
(文集合)
言語解析ツール
(茶筌, 南瓜など)
/ 手作業による解析
解析済み +
テキスト
辞書
ChaKi
検索と
誤り修正
関係データベース
(MySQL)
CL-LAB
茶器の機能
対象:


係り受け解析済みコーパス (日, 中, 英)
形態素解析のみタグ付けされたコーパスも可能.
 全体が一つの文節であるかのように扱われる
検索機能



文字列 (正規表現) 検索
形態素情報(品詞,読み,活用など)を用いた単語列検索
係り受け木の検索
検索結果の表示機能
KWIC形式による文単位の表示
 文毎の係り受け木の表示
 統計抽出結果の表示
 すべてエクセル(csv形式)でファイル出力可
統計機能


単語の頻度統計,共起頻度統計,頻出系列マイニング
修正機能


検索結果の修正(形態素情報,係り受け情報)
形態素解析については,複数の文の一括修正が可能
CL-LAB
文字列検索の例
target string
CL-LAB
単語検索
search pattern specification
CL-LAB
共起頻度の表示
target specification
collocation counts
CL-LAB
係り受け検索
specification of
dependency structure
search results
CL-LAB
係り受け木の表示と修正インタフェース
CL-LAB
茶器の情報
文部科学省科学研究費補助金 基盤研究B「言語研究のための
コーパスの作成と利用に関する研究」(2002-2005年度),および,
文部科学省科学研究費補助金 特定研究「日本語コ-パス」
(2006年度-2010年度)による支援
関連文献:


Yuji Matsumoto, et al, “An Annotated Corpus Management Tool:
ChaKi,” Proceedings of the 5th International Conference on
Language Resources and Evaluation, Genoa, Italy, May 2006.
松本裕治, 浅原正幸, 橋本喜代太, 投野由紀夫, 大谷朗, 森田敏生,
「タグ付きコーパス管理/検索ツール『茶器』 」, 言語処理学会第12回
年次大会論文集, pp.460-463, March 2006.
現メンバー

松本裕治,浅原正幸,岩立将和(以上,奈良先端大),森田敏生(総和
技研)
公開ページ
 http://chasen.naist.jp/chaki/t/
CL-LAB