日本語解析済みコーパス管理ツール 「茶器」 松本裕治, 浅原正幸, 岩立将和 奈良先端科学技術大学院大学 情報科学研究科 茶器:コーパス管理・検索システム タグ付きコーパスのデータベース管理 形態素解析,文節区切り,文節係り受けを施したコーパス を格納し,各種検索機能や修正機能を提供 種々の検索 文字列検索,単語(列)検索,係り受け構造検索 タグ付きコーパスと辞書の連携 コーパスは辞書へのポインタとして管理 (コーパス/辞書の修正が他方へ同期して反映) コーパスのタグ付け誤りの修正 形態素,文節区切り,係り受け誤りの修正 コロケーション抽出機能 単語の共起出現頻度,単語N-gram,頻出単語列の抽出 CL-LAB 茶器(ChaKi)の構成 文書データ (文集合) 言語解析ツール (茶筌, 南瓜など) / 手作業による解析 解析済み + テキスト 辞書 ChaKi 検索と 誤り修正 関係データベース (MySQL) CL-LAB 南瓜の出力 フォーマット 1文が1行に 茶器(ChaKi)の構成 特になくてもよい. ない場合は,コー パス中の単語が辞 書として取り扱わ れる なったファイル 文書データ (文集合) 言語解析ツール (茶筌, 南瓜など) / 手作業による解析 解析済み + テキスト 辞書 ChaKi 検索と 誤り修正 関係データベース (MySQL) CL-LAB 茶器の機能 対象: 係り受け解析済みコーパス (日, 中, 英) 形態素解析のみタグ付けされたコーパスも可能. 全体が一つの文節であるかのように扱われる 検索機能 文字列 (正規表現) 検索 形態素情報(品詞,読み,活用など)を用いた単語列検索 係り受け木の検索 検索結果の表示機能 KWIC形式による文単位の表示 文毎の係り受け木の表示 統計抽出結果の表示 すべてエクセル(csv形式)でファイル出力可 統計機能 単語の頻度統計,共起頻度統計,頻出系列マイニング 修正機能 検索結果の修正(形態素情報,係り受け情報) 形態素解析については,複数の文の一括修正が可能 CL-LAB 文字列検索の例 target string CL-LAB 単語検索 search pattern specification CL-LAB 共起頻度の表示 target specification collocation counts CL-LAB 係り受け検索 specification of dependency structure search results CL-LAB 係り受け木の表示と修正インタフェース CL-LAB 茶器の情報 文部科学省科学研究費補助金 基盤研究B「言語研究のための コーパスの作成と利用に関する研究」(2002-2005年度),および, 文部科学省科学研究費補助金 特定研究「日本語コ-パス」 (2006年度-2010年度)による支援 関連文献: Yuji Matsumoto, et al, “An Annotated Corpus Management Tool: ChaKi,” Proceedings of the 5th International Conference on Language Resources and Evaluation, Genoa, Italy, May 2006. 松本裕治, 浅原正幸, 橋本喜代太, 投野由紀夫, 大谷朗, 森田敏生, 「タグ付きコーパス管理/検索ツール『茶器』 」, 言語処理学会第12回 年次大会論文集, pp.460-463, March 2006. 現メンバー 松本裕治,浅原正幸,岩立将和(以上,奈良先端大),森田敏生(総和 技研) 公開ページ http://chasen.naist.jp/chaki/t/ CL-LAB
© Copyright 2025 ExpyDoc