自然言語処理2007(補講) 平成20年1月16日 東京工科大学 コンピュータサイエンス学部 亀田 弘之 各種ツールの紹介 形態素解析ツール • Juman • Chasen 構文解析ツール • knp その他のツール • Chaki • Himawari + Edamame デモ • Juman – コスト最小法 Jumanの辞書・文法 • 形態素辞書: – ConnectW.dic など 自立語:3万語,付属語:1500語,固有名詞:3万語 • 文法辞書: – JUMAN.grammar(品詞分類) – JUMAN.katuyou(活用) – JUMAN.kankei(活用関係) – JUMAN.connect.c(連接規則) • 上記のものをコンパイルする. – jumandic.tab(連接対応表) – jumandic.mat(連接行列) – jumandic.dat(データベース) – jumandic.pat(インデックス) 辞書エントリの追加方法 1. Juman\dic にファイル usr.dic を作成. 2. その中に,以下の情報を記載する. (名詞 ( 普通名詞 ( (読み じんぎすかん) ( 見出し語 ジンギスカン じんぎすかん 成吉思汗) ) ) ) 3. Juman\dic 下にある makedic.bat を実行. デモ • knp デモ • Chasen – 出力フォーマットの変更 – 辞書エントリの追加 などができる (詳しくはマニュアルを読んでください.) デモ • Cabocha デモ • ひまわり おまけ • 未知語獲得システム UWAS • 日本語文法獲得システム USRAS
© Copyright 2024 ExpyDoc