ことばとコンピュータ 2007年1学期 第9回 番外編 本日の内容 • • • • • 文を単語に区切って品詞を決める 文の構造を決める インストールして使う ツールを自作して加工 その他いろいろのサイトを見る 2 文を単語に区切って品詞を決める • 日本語 – JUMAN – ChaSen • 英語 – Brill Tagger – その他いろいろ 3 文の構造を決める • 日本語 – KNP – Cabocha • 英語 – いろいろ – Apple Pie Parser 4 ツールをインストールして利用(1) • JUMANとKNPをインストールして使用 – JUMANのインストール • ダウンロード • インストール: y:\juman – KNPのダウンロード • ダウンロード • インストール: y:\knp 5 ツールをインストールして利用(2) • PATHの追加 – Windows上の PATH設定に juman,knpの ためのパス(経路) を追加 6 ツールをインストールして利用(3) • 詳細設定を 選んで, 「環境変数」を クリック 7 ツールをインストールして利用(4) • PATHの「編集」を クリックし,「ユーザー 変数の編集」の変数値 にパスを追加する 出ているものを消さず パスの一番最後に ;y:\juman;y:\knp を追加する.;や:を間違えないように注意 8 ツールをインストールして利用(5) • JUMANの使用 – コマンドプロンプト上で実行する! – スタート→すべてのプログラム→アクセサリ→ コマンドプロンプト y:\> juman 9 ツールをインストールして利用(5) • KNPの使用 y:\> juman –B –e2 | knp 10 ツールをインストールして利用(6) • Apple Pie Parserのインストール – App59win.zipをとってきてインストール (本当は, APP5.9.tar.gzをとってきて, tar –zxvf APP5.9.tar.gz を実行. これだとUnix版だけなので, app.exe もダウンロードし,Windowsで実行 ) 11 自作ツールで加工の例 tagつけのためのプログラムをperlで自作 完全ではないが,多少は作業を楽に進める 1. tag01.plをダウンロードしておく 2. テキストを準備する. (見出しの行の前に「TTL」,日付の行の前に 「DATE」を入れる) (上の手順2の後の状態にする) 3. スタート→アクセサリ→コマンドプロンプト y:\>juman -e < **.txt | perl tag01.pl 12 その他 • Kwic: – Key Word In Context • 言語データいろいろ 13
© Copyright 2024 ExpyDoc