ことばとコンピュータ

ことばとコンピュータ
2007年1学期 第9回
番外編
本日の内容
•
•
•
•
•
文を単語に区切って品詞を決める
文の構造を決める
インストールして使う
ツールを自作して加工
その他いろいろのサイトを見る
2
文を単語に区切って品詞を決める
• 日本語
– JUMAN
– ChaSen
• 英語
– Brill Tagger
– その他いろいろ
3
文の構造を決める
• 日本語
– KNP
– Cabocha
• 英語
– いろいろ
– Apple Pie Parser
4
ツールをインストールして利用(1)
• JUMANとKNPをインストールして使用
– JUMANのインストール
• ダウンロード
• インストール: y:\juman
– KNPのダウンロード
• ダウンロード
• インストール: y:\knp
5
ツールをインストールして利用(2)
• PATHの追加
– Windows上の
PATH設定に
juman,knpの
ためのパス(経路)
を追加
6
ツールをインストールして利用(3)
• 詳細設定を
選んで,
「環境変数」を
クリック
7
ツールをインストールして利用(4)
• PATHの「編集」を
クリックし,「ユーザー
変数の編集」の変数値
にパスを追加する
出ているものを消さず
パスの一番最後に
;y:\juman;y:\knp
を追加する.;や:を間違えないように注意
8
ツールをインストールして利用(5)
• JUMANの使用
– コマンドプロンプト上で実行する!
– スタート→すべてのプログラム→アクセサリ→
コマンドプロンプト
y:\> juman
9
ツールをインストールして利用(5)
• KNPの使用
y:\> juman –B –e2 | knp
10
ツールをインストールして利用(6)
• Apple Pie Parserのインストール
– App59win.zipをとってきてインストール
(本当は,
APP5.9.tar.gzをとってきて,
tar –zxvf APP5.9.tar.gz を実行.
これだとUnix版だけなので,
app.exe もダウンロードし,Windowsで実行
)
11
自作ツールで加工の例
tagつけのためのプログラムをperlで自作
完全ではないが,多少は作業を楽に進める
1. tag01.plをダウンロードしておく
2. テキストを準備する.
(見出しの行の前に「TTL」,日付の行の前に
「DATE」を入れる)
(上の手順2の後の状態にする)
3. スタート→アクセサリ→コマンドプロンプト
y:\>juman -e < **.txt | perl tag01.pl
12
その他
• Kwic:
– Key Word In Context
• 言語データいろいろ
13