コーパス言語学入門

コーパス言語学入門
2007年度1学期
第7回
本日の内容
• コーパスの利用
– コーパスを作るときに利用するツール
– 作成したコーパスの利用例
• このときの利用ツールの紹介
本日は,実習
– ツールのインストール
– 有名なツールを実際に使ってみる
2
コーパスの利用
• コーパスを作成する場合のツール
– 形態素解析
– 構文解析
– KNPがWeb上で使えないのでインストール
• JUMAN Ver.5.1(Windows版)をダウンロード
• KNP Ver.2.0(Windows版)をダウンロード
– 新聞記事を持って来て形態素,構文解析
3
ツールをインストールして利用(1)
• JUMANとKNPをインストールして使用
– JUMANのインストール
• ダウンロード
• インストール先: Y:\juman
– KNPのダウンロード
• ダウンロード
• インストール先: Y:\knp
4
ツールをインストールして利用(2)
• PATHの追加
– Windows上の
PATH設定に
juman,knpの
ためのパス(経路)
を追加
5
ツールをインストールして利用(3)
• 詳細設定を
選んで,
「環境変数」を
クリック
6
ツールをインストールして利用(4)
• PATHの「編集」を
クリックし,「ユーザー
変数の編集」の変数値
にパスを追加する
出ているものを消さず
パスの一番最後に
;y:\juman;y:\knp
を追加する.;や:を間違えないように注意
7
ツールをインストールして利用(5)
• JUMANの使用
– コマンドプロンプト上で実行する!
– スタート→すべてのプログラム→アクセサリ→
コマンドプロンプト
y:\> juman
8
ツールをインストールして利用(5)
• KNPの使用
y:\> juman –B –e2 | knp
9
コーパスの利用(2)
• コーパスを作成する場合のツール
– 新聞記事を持って来て形態素解析
• スタート→アクセサリ→コマンドプロンプト
y:\>juman < **.txt > **.jum
– 構文解析
y:\>juman –e2 –B < **.txt | knp
y:\>juman –e2 –B < **.txt | knp -tab
10
コーパスの利用(3)
• コーパスを作成する場合のツール
– 新聞記事を持って来て形態素解析
tagつけのためのプログラムをperlで自作
• 完全ではないが,多少は作業を楽に進める
• スタート→アクセサリ→コマンドプロンプト
y:\>juman -e < **.txt | perl tag01.pl
jumanとperlプログラムを↑パイプでつなぐ
11
自作ツールで加工の例
tagつけのためのプログラムをperlで自作
完全ではないが,多少は作業を楽に進める
1. tag01.plをダウンロードしておく
2. テキストを準備する.
(見出しの行の前に「TTL」,日付の行の前に
「DATE」を入れる)
(上の手順2の後の状態にする)
3. スタート→アクセサリ→コマンドプロンプト
y:\>juman -e < **.txt | perl tag01.pl
12
コーパスの利用(4)
• 英語の場合
形態素+POS Tag付与
– Brill Tagger が有名だが...
• Web上で試せないので
– ConexerのPhrase Tagger
– ENGTWOL 形態素解析
構文解析
– ConexerのSyntax (syntactic parser)
13
ツールをインストールして利用
• Apple Pie Parserのインストール
– App59win.zipをとってきてインストール
(本当は,
APP5.9.tar.gzをとってきて,
tar –zxvf APP5.9.tar.gz を実行.
これだとUnix版だけなので,
app.exe もダウンロードし,Windowsで実行
)
14
コーパスの利用(5)
• どんな研究で利用するか
– さまざまな単語の頻度,割合
– 特定の単語のさまざまな意味の頻度,割合
– 単語と他の単語の体系的な関連の有無
など
→辞書編纂,語の利用の変化,語の使用の偏り
語の組合せ,副詞の用法など
15
コーパスの利用(6)
• どんな研究で利用するか
– ほぼ同義の語の使用区別を調べる
• 例えば,
littleとsmall とか, beginとstart など
– ほぼ同じ文法構造の使用区別を調べる
• that節とto節
16
コーパスの利用(7)
• コーパス研究で利用するツール
– KWIC (KeyWord In Context)
•
•
•
•
特定の単語や表現で検索
その表現の出現位置と周辺の数語を表示
元のテキストの情報も参照可能
簡単な統計処理機能がついているものもある
17
コーパスの利用(8)
• コーパス研究で利用するツール
KWIC (KeyWord In Context)
– Business Letter Corpus
(マークトウェインのトムソーヤでTom)
– Web Concordancer (Brown Corpus,LOB有)
adjustments, parking, car park とか
– WebCorp 遅い
– Spanish Corpus Search 遅い
(Project Gutenberg):電子テキストアーカイブ
18
コーパスの利用(9)
• コーパス研究で利用するツールの例
KWIC (KeyWord In Context) 日本語
– Ajax を使った KWIC (青空文庫)
– Yahooを使ったKWIC (KWIC-search)
19
コーパスの利用(10)
• 検索
– 日本国憲法の日英パラレルコーパス
(クマぞーの何でも研究室)
– 経済白書データベース (内閣府)
– 環境白書(環境省)
– 国会会議録検索システム(国会)
– 法令データ(e-Gov 電子政府)
20