コーパス言語学入門

コーパス言語学入門
第7回
本日の内容
• 前回の復習
• コーパスの利用
– コーパスを作るときに利用するツール
– 作成したコーパスの利用例
• このときの利用ツールの紹介
本日は,ほぼ実習
– ツールのインストール
– 有名なツールを実際に使ってみる
2
コーパスの利用
• コーパスを作成する場合のツール
– 形態素解析
– 構文解析
– KNPがWeb上で使えないのでインストール
• JUMAN Ver.5.1(Windows版)をダウンロード
• KNP Ver.2.0(Windows版)をダウンロード
– 新聞記事を持って来て形態素,構文解析
3
コーパスの利用(2)
• コーパスを作成する場合のツール
– 新聞記事を持って来て形態素解析
• スタート→アクセサリ→コマンドプロンプト
y:\>juman < **.txt > **.jum
– 構文解析
y:\>juman –e2 –B < **.txt | knp
y:\>juman –e2 –B < **.txt | knp -tab
4
コーパスの利用(3)
• コーパスを作成する場合のツール
– 新聞記事を持って来て形態素解析
tagつけのためのプログラムをperlで自作
• 完全ではないが,多少は作業を楽に進める
• スタート→アクセサリ→コマンドプロンプト
y:\>juman -e < **.txt | perl tag01.pl
jumanとperlプログラムを↑パイプでつなぐ
5
コーパスの利用(4)
• 英語の場合
形態素+POS Tag付与
– Brill Tagger が有名だが...
• Web上で試せないので
– ConexerのPhrase Tagger
– ENGTWOL 形態素解析
構文解析
– ConexerのSyntax (syntactic parser)
6
コーパスの利用(5)
• どんな研究で利用するか
– さまざまな単語の頻度,割合
– 特定の単語のさまざまな意味の頻度,割合
– 単語と他の単語の体系的な関連の有無
など
→辞書編纂,語の利用の変化,語の使用の偏り
語の組合せ,副詞の用法など
7
コーパスの利用(6)
• どんな研究で利用するか
– ほぼ同義の語の使用区別を調べる
• 例えば,
littleとsmall とか, beginとstart など
– ほぼ同じ文法構造の使用区別を調べる
• that節とto節
8
コーパスの利用(7)
• コーパス研究で利用するツール
– KWIC (KeyWord In Context)
•
•
•
•
特定の単語や表現で検索
その表現の出現位置と周辺の数語を表示
元のテキストの情報も参照可能
簡単な統計処理機能がついているものもある
9
コーパスの利用(8)
• コーパス研究で利用するツール
KWIC (KeyWord In Context)
– Business Letter Corpus
(マークトウェインのトムソーヤでTom)
– Web Concordancer (Brown Corpus,LOB有)
adjustments, parking, car park とか
– WebCorp 遅い
– Spanish Corpus Search 遅い
(Project Gutenberg):電子テキストアーカイブ
10
コーパスの利用(9)
• コーパス研究で利用するツールの例
KWIC (KeyWord In Context) 日本語
– Ajax を使った KWIC (青空文庫)
– Yahooを使ったKWIC (KWIC-search)
11
コーパスの利用(10)
• 検索
– 日本国憲法の日英パラレルコーパス
(クマぞーの何でも研究室)
– 経済白書データベース (内閣府)
– 環境白書(環境省)
– 国会会議録検索システム(国会)
– 法令データ(e-Gov 電子政府)
12