コーパス言語学入門 第7回 本日の内容 • 前回の復習 • コーパスの利用 – コーパスを作るときに利用するツール – 作成したコーパスの利用例 • このときの利用ツールの紹介 本日は,ほぼ実習 – ツールのインストール – 有名なツールを実際に使ってみる 2 コーパスの利用 • コーパスを作成する場合のツール – 形態素解析 – 構文解析 – KNPがWeb上で使えないのでインストール • JUMAN Ver.5.1(Windows版)をダウンロード • KNP Ver.2.0(Windows版)をダウンロード – 新聞記事を持って来て形態素,構文解析 3 コーパスの利用(2) • コーパスを作成する場合のツール – 新聞記事を持って来て形態素解析 • スタート→アクセサリ→コマンドプロンプト y:\>juman < **.txt > **.jum – 構文解析 y:\>juman –e2 –B < **.txt | knp y:\>juman –e2 –B < **.txt | knp -tab 4 コーパスの利用(3) • コーパスを作成する場合のツール – 新聞記事を持って来て形態素解析 tagつけのためのプログラムをperlで自作 • 完全ではないが,多少は作業を楽に進める • スタート→アクセサリ→コマンドプロンプト y:\>juman -e < **.txt | perl tag01.pl jumanとperlプログラムを↑パイプでつなぐ 5 コーパスの利用(4) • 英語の場合 形態素+POS Tag付与 – Brill Tagger が有名だが... • Web上で試せないので – ConexerのPhrase Tagger – ENGTWOL 形態素解析 構文解析 – ConexerのSyntax (syntactic parser) 6 コーパスの利用(5) • どんな研究で利用するか – さまざまな単語の頻度,割合 – 特定の単語のさまざまな意味の頻度,割合 – 単語と他の単語の体系的な関連の有無 など →辞書編纂,語の利用の変化,語の使用の偏り 語の組合せ,副詞の用法など 7 コーパスの利用(6) • どんな研究で利用するか – ほぼ同義の語の使用区別を調べる • 例えば, littleとsmall とか, beginとstart など – ほぼ同じ文法構造の使用区別を調べる • that節とto節 8 コーパスの利用(7) • コーパス研究で利用するツール – KWIC (KeyWord In Context) • • • • 特定の単語や表現で検索 その表現の出現位置と周辺の数語を表示 元のテキストの情報も参照可能 簡単な統計処理機能がついているものもある 9 コーパスの利用(8) • コーパス研究で利用するツール KWIC (KeyWord In Context) – Business Letter Corpus (マークトウェインのトムソーヤでTom) – Web Concordancer (Brown Corpus,LOB有) adjustments, parking, car park とか – WebCorp 遅い – Spanish Corpus Search 遅い (Project Gutenberg):電子テキストアーカイブ 10 コーパスの利用(9) • コーパス研究で利用するツールの例 KWIC (KeyWord In Context) 日本語 – Ajax を使った KWIC (青空文庫) – Yahooを使ったKWIC (KWIC-search) 11 コーパスの利用(10) • 検索 – 日本国憲法の日英パラレルコーパス (クマぞーの何でも研究室) – 経済白書データベース (内閣府) – 環境白書(環境省) – 国会会議録検索システム(国会) – 法令データ(e-Gov 電子政府) 12
© Copyright 2025 ExpyDoc