コーパス言語学入門 2007年度1学期 第7回 本日の内容 • コーパスの利用 – コーパスを作るときに利用するツール – 作成したコーパスの利用例 • このときの利用ツールの紹介 本日は,実習 – ツールのインストール – 有名なツールを実際に使ってみる 2 コーパスの利用 • コーパスを作成する場合のツール – 形態素解析 – 構文解析 – KNPがWeb上で使えないのでインストール • JUMAN Ver.5.1(Windows版)をダウンロード • KNP Ver.2.0(Windows版)をダウンロード – 新聞記事を持って来て形態素,構文解析 3 ツールをインストールして利用(1) • JUMANとKNPをインストールして使用 – JUMANのインストール • ダウンロード • インストール先: Y:\juman – KNPのダウンロード • ダウンロード • インストール先: Y:\knp 4 ツールをインストールして利用(2) • PATHの追加 – Windows上の PATH設定に juman,knpの ためのパス(経路) を追加 5 ツールをインストールして利用(3) • 詳細設定を 選んで, 「環境変数」を クリック 6 ツールをインストールして利用(4) • PATHの「編集」を クリックし,「ユーザー 変数の編集」の変数値 にパスを追加する 出ているものを消さず パスの一番最後に ;y:\juman;y:\knp を追加する.;や:を間違えないように注意 7 ツールをインストールして利用(5) • JUMANの使用 – コマンドプロンプト上で実行する! – スタート→すべてのプログラム→アクセサリ→ コマンドプロンプト y:\> juman 8 ツールをインストールして利用(5) • KNPの使用 y:\> juman –B –e2 | knp 9 コーパスの利用(2) • コーパスを作成する場合のツール – 新聞記事を持って来て形態素解析 • スタート→アクセサリ→コマンドプロンプト y:\>juman < **.txt > **.jum – 構文解析 y:\>juman –e2 –B < **.txt | knp y:\>juman –e2 –B < **.txt | knp -tab 10 コーパスの利用(3) • コーパスを作成する場合のツール – 新聞記事を持って来て形態素解析 tagつけのためのプログラムをperlで自作 • 完全ではないが,多少は作業を楽に進める • スタート→アクセサリ→コマンドプロンプト y:\>juman -e < **.txt | perl tag01.pl jumanとperlプログラムを↑パイプでつなぐ 11 自作ツールで加工の例 tagつけのためのプログラムをperlで自作 完全ではないが,多少は作業を楽に進める 1. tag01.plをダウンロードしておく 2. テキストを準備する. (見出しの行の前に「TTL」,日付の行の前に 「DATE」を入れる) (上の手順2の後の状態にする) 3. スタート→アクセサリ→コマンドプロンプト y:\>juman -e < **.txt | perl tag01.pl 12 コーパスの利用(4) • 英語の場合 形態素+POS Tag付与 – Brill Tagger が有名だが... • Web上で試せないので – ConexerのPhrase Tagger – ENGTWOL 形態素解析 構文解析 – ConexerのSyntax (syntactic parser) 13 ツールをインストールして利用 • Apple Pie Parserのインストール – App59win.zipをとってきてインストール (本当は, APP5.9.tar.gzをとってきて, tar –zxvf APP5.9.tar.gz を実行. これだとUnix版だけなので, app.exe もダウンロードし,Windowsで実行 ) 14 コーパスの利用(5) • どんな研究で利用するか – さまざまな単語の頻度,割合 – 特定の単語のさまざまな意味の頻度,割合 – 単語と他の単語の体系的な関連の有無 など →辞書編纂,語の利用の変化,語の使用の偏り 語の組合せ,副詞の用法など 15 コーパスの利用(6) • どんな研究で利用するか – ほぼ同義の語の使用区別を調べる • 例えば, littleとsmall とか, beginとstart など – ほぼ同じ文法構造の使用区別を調べる • that節とto節 16 コーパスの利用(7) • コーパス研究で利用するツール – KWIC (KeyWord In Context) • • • • 特定の単語や表現で検索 その表現の出現位置と周辺の数語を表示 元のテキストの情報も参照可能 簡単な統計処理機能がついているものもある 17 コーパスの利用(8) • コーパス研究で利用するツール KWIC (KeyWord In Context) – Business Letter Corpus (マークトウェインのトムソーヤでTom) – Web Concordancer (Brown Corpus,LOB有) adjustments, parking, car park とか – WebCorp 遅い – Spanish Corpus Search 遅い (Project Gutenberg):電子テキストアーカイブ 18 コーパスの利用(9) • コーパス研究で利用するツールの例 KWIC (KeyWord In Context) 日本語 – Ajax を使った KWIC (青空文庫) – Yahooを使ったKWIC (KWIC-search) 19 コーパスの利用(10) • 検索 – 日本国憲法の日英パラレルコーパス (クマぞーの何でも研究室) – 経済白書データベース (内閣府) – 環境白書(環境省) – 国会会議録検索システム(国会) – 法令データ(e-Gov 電子政府) 20
© Copyright 2024 ExpyDoc