コーパス言語学実践 2006年度2学期 第5回 本日の内容 • 第4回で途中だったところまでの確認 • 続き – Kaigyo01.pl → Kaigyo02.pl への変更 – cabocha のインストール – 単語の取り出し tangotoridasi.pl • 整形 – seikei01.pl • MS Excelでの読み込み 2 前回:本文の加工( [#] ) • 内容を見て対応するため手作業 – ということで,内容を見ながら手作業 1. エディタで*02.txtを開く 2. 検索で[#を探す 3. 該当個所の扱いを検討 (統一基準を決めながら進める) 4. 作業後→ *03.txtとして保存 3 Kaigyo01.pl → Kaigyo02.pl • 前回のKaigyo01.pl は破棄 • 新しくKaigyo02.pl をダウンロード y:\corpus> perl kaigyo02.pl < gingatetsudo03.txt > gingatetsudo04.txt これで粗くは改行されている • もう一度良く見て,変なところを直す *05.txtとして保存 例: gingatetsudo05.txt 4 前回:1行1文へ • kaigyo01.pl をダウンロード y:\corpus> perl kaigyo01.pl < gingatetsudo03.txt > gingatetsudo04.txt これで粗くは改行されている • もう一度良く見て,変なところを直す *05.txtとして保存 例: gingatetsudo05.txt 5 ChaSenとCabocha • ChaSenのインストール – 日本語形態素解析ツール • Cabochaのインストール – 日本語係受け解析ツール • 文節の作成に使用 6 ChaSen(茶筅) (東京外国語大学のコンピュータにはインストール 済みだが,cabochaのために再インストール) 1. http://chasen.naist.jp/hiki/ChaSen/ へアクセスし,「茶筌の配布」に進む 2. WinCha をクリック 3. chasen233_031208.exeをダウンロード 4. ダブルクリックする. 5. インストール先を y:\corpus にする! 7 ChaSen(茶筅) (東京外国語大学のコンピュータにはインストール 済みだが,cabochaのために再インストール) 1. http://chasen.naist.jp/hiki/ChaSen/ へアクセスし,「茶筌の配布」に進む 2. WinCha をクリック 3. chasen233_031208.exeをダウンロード 4. ダブルクリックする. 5. インストール先を y:\corpus にする! 8 ChaSen(ディレクトリ変更) Y:\corpus にする Yドライブにする 9 Cabocha(南瓜) 1. プログラムをダウンロード http://chasen.org/~taku/software/cabocha/ から,cabocha-0.53.exeをダウロード 2. ダブルクリックする 3. インストール先を y:\corpus にする! 4. 祈る 10 ソフトウェアのダウンロード cabocha-0.53.exe 11 CaboChaのセットアープwizard 12 License Agreement 13 インストール先の変更 Y:\corpus にする 14 アイコンは作らない ここをチェックする 15 確認してインストール開始 インストール開始 16 ChaSenとCaboCha • インストール後の確認 – コマンドプロンプト上で, Y:\corpus> cabocha gingatetsudono_yoru05.txt が実行できるか? 17 ChaSenとCaboCha • インストール後の確認 – コマンドプロンプト上で, Y:\corpus> cabocha gingatetsudono_yoru05.txt が実行できるか?多分無理なので, y:\corpus> CaboCha\bin\cabocha gingatetsudono_yoru05.txt が実行できるか? 18 文節の作成 • cabochaの利用で文節を作る y:\corpus>CaboCha\bin\cabocha –I0 –O2 gingatetsudo05.txt > gignatetsudo06.txt 今日は良い天気でした. * 0 -1O 今日 キョウ は ハ * 1 -1O 良い ヨイ * 2 -1O 天気 テンキ でし デシ た タた . .. EOS 今日 は 名詞-副詞可能 助詞-係助詞 良い 形容詞-自立 -I0 アイのゼロ –O2 オーの2 B-DATE O 形容詞・アウオ段 天気 名詞-一般 です 助動詞 特殊・デス 連用形 助動詞 特殊・タ 基本形 O 記号-句点 O 基本形 O O O 19 文節の中から自立語を取り出す • tangotoridasi.plの利用 • その前に – 文字コードの変換 – perlでは内部でutf-8という文字コードを使用 – *06.txtの文字コードをutf-8にしておく必要あり. TeraPadで*06.txtを開く. [ファイル]→[漢字改行コード指定保存]→ 漢字コードUTF-8 改行コードCR+LF の状態で保存! 20 文節の中から自立語を取り出す • tangotoridasi.plの利用 y:\corpus>perl –s tangotoridasi.pl – fn=“gingatetsudo” < gingatetsudono_yoru06.txt > gingatetsudono_yoru07.txt 全部 1行に 書く!! 見出し語;品詞;0;表層形\tヨミ\t基本形\t品 詞..........*;出展 21 ここまでのまとめ • *02.txt からスタート(先週) • [#の解析→ *03.txt の作成 • 今週はここからスタート – 1行1文へ(Kaigyo02.pl) → *04.txt の作成 – 変なところを手作業で直す → *05.txtの作成 – chabochaでの処理 →*06.txtの作成 – tangotoridasiでの処理 → *07.txtの作成 22 もう少し整形を • seikei01.pl をダウンロード y:\corpus > perl seikei01.pl < gingatetsudono_yoru07.txt > gingatetsudono_yoru08.txt これにより, 見出し語 \t ヨミ(不完全) \t 表記 \t 品詞 \t 単複 \t 出展 (ここで \t はタブ記号を表す) 23 Excelでの読み込み • MS-Excelで作成したデータを読み込む [スタート]→[すべてのプログラム]→[Microsoft Office]→[Microsoft Office Excel 2003] 起動したら,ファイル→開く→ gingatetsudono_yoru08.txt を選ぶ 24 Excelでの読み込み(2) • UTF-8 • カンマやタブ などの区切り文字 ...を選ぶ 次へ 25 Excelでの読み込み(3) • 次の画面では タブのチェックを 確認 次へ 26 Excelで読み込む(4) • そのまま 完了を押す ちゃんと読み込まれることを確認! 27
© Copyright 2024 ExpyDoc