コーパス言語学実践

コーパス言語学実践
2006年度2学期
第5回
本日の内容
• 第4回で途中だったところまでの確認
• 続き
– Kaigyo01.pl → Kaigyo02.pl への変更
– cabocha のインストール
– 単語の取り出し tangotoridasi.pl
• 整形
– seikei01.pl
• MS Excelでの読み込み
2
前回:本文の加工( [#] )
•
内容を見て対応するため手作業
– ということで,内容を見ながら手作業
1. エディタで*02.txtを開く
2. 検索で[#を探す
3. 該当個所の扱いを検討
(統一基準を決めながら進める)
4. 作業後→ *03.txtとして保存
3
Kaigyo01.pl → Kaigyo02.pl
• 前回のKaigyo01.pl は破棄
• 新しくKaigyo02.pl をダウンロード
y:\corpus> perl kaigyo02.pl < gingatetsudo03.txt
> gingatetsudo04.txt
これで粗くは改行されている
• もう一度良く見て,変なところを直す
*05.txtとして保存
例: gingatetsudo05.txt
4
前回:1行1文へ
• kaigyo01.pl をダウンロード
y:\corpus> perl kaigyo01.pl < gingatetsudo03.txt
> gingatetsudo04.txt
これで粗くは改行されている
• もう一度良く見て,変なところを直す
*05.txtとして保存
例: gingatetsudo05.txt
5
ChaSenとCabocha
• ChaSenのインストール
– 日本語形態素解析ツール
• Cabochaのインストール
– 日本語係受け解析ツール
• 文節の作成に使用
6
ChaSen(茶筅)
(東京外国語大学のコンピュータにはインストール
済みだが,cabochaのために再インストール)
1. http://chasen.naist.jp/hiki/ChaSen/
へアクセスし,「茶筌の配布」に進む
2. WinCha をクリック
3. chasen233_031208.exeをダウンロード
4. ダブルクリックする.
5. インストール先を y:\corpus にする!
7
ChaSen(茶筅)
(東京外国語大学のコンピュータにはインストール
済みだが,cabochaのために再インストール)
1. http://chasen.naist.jp/hiki/ChaSen/
へアクセスし,「茶筌の配布」に進む
2. WinCha をクリック
3. chasen233_031208.exeをダウンロード
4. ダブルクリックする.
5. インストール先を y:\corpus にする!
8
ChaSen(ディレクトリ変更)
Y:\corpus
にする
Yドライブにする
9
Cabocha(南瓜)
1. プログラムをダウンロード
http://chasen.org/~taku/software/cabocha/
から,cabocha-0.53.exeをダウロード
2. ダブルクリックする
3. インストール先を y:\corpus にする!
4. 祈る
10
ソフトウェアのダウンロード
cabocha-0.53.exe
11
CaboChaのセットアープwizard
12
License Agreement
13
インストール先の変更
Y:\corpus
にする
14
アイコンは作らない
ここをチェックする
15
確認してインストール開始
インストール開始
16
ChaSenとCaboCha
• インストール後の確認
– コマンドプロンプト上で,
Y:\corpus> cabocha gingatetsudono_yoru05.txt
が実行できるか?
17
ChaSenとCaboCha
• インストール後の確認
– コマンドプロンプト上で,
Y:\corpus> cabocha gingatetsudono_yoru05.txt
が実行できるか?多分無理なので,
y:\corpus> CaboCha\bin\cabocha
gingatetsudono_yoru05.txt
が実行できるか?
18
文節の作成
• cabochaの利用で文節を作る
y:\corpus>CaboCha\bin\cabocha –I0 –O2
gingatetsudo05.txt > gignatetsudo06.txt
今日は良い天気でした.
* 0 -1O
今日 キョウ
は ハ
* 1 -1O
良い ヨイ
* 2 -1O
天気 テンキ
でし デシ
た タた
. ..
EOS
今日
は
名詞-副詞可能
助詞-係助詞
良い
形容詞-自立
-I0 アイのゼロ
–O2 オーの2
B-DATE
O
形容詞・アウオ段
天気
名詞-一般
です
助動詞
特殊・デス 連用形
助動詞
特殊・タ
基本形
O
記号-句点
O
基本形
O
O
O
19
文節の中から自立語を取り出す
• tangotoridasi.plの利用
• その前に
– 文字コードの変換
– perlでは内部でutf-8という文字コードを使用
– *06.txtの文字コードをutf-8にしておく必要あり.
TeraPadで*06.txtを開く.
[ファイル]→[漢字改行コード指定保存]→
漢字コードUTF-8
改行コードCR+LF の状態で保存!
20
文節の中から自立語を取り出す
• tangotoridasi.plの利用
y:\corpus>perl –s tangotoridasi.pl –
fn=“gingatetsudo” <
gingatetsudono_yoru06.txt
> gingatetsudono_yoru07.txt
全部
1行に
書く!!
見出し語;品詞;0;表層形\tヨミ\t基本形\t品
詞..........*;出展
21
ここまでのまとめ
• *02.txt からスタート(先週)
• [#の解析→ *03.txt の作成
• 今週はここからスタート
– 1行1文へ(Kaigyo02.pl) → *04.txt の作成
– 変なところを手作業で直す → *05.txtの作成
– chabochaでの処理 →*06.txtの作成
– tangotoridasiでの処理 → *07.txtの作成
22
もう少し整形を
• seikei01.pl をダウンロード
y:\corpus > perl seikei01.pl <
gingatetsudono_yoru07.txt >
gingatetsudono_yoru08.txt
これにより,
見出し語 \t ヨミ(不完全) \t 表記 \t 品詞 \t 単複 \t
出展
(ここで \t はタブ記号を表す)
23
Excelでの読み込み
• MS-Excelで作成したデータを読み込む
[スタート]→[すべてのプログラム]→[Microsoft
Office]→[Microsoft Office Excel 2003]
起動したら,ファイル→開く→
gingatetsudono_yoru08.txt を選ぶ
24
Excelでの読み込み(2)
• UTF-8
• カンマやタブ
などの区切り文字
...を選ぶ
次へ
25
Excelでの読み込み(3)
• 次の画面では
タブのチェックを
確認
次へ
26
Excelで読み込む(4)
• そのまま
完了を押す
ちゃんと読み込まれることを確認!
27