コーパス言語学実践

コーパス言語学実践
2006年度2学期
第6回
本日の内容
• 前回までのまとめ
– 今現在の状態の確認
– 追いついていない人→追いつく
• Excelへの読み込み
• 分析1
– 品詞構成比率の計算
2
前回までの確認
• cabochaの利用で文節を作る
y:\corpus>CaboCha\bin\cabocha
I0 –O2 gingatetsudo05.txt >
gignatetsudo06.txt
全部1行で記す!
オプションなどの間に
は空白を入れること!
–
-I0 アイのゼロ
–O2 オーの2
3
前回までの確認
(文節の中から自立語を取り出す)
• tangotoridasi.plの利用の前に
– 文字コードをutf-8というコードに変換
– *06.txtの文字コードをutf-8にしておく必要あり.
●やり方1:TeraPadで*06.txtを開く.
[ファイル]→[漢字改行コード指定保存]→
漢字コードUTF-8
改行コードCR+LF の状態で保存!
●やり方2:メモ帳で*06.txtを開く.
[ファイル]→[名前を付けて保存]
文字コード(E): UTF-8 にして保存!
4
前回までの確認
(文節の中から自立語を取り出す)
• tangotoridasi.plの利用
y:\corpus>perl –s tangotoridasi.pl
–fn=“gingatetsudo” <
gingatetsudono_yoru06.txt
> gingatetsudono_yoru07.txt
全部
1行に
書く!!
見出し語;品詞;0;表層形\tヨミ\t基本形\t品
詞..........*;出展 ここは出展情報なので自由に記述
してよい(どの作品か分かる程度)
5
前回までの確認
(もう少し整形を)
• seikei01.pl をダウンロード
y:\corpus > perl seikei01.pl <
gingatetsudono_yoru07.txt >
gingatetsudono_yoru08.txt
これにより,
見出し語 \t ヨミ(不完全) \t 表記 \t 品詞 \t 単複 \t
出展
(ここで \t はタブ記号を表す)
6
前回までの確認
• seikei01.plまでの処理を行う
*08.txt が完成
見出し語 \t ヨミ(不完全) \t 表記 \t 品詞
\t 単複 \t 出展
(ここで \t はタブ記号を表す)
7
Excelでの読み込み
• MS-Excelで作成したデータを読み込む
[スタート]→[すべてのプログラム]→[Microsoft
Office]→[Microsoft Office Excel 2003]
起動したら,ファイル→開く→
gingatetsudono_yoru08.txt を選ぶ
8
Excelでの読み込み(2)
• UTF-8
• カンマやタブ
などの区切り文字
...を選ぶ
次へ
9
Excelでの読み込み(3)
• 次の画面では
タブのチェックを
確認
次へ
10
Excelで読み込む(4)
• そのまま
完了を押す
ちゃんと読み込まれることを確認!
11
分析1(品詞構成比率)
• Excelを使って品詞ごとの数を数える
• 品詞構成比率を計算する
• この作業をする
12
品詞構成比率(2)
• まずは各テキストごとの各品詞ごとの数を数える
Excelに読み込んだファイル
ここをクリック
13
品詞構成比率(3)
• まずは各テキストごとの各品詞ごとの数を数える
Excelに読み込んだファイル
ここをクリック
14
品詞構成比率(4)
• まずは各テキストごとの各品詞ごとの数を数える
Excelに読み込んだファイル
「データ」→「フィルタ」→「オートフィルタ」
15
品詞構成比率(5)
• まずは各テキストごとの各品詞ごとの数を数える
Excelに読み込んだファイル
名詞を選ぶ
16
品詞構成比率(6)
• まずは各テキストごとの各品詞ごとの数を数える
Excelに読み込んだファイル
名詞をだけ
が選ばれる
17
品詞構成比率(7)
• まずは各テキストごとの各品詞ごとの数を数える
品詞構成を計算しよう
名
詞
動
詞
形
容
詞
副
詞
連
体
詞
接
続
詞
感
動
詞
記
号
合
計
度数
比率%
18
品詞構成比率2(1)
• 先ほどは,品詞のカウントが延べ語数だった.
• 今度は異なり語数でカウントしてみる.
→次回にするので,方法を考えてみよう.
19