コーパス言語学実践

コーパス言語学実践
2006年度2学期
第6回
本日の内容
• 前回までのまとめ
– 今現在の状態の確認
– 追いついていない人→追いつく
• Excelへの読み込み
• 分析１
– 品詞構成比率の計算
2
前回までの確認
• cabochaの利用で文節を作る
y:\corpus>CaboCha\bin\cabocha
I0 –O2 gingatetsudo05.txt >
gignatetsudo06.txt
全部1行で記す！
オプションなどの間に
は空白を入れること！
–
-I0 アイのゼロ
–O2 オーの2
3
前回までの確認
（文節の中から自立語を取り出す）
• tangotoridasi.plの利用の前に
– 文字コードをutf-8というコードに変換
– *06.txtの文字コードをutf-8にしておく必要あり．
●やり方1：TeraPadで*06.txtを開く．
[ファイル]→[漢字改行コード指定保存]→
漢字コードUTF-8
改行コードCR+LF の状態で保存！
●やり方2：メモ帳で*06.txtを開く．
[ファイル]→[名前を付けて保存]
文字コード(E): UTF-8 にして保存！
4
前回までの確認
（文節の中から自立語を取り出す）
• tangotoridasi.plの利用
y:\corpus>perl –s tangotoridasi.pl
–fn=“gingatetsudo” <
gingatetsudono_yoru06.txt
> gingatetsudono_yoru07.txt
全部
1行に
書く!!
見出し語;品詞;0;表層形\tヨミ\t基本形\t品
詞..........*;出展ここは出展情報なので自由に記述
してよい（どの作品か分かる程度）
5
前回までの確認
（もう少し整形を）
• seikei01.pl をダウンロード
y:\corpus > perl seikei01.pl <
gingatetsudono_yoru07.txt >
gingatetsudono_yoru08.txt
これにより，
見出し語 \t ヨミ（不完全） \t 表記 \t 品詞 \t 単複 \t
出展
（ここで \t はタブ記号を表す）
6
前回までの確認
• seikei01.plまでの処理を行う
＊08.txt が完成
見出し語 \t ヨミ（不完全） \t 表記 \t 品詞
\t 単複 \t 出展
（ここで \t はタブ記号を表す）
7
Excelでの読み込み
• MS-Excelで作成したデータを読み込む
[スタート]→［すべてのプログラム］→［Microsoft
Office］→［Microsoft Office Excel 2003］
起動したら，ファイル→開く→
gingatetsudono_yoru08.txt を選ぶ
8
Excelでの読み込み（2）
• UTF-8
• カンマやタブ
などの区切り文字
．．．を選ぶ
次へ
9
Excelでの読み込み（3）
• 次の画面では
タブのチェックを
確認
次へ
10
Excelで読み込む（4）
• そのまま
完了を押す
ちゃんと読み込まれることを確認！
11
分析１（品詞構成比率）
• Ｅｘｃｅｌを使って品詞ごとの数を数える
• 品詞構成比率を計算する
• この作業をする
12
品詞構成比率（2）
• まずは各テキストごとの各品詞ごとの数を数える
Excelに読み込んだファイル
ここをクリック
13
品詞構成比率（3）
• まずは各テキストごとの各品詞ごとの数を数える
Excelに読み込んだファイル
ここをクリック
14
品詞構成比率（4）
• まずは各テキストごとの各品詞ごとの数を数える
Excelに読み込んだファイル
「データ」→「フィルタ」→「オートフィルタ」
15
品詞構成比率（5）
• まずは各テキストごとの各品詞ごとの数を数える
Excelに読み込んだファイル
名詞を選ぶ
16
品詞構成比率（6）
• まずは各テキストごとの各品詞ごとの数を数える
Excelに読み込んだファイル
名詞をだけ
が選ばれる
17
品詞構成比率（7）
• まずは各テキストごとの各品詞ごとの数を数える
品詞構成を計算しよう
名
詞
動
詞
形
容
詞
副
詞
連
体
詞
接
続
詞
感
動
詞
記
号
合
計
度数
比率％
18
品詞構成比率２（1）
• 先ほどは，品詞のカウントが延べ語数だった．
• 今度は異なり語数でカウントしてみる．
→次回にするので，方法を考えてみよう．
19

Download Report