コーパス言語学実践

コーパス言語学実践
2006年度2学期
第7回
本日の内容
• 前回までのまとめ
– ファイルの確認
– ファイルの分割
– エクセルでの作業(品詞構成比率 延べ語数)
• 品詞構成比率(異なり語数)
• データ収集(占いのことば)
2
前回までの確認
• seikei01.plまでの処理を行う
*08.txt が完成
見出し語 \t ヨミ(不完全) \t 表記 \t 品詞
\t 単複 \t 出展
(ここで \t はタブ記号を表す)
3
前回までの確認(2)
gingatetsudono_yoru08.txt
kumono_ito08.txt
saigono_ikku08.txt
wagahaiwa_nekodearu08.txt
4
前回までの確認(3)+α
wagahaiwa_nekodearu08.txt
head.pl と head2.pl を使う
分割
y:\corpus> perl head.pl 40000
wagahaiwa_nekodearu08.txt >
wagahaiwa_nekodearu0801.txt
1行に書く
y:\corpus> perl head2.pl 40000
wagahaiwa_nekodearu08.txt >
wagahaiwa_nekodearu0802.txt
1行に書く
5
Excelでの読み込み(再)
• MS-Excelで作成したデータを読み込む
[スタート]→[すべてのプログラム]→[Microsoft
Office]→[Microsoft Office Excel 2003]
起動したら,ファイル→開く→
gingatetsudono_yoru08.txt を選ぶ
6
Excelでの読み込み(再2)
• UTF-8
• カンマやタブ
などの区切り文字
...を選ぶ
次へ
7
Excelでの読み込み(再3)
• 次の画面では
タブのチェックを
確認
次へ
8
Excelで読み込む(再4)
• そのまま
完了を押す
ちゃんと読み込まれることを確認!
9
分析1(品詞構成比率)
• Excelを使って品詞ごとの数を数える
• 品詞構成比率を計算する
• この作業をする
10
Excel追加作業
• 「1」行をクリック
11
Excel追加作業
• 「挿入」→「行」を追加
12
Excel追加作業
• 行が追加される
13
Excel追加作業
• A1 「見出し語」 B1「ヨミ」 C1「表層語」
D1「品詞」 E1「単複」 F1「出展」
14
Excel追加作業
• 1行追加して,各データ(フィールド)の名前を
書いたら保存 ( xls ファイルにする!)
[ファイル]→[名前をつけて保存]→
ファイルの種類を「Microsoft Office Excel ブック(*.xls)」
にして保存
例 kumono_ito08.txt
→ kumono_ito08.xls
15
品詞構成比率(延べ語数)1
• オートフィルタを設定する
ここをクリック
16
品詞構成比率(延べ語数)2
• オートフィルタ
[データ]→[フィルタ]→[オートフィルタ]
17
品詞構成比率(延べ語数)3
• [品詞▼]を押して品詞を選ぶ(例:名詞)
注目
18
品詞構成比率(延べ語数)4
• 新しいワークシートを作成する
ここを右クリックする
挿入を選ぶ
19
品詞構成比率(延べ語数)5
• 新しいワークシートを選ぶ
20
品詞構成比率(延べ語数)6
• ワークシートの順番を変える
Sheet1をドラックして
順番を変える
21
品詞構成比率(延べ語数)7
• 新しいワークシートに品詞名を書く
数字を
入れる
22
品詞構成比率(延べ語数)8
• 延べ語数を記入した後,合計と各比率を計算
23
作業
• 4テキストともやってください.
24
品詞構成比率(異なり語数)1
• 異なり語数でカウントする.
右クリックして
25
品詞構成比率(異なり語数)2
• 異なり語数でカウントする.
チェックしてOK
26
品詞構成比率(異なり語数)3
• シートがコピーされる!
27
品詞構成比率(異なり語数)4
• 全体を選んで,データ,並べ替えを選ぶ
28
品詞構成比率(異なり語数)5
• このようにする
– 品詞
– 見出し語
– ヨミ
29
品詞構成比率(異なり語数)6
• フィルタオプションの設定
30
品詞構成比率(異なり語数)7
• フィルタオプションの設定
重複するレコードは無視
31
品詞構成比率(異なり語数)8
• 異なりだけが表示される
32
品詞構成比率(異なり語数)9
• 新しいワークシートを作成する
右クリックして挿入
33
品詞構成比率(異なり語数)10
• コピーして
34
品詞構成比率(異なり語数)11
• コピーしてペースト(貼り付け)
新しいワークシート
35
品詞構成比率(異なり語数)12
• 新しいワークシート上に異なり語数用のデー
タがコピーされる
36
品詞構成比率(異なり語数)13
• 異なり語数での品詞を数える!
• やり方は延べ語数の時と同じ
– 作業!
データは保存しておく
37