コーパス言語学実践 2006年度2学期 第7回 本日の内容 • 前回までのまとめ – ファイルの確認 – ファイルの分割 – エクセルでの作業(品詞構成比率 延べ語数) • 品詞構成比率(異なり語数) • データ収集(占いのことば) 2 前回までの確認 • seikei01.plまでの処理を行う *08.txt が完成 見出し語 \t ヨミ(不完全) \t 表記 \t 品詞 \t 単複 \t 出展 (ここで \t はタブ記号を表す) 3 前回までの確認(2) gingatetsudono_yoru08.txt kumono_ito08.txt saigono_ikku08.txt wagahaiwa_nekodearu08.txt 4 前回までの確認(3)+α wagahaiwa_nekodearu08.txt head.pl と head2.pl を使う 分割 y:\corpus> perl head.pl 40000 wagahaiwa_nekodearu08.txt > wagahaiwa_nekodearu0801.txt 1行に書く y:\corpus> perl head2.pl 40000 wagahaiwa_nekodearu08.txt > wagahaiwa_nekodearu0802.txt 1行に書く 5 Excelでの読み込み(再) • MS-Excelで作成したデータを読み込む [スタート]→[すべてのプログラム]→[Microsoft Office]→[Microsoft Office Excel 2003] 起動したら,ファイル→開く→ gingatetsudono_yoru08.txt を選ぶ 6 Excelでの読み込み(再2) • UTF-8 • カンマやタブ などの区切り文字 ...を選ぶ 次へ 7 Excelでの読み込み(再3) • 次の画面では タブのチェックを 確認 次へ 8 Excelで読み込む(再4) • そのまま 完了を押す ちゃんと読み込まれることを確認! 9 分析1(品詞構成比率) • Excelを使って品詞ごとの数を数える • 品詞構成比率を計算する • この作業をする 10 Excel追加作業 • 「1」行をクリック 11 Excel追加作業 • 「挿入」→「行」を追加 12 Excel追加作業 • 行が追加される 13 Excel追加作業 • A1 「見出し語」 B1「ヨミ」 C1「表層語」 D1「品詞」 E1「単複」 F1「出展」 14 Excel追加作業 • 1行追加して,各データ(フィールド)の名前を 書いたら保存 ( xls ファイルにする!) [ファイル]→[名前をつけて保存]→ ファイルの種類を「Microsoft Office Excel ブック(*.xls)」 にして保存 例 kumono_ito08.txt → kumono_ito08.xls 15 品詞構成比率(延べ語数)1 • オートフィルタを設定する ここをクリック 16 品詞構成比率(延べ語数)2 • オートフィルタ [データ]→[フィルタ]→[オートフィルタ] 17 品詞構成比率(延べ語数)3 • [品詞▼]を押して品詞を選ぶ(例:名詞) 注目 18 品詞構成比率(延べ語数)4 • 新しいワークシートを作成する ここを右クリックする 挿入を選ぶ 19 品詞構成比率(延べ語数)5 • 新しいワークシートを選ぶ 20 品詞構成比率(延べ語数)6 • ワークシートの順番を変える Sheet1をドラックして 順番を変える 21 品詞構成比率(延べ語数)7 • 新しいワークシートに品詞名を書く 数字を 入れる 22 品詞構成比率(延べ語数)8 • 延べ語数を記入した後,合計と各比率を計算 23 作業 • 4テキストともやってください. 24 品詞構成比率(異なり語数)1 • 異なり語数でカウントする. 右クリックして 25 品詞構成比率(異なり語数)2 • 異なり語数でカウントする. チェックしてOK 26 品詞構成比率(異なり語数)3 • シートがコピーされる! 27 品詞構成比率(異なり語数)4 • 全体を選んで,データ,並べ替えを選ぶ 28 品詞構成比率(異なり語数)5 • このようにする – 品詞 – 見出し語 – ヨミ 29 品詞構成比率(異なり語数)6 • フィルタオプションの設定 30 品詞構成比率(異なり語数)7 • フィルタオプションの設定 重複するレコードは無視 31 品詞構成比率(異なり語数)8 • 異なりだけが表示される 32 品詞構成比率(異なり語数)9 • 新しいワークシートを作成する 右クリックして挿入 33 品詞構成比率(異なり語数)10 • コピーして 34 品詞構成比率(異なり語数)11 • コピーしてペースト(貼り付け) 新しいワークシート 35 品詞構成比率(異なり語数)12 • 新しいワークシート上に異なり語数用のデー タがコピーされる 36 品詞構成比率(異なり語数)13 • 異なり語数での品詞を数える! • やり方は延べ語数の時と同じ – 作業! データは保存しておく 37
© Copyright 2024 ExpyDoc