コーパス言語学入門

コーパス言語学入門
2006年度1学期 第11回
本日の内容
• 分析の実習
– 相関の分析
2
平均,相関など(2)
• 相関:非常に簡単な文体の研究を例に...
一人の作家が使う人称呼称「自分」「私」「僕」
「俺」「あなた」「君」に注目
使い方に特徴がみられるかどうかを考える
3
平均,相関など(3)
1. データの収集
青空文庫から一人の作家の作品を収集
例:「夏目漱石」の作品を収集
2. データの加工
処理のためのタグを付与(今回は管理タグだけ)
解析対象のテキストを加工(不要箇所除去後1行1文に)
形態素解析を実行(単語を切り出して,品詞付与)
4
平均,相関など(4)
3. 単語頻度情報データの作成
単語ごとの出現頻度を計算
4. 注目単語を取り出す
5. 分析用データの作成
6. MS-Excelを利用して相関の計算
5
平均,相関など(5)
•
相関rの値の見方
0.0 =< | r | =<0.2 →
0.2 < | r | =<0.4 →
0.4 < | r | =< 0.7 →
0.7 < | r | =< 1.0 →
ほとんど相関なし
弱い相関あり
比較的強い相関あり
強い相関あり
というのがひとつの考え方
6
平均,相関など(5)
r=0
• 相関rの値の見方
0.0 =< | r | =<0.2
→ほとんど相関なし
0.2 < | r | =<0.4
0.6
→弱い相関あり
0.4 < | r | =< 0.7
→比較的強い相関あり
0.7 < | r | =< 1.0
→強い相関あり
0.2
0.4
0.8
1.0
7
レポート2
• 提出期限
– 7月4日(火) 授業開始前
2部用意:1部は提出,1部は授業中に使用
忘れずに7月4日,当日持参すること
8