コーパス言語学入門 2006年度1学期 第11回 本日の内容 • 分析の実習 – 相関の分析 2 平均,相関など(2) • 相関:非常に簡単な文体の研究を例に... 一人の作家が使う人称呼称「自分」「私」「僕」 「俺」「あなた」「君」に注目 使い方に特徴がみられるかどうかを考える 3 平均,相関など(3) 1. データの収集 青空文庫から一人の作家の作品を収集 例:「夏目漱石」の作品を収集 2. データの加工 処理のためのタグを付与(今回は管理タグだけ) 解析対象のテキストを加工(不要箇所除去後1行1文に) 形態素解析を実行(単語を切り出して,品詞付与) 4 平均,相関など(4) 3. 単語頻度情報データの作成 単語ごとの出現頻度を計算 4. 注目単語を取り出す 5. 分析用データの作成 6. MS-Excelを利用して相関の計算 5 平均,相関など(5) • 相関rの値の見方 0.0 =< | r | =<0.2 → 0.2 < | r | =<0.4 → 0.4 < | r | =< 0.7 → 0.7 < | r | =< 1.0 → ほとんど相関なし 弱い相関あり 比較的強い相関あり 強い相関あり というのがひとつの考え方 6 平均,相関など(5) r=0 • 相関rの値の見方 0.0 =< | r | =<0.2 →ほとんど相関なし 0.2 < | r | =<0.4 0.6 →弱い相関あり 0.4 < | r | =< 0.7 →比較的強い相関あり 0.7 < | r | =< 1.0 →強い相関あり 0.2 0.4 0.8 1.0 7 レポート2 • 提出期限 – 7月4日(火) 授業開始前 2部用意:1部は提出,1部は授業中に使用 忘れずに7月4日,当日持参すること 8
© Copyright 2024 ExpyDoc