コーパス言語学入門 2006年1学期 第10回 本日の内容 • 前回のおさらい • 実習 – χ2乗検定1 – χ2乗検定2 • 相関 2 実習Excelで計算(1) • Excelを起動 • 行,列に項目名を入力 B1 観測された頻度 B2 LOB C2 Brown D2 差異係数 3 実習Excelで計算(2) • Excelを起動 • 行,列に項目名を入力 B1 観測された頻度 B2 LOB C2 Brown D2 差異係数 • 単語と観測値を入力 adjustment 18 35 adjustments 3 20 administered 13 14 administration 68 161 administrative 42 53 4 実習Excelで計算(3) • D3~D10まで,差異係数を計算する 1. D3セルをクリック 2. =(B3-C3)/(B3+C3) と入力 3. D3セルをクリック,右下の■をマウスでD10セ ルまでドラッグ (自動的に差異係数の計算式がコピーされる) 5 実習Excelで計算(4) • 合計の計算 – 1. 2. 3. 4. F2に「合計」と入力 F3セルをクリック Σ(オートサム)を選択 C3,D3,E3をΣの計算の範囲に設定する F3セルをクリック,右下の■をマウスでF10セ ルまでドラッグ (自動的に合計の計算式がコピーされる) 6 実習Excelで計算(5) • 各単語の期待値の計算 – – 1. 2. 3. G1に「期待値」と入力 G2に「LOB」,H2に「Brown」と入力 G3セルをクリック 計算式を入力「=$F3/2」 G3セルをクリック,右下の■をマウスでG10セ ルまでドラッグ (自動的に合計の計算式がコピーされる) 4. 続けて,H3までドラッグ 7 実習Excelで計算(6) • χ2乗検定の計算 – – 1. 2. 3. 4. 5. 6. I2に「χ2乗検定」と入力 χ2乗検定はExcelの関数を利用して計算可能 F3をクリック 数式バーのfx (関数の挿入)をクリック 関数の挿入ウィンドウから「CHITEST」を選ぶ 実測値範囲の入力ボックス:B3とC3を指定 期待値範囲の入力ボックス:G3とH3を指定 I3をクリックし,右下の■をマウスでI10セルま でドラッグ 8 実習Excelで計算(7) • χ2乗検定結果から優位水準を確認 – I3~I10にテスト結果が入っているので結果に 応じて,E列に判断結果を入力 1. E3に =IF(I3<0.001,“a”,(IF(I3>0.01,“c”, (IF(I3>0.01,”c”, “”))))) 2. E3をクリックし,右下の■をマウスでE10セル までドラッグ (これにより,判断結果が示される) 9 実習Excelで計算(8) • ついでに,χ2乗値を計算 – χ2乗値を改めて計算 1. J3をクリック 2. J3に「=(B3-G3)^2/G3+ (C3-H3)^2/H3 3. J3をクリックし,右下の■をマウスでJ10セル までドラッグ(これにより,判断結果が示される) 10 実習Excelで計算(9) • χ2乗値を見て,χ2乗分布表で確認 – 自由度(degrees of freedom) 自由な値をとることができる数 例:adjustment 合計53,LOBとBrownで分ける LOBが18だとするとBrownは35で決まり 2つの内,一方しか自由に数を選べない 2 →自由度1 (O E ) 2 2 i 1 i i Ei 11 χ2乗検定の例2(1) • テキストジャンルと法助動詞の関係 法の助動詞は,確信の度合い(may, mightなど) 意思(will),能力(can),義務(will)などを表すもの 特徴:(1)人称・数で語形変化しない(I can, He can, We can) (2)活用が不完全. • 助動詞には原型,不定詞,分詞がない. • must, ought to には過去形なし,used toには現在形がない 現在形 過去形, 現在形 過去形 can will may shall might should could, would, 12 χ2乗検定の例2(2) • テキストジャンルと法助動詞の関係 法の助動詞は,確信の度合い(may, mightなど) 意思(will),能力(can),義務(will)などを表すもの 特徴:(1)人称・数で語形変化しない(I can, He can, We can) (2)活用が不完全. • 助動詞には原型,不定詞,分詞がない. ジャンルの違いと法助動詞の使い方に • must, ought to には過去形なし,used toには現在形がない 現在形 過去形, 現在形 違いがあるか? 過去形 can could, may might →will Brownコーパスを使いデータを収集 would, shall should 13 χ2乗検定の例2(3) • 帰無仮説(H0): 「ジャンルと法助動詞の使用頻度には関連性 がない」 →χ2乗検定を行う 14 χ2乗検定の例2(4) →χ2乗検定を行う • i行 j列の表全体のχ2乗値は次式で計算する i 1 j 1 2 I J (Oij Eij ) 2 Eij ここでOijはi行j列のセルの値(実際には観測された値) →ジャンルBのmayは2行3列のセルで74 O23=74 15 χ2乗検定の例2(5) →χ2乗検定を行う • i行 j列の表全体のχ2乗値は次式で計算する i 1 j 1 2 I J (Oij Eij ) 2 Eij ここでEijはOijのセルの期待値.ここでは Eij=i行の起きる確率×j列の起きる確率×総合計 16 χ2乗検定の例2(6) →χ2乗検定を行う • i行 j列の表全体のχ2乗値は次式で計算する2 i 1 j 1 2 I J ここでEijはOijのセルの期待値.ここでは (Oij Eij ) Eij Eij=i行の起きる確率×j列の起きる確率×総合計 =(i行の合計/総合計)×(j列の合計/総合計)×総合計 i行目の合計 j列の合計 総合計 総合計 総合計 17 χ2乗検定の例2(7) →χ2乗検定を行う • i行 j列の表全体のχ2乗値は次式で計算する2 i 1 j 1 2 I J ここでEijはOijのセルの期待値.ここでは (Oij Eij ) Eij Eij=i行の起きる確率×j列の起きる確率×総合計 i行目の合計 j列の合計 総合計 総合計 総合計 i行目の合計 j行目の合計 Eij 総合計 18 χ2乗検定の例2(8) • 期待値の計算例 2 i 1 j 1 I J (Oij Eij ) 2 Eij 1059 1302 14039 E23 14039 14039 1059 1302 98.1267... 14039 19 χ2乗検定の例2(9) • 2 i 1 j 1 I 期待値の計算例 J (Oij Eij ) 2 (O11 E11 ) (O12 E12 ) E11 E12 2 Eij 2 2 (O21 E21 ) ... ...................... E21 2 ... (O15,9 E15,9 ) E15,9 2 2629.14 20 χ2乗検定の例2(10) • χ2乗分布表で2629.14について調べる – 自由度は? 変数が2つ(iとj)あるので,それぞれの自由度の 掛け算で出す. iの自由度 (15-1) × jの自由度 (9-1) = 14×8 = 112 21 χ2乗検定の例2(11) • χ2乗分布表で2629.14について調べる – 自由度は? 変数が2つ(iとj)あるので,それぞれの自由度の 掛け算で出す. iの自由度 (15-1) × jの自由度 (9-1) = 14×8 = 112 この自由度112は表にない→200で代用 (このくらい大きな自由度の場合,さほど問題なし) 22 χ2乗検定の例2(12) • χ2乗分布表で2629.14について調べる – 自由度112で,2629.14は,0.001の267.5より上 この事象が起こりうる確率は0.1%以下である 23 χ2乗検定の例2(13) • χ2乗分布表で2629.14について調べる – 自由度112で,2629.14は,0.001の267.5より上 この事象が起こりうる確率は0.1%以下である χ2乗検定により,帰無仮説は棄却される 24 χ2乗検定の例2(14) • χ2乗分布表で2629.14について調べる – 自由度112で,2629.14は,0.001の267.5より上 この事象が起こりうる確率は0.1%以下である χ2乗検定により,帰無仮説は棄却される ↓ 「テキストジャンルと法助動詞の使われ方には偏 りがある」と有意水準0.001でいえる 25 χ2乗検定の例2(15) • χ2乗分布表で2629.14について調べる ただし,全体として偏りがあるということが –わかったが,具体的にどのジャンル,法助 自由度112で,2629.14は,0.001の267.5より上 動詞間に偏りがあるかはわからない この事象が起こりうる確率は0.1%以下である →別の手法を使う必要がある χ2乗検定により,帰無仮説は棄却される 多変量解析:数量化Ⅲ類など (省略) ↓ 「テキストジャンルと法助動詞の使われ方には偏 りがある」と有意水準0.001でいえる 26 平均,相関など(1) • 相関 – 2つの量の間の関連性を表す指標(線形) 一方が増えると,もう一方も増える 正の相関 一方が増えると,もう一方が減る 負の相関 27 平均,相関など(2) • 相関:非常に簡単な文体の研究を例に... 一人の作家が使う人称呼称「自分」「私」「僕」 「俺」「あなた」「君」に注目 使い方に特徴がみられるかどうかを考える 28 平均,相関など(3) 1. データの収集 青空文庫から一人の作家の作品を収集 例:「夏目漱石」の作品を収集 2. データの加工 処理のためのタグを付与(今回は管理タグだけ) 解析対象のテキストを加工(不要箇所除去後1行1文に) 形態素解析を実行(単語を切り出して,品詞付与) 29 平均,相関など(4) 3. 単語頻度情報データの作成 単語ごとの出現頻度を計算 4. 注目単語を取り出す 5. 分析用データの作成 6. MS-Excelを利用して相関の計算 30 平均,相関など(5) • 相関rの値の見方 0.0 =< | r | =<0.2 → 0.2 < | r | =<0.4 → 0.4 < | r | =< 0.7 → 0.7 < | r | =< 1.0 → ほとんど相関なし 弱い相関あり 比較的強い相関あり 強い相関あり というのがひとつの考え方 31 平均,相関など(5) r=0 • 相関rの値の見方 0.0 =< | r | =<0.2 →ほとんど相関なし 0.2 < | r | =<0.4 0.6 →弱い相関あり 0.4 < | r | =< 0.7 →比較的強い相関あり 0.7 < | r | =< 1.0 →強い相関あり 0.2 0.4 0.8 1.0 32
© Copyright 2024 ExpyDoc