コーパス言語学入門 2006年1学期 第9回 本日の内容 • 前回のおさらい • 差異係数 • χ2乗検定 2 出現頻度の差の有意差(1) • コーパスを使って,語の出現について調べた 3 出現頻度の差の有意差(2) • コーパスを使って,語の出現について調べた →差があった 4 出現頻度の差の有意差(3) • コーパスを使って,語の出現について調べた →差があった 例: 2つのコーパス間に出現する同一語の 出現回数に差があった. 5 出現頻度の差の有意差(4) • コーパスを使って,語の出現について調べた →差があった 例: 2つのコーパス間に出現する同一語の 出現回数に差があった. – 有意な(意味のある)差といえるか? – それとも,そのくらいの差には意味がないか. 6 出現頻度の差の有意差(5) • コーパスを使って,語の出現について調べた →差があった 例: 2つのコーパス間に出現する同一語の 出現回数に差があった. – 有意な(意味のある)差といえるか? – それとも,そのくらいの差には意味がないか. →検定を行う 7 出現頻度の差の有意差(6) • Hofland & Johansson(1982) Word frequency in British and American Englishを例に説明 • イギリス英語とアメリカ英語の語彙頻度 8 Hofland & Johansson(1982) の例(1) • イギリス英語とアメリカ英語の語彙頻度 対象コーパス:2つ – LOBコーパス=イギリス英語 – Brownコーパス=アメリカ英語 • 対象単語に関する条件 – どちらか1つのコーパスで10回以上出現 かつ – 5テキスト以上出現する語だけに注目 9 Hofland & Johansson(1982)の例(2) • イギリス英語とアメリカ英語の語彙頻度 対象コーパス:2つ – LOBコーパス=イギリス英語 – Brownコーパス=アメリカ英語 あまり頻度のない語で は調査する意味がない • 対象単語に関する条件 – どちらか1つのコーパスで10回以上出現 かつ – 5テキスト以上出現する語だけに注目 10 Hofland & Johansson(1982)の例(3) • イギリス英語とアメリカ英語の語彙頻度 特定のテキストにしか出てこない語 対象コーパス:2つ では一般性に欠ける – LOBコーパス=イギリス英語 – Brownコーパス=アメリカ英語 あまり頻度のない語で は調査する意味がない • 対象単語に関する条件 – どちらか1つのコーパスで10回以上出現 かつ – 5テキスト以上出現する語だけに注目 11 Hofland & Johansson(1982)の例(4) LOB Brown 差 差異係数 adjustment 18 35 -17 -0.32c adjustments 3 20 -17 -0.73a administered 13 14 -1 -0.03 administration 68 161 -93 -0.40a administrative 42 53 -11 -0.11 administrator 6 15 -9 -0.42c administrators 10 5 5 0.33 admirable 20 10 10 0.33 12 差異係数(1) LOB Brown adjustment 18 35 adjustments 3 20 単なる差だけでなく, administered 13 14 差異係数という尺度 administration 68 161 を用いる administrative 42 53 administrator 6 15 administrators 10 5 admirable 20 10 差 差異係数 -17 -0.32c -17 -0.73a -1 -0.03 -93 -0.40a -11 -0.11 -9 -0.42c 5 0.33 10 0.33 13 差異係数(2) 差異係数 = (FreqA-FreqB)/(FreqA+FreqB) = (Freq.LOB – Freq.Brown)/ (Freq.LOB + Freq.Brown) Freqは,frequency(出現頻度,出現回数) Freq.LOBはLOBコーパスでの出現頻度 Freq.BrownはBrownコーパスでの出現頻度 14 差異係数(3) 語iの差異係数 = (FreqAi-FreqBi)/(FreqAi+FreqBi) = (Freq.LOBi – Freq.Browni)/ (Freq.LOBi + Freq.Browni) Freq.LOBiはLOBコーパスでの語iの出現頻度 Freq.BrowniはBrownコーパスでの語iの出現頻度 15 差異係数(4) • 差異係数は -1 ≦ 差異係数 ≦ 1 となる尺度 という2つのコーパスへの出現の偏り 差異係数=(Freq.LOBi–Freq.Browni) / (Freq.LOBi+Freq.Browni) 16 差異係数の計算(1) • 差異係数の計算 – adjustment – adjustments (LOB) 18 (Brown) 35 (LOB) 3 (Brown) 20 • adjustmentの差異係数 = (18-35) / (18+35) = -17/53 = -0.32 • adjustmentsの差異係数= (3-20) / (3+20) = -17/23 = -0.73 17 差異係数の計算(2) • administered – LOB 13 Brown 14 • administration – LOB 68 Brown 161 の計算を行うこと 18 差異係数の計算(3) • 単なる差に比べて,より偏りの傾向が見える. しかし, • この偏りは有効なものと考えてよいのか? → このような場合,統計による検定を行う. 19 次は検定 • 単なる差に比べて,より偏りの傾向が見える. しかし, • この偏りは有効なものと考えてよいのか? → このような場合,統計による検定を行う. 統計の検定にはいろいろな種類がある →χ2検定で統計的有意性があるか検定 20 χ2乗検定(1) • 観測された頻度と,期待される頻度の依存性 をはかる • χ2乗値という値を計算する 21 χ2乗検定(2) • 観測された頻度と,期待される頻度の依存性 をはかる • χ2乗値という値を計算する – 期待された度数(この場合,頻度)と実際に観測 された度数(頻度)が一致すると0になる 22 χ2乗検定(3) • 観測された頻度と,期待される頻度の依存性 をはかる • χ2乗値という値を計算する – 期待された度数(この場合,頻度)と実際に観測 された度数(頻度)が一致すると0になる • ズレが大きいとχ2乗値も大きくなる 23 χ2乗検定(4) • 観測された頻度と,期待される頻度の依存性 をはかる • χ2乗値という値を計算する – 期待された度数(この場合,頻度)と実際に観測 された度数(頻度)が一致すると0になる • ズレが大きいとχ2乗値も大きくなる • χ2乗分布という理論的に考えられた分布と, χ2乗値とを使って,ズレ(差)が大きいかどう かを確かめる. 24 χ2乗検定(5) • χ2乗検定の計算 (Oi Ei ) Ei i 1 2 2 2 • iはコーパス, i=1の時LOB, i=2の時Brownコーパス • Oi はコーパスiでの観測値,つまり出現頻度 • Ei はコーパスiでの期待値,期待される出現頻度 25 χ2乗検定(6) • 例:adjustmentの出現頻度についての検定 • χ2乗検定:仮説検定 • ① 仮説を立てる – 「帰無仮説(H0)」という仮説を立てる – 「~には差はない」という形になる • H0: adjustmentの使用頻度はイギリス英語とアメリ カ英語で差がない 26 χ2乗検定(7) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で 差がない – ある主張が正しいということを示すのは大変. 27 χ2乗検定(8) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で 差がない – ある主張が正しいということを示すのは大変. – ある主張が正しくないということを示すためには, その主張に反する証拠を1つ示せばよい. 28 χ2乗検定(9) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で 差がない – ある主張が正しいということを示すのは大変. – ある主張が正しくないということを示すためには, その主張に反する証拠を1つ示せばよい. – 統計による検定では,わざと主張が正しくない方 が好ましい仮説を立てて,それが否定されること を示すという方法が取られる. 29 χ2乗検定(10) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で 差がない – 統計による検定では,わざと主張が正しくない方 が好ましい仮説を立てて,それが否定されること を示すという方法が取られる. – ここで帰無仮説が否定されると,逆の主張が肯 定される 30 χ2乗検定(11) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で 差がない – 統計による検定では,わざと主張が正しくない方 が好ましい仮説を立てて,それが否定されること を示すという方法が取られる. – ここで帰無仮説が否定されると,逆の主張が肯 定される – 帰無仮説が成り立たない場合 (「帰無仮説が棄却された」) 31 χ2乗検定(12) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で 差がない – 帰無仮説が成り立たない場合(「棄却された」) →対立仮説 H1:adjustmentの使用頻度はイギリス英語とアメリカ英語で 差がある 32 χ2乗検定(13) • ① 仮説(帰無仮説)を立てる H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で 差がない – 帰無仮説が成り立たない場合(「棄却された」) →対立仮説 H1:adjustmentの使用頻度はイギリス英語とアメリカ英語で 差がある という仮説がある程度の確率で言えることになる. 33 χ2乗検定(14) • ② adjustmentのχ2乗値を計算 (Oi Ei ) Ei i 1 2 2 2 i=1の時, LOBで18回 O1 = 18 i=2の時,Brown で35回 O2=35 34 χ2乗検定(15) • ② adjustmentのχ2乗値を計算 (Oi Ei ) Ei i 1 2 2 2 i=1の時, LOBで18回 O1 = 18 i=2の時,Brown で35回 O2=35 2つのコーパスのサイズはほぼ同数 出現に有意な差がないとすると 同数出現すると考えるのが自然. 期待値Eは平均として計算することにする. 35 χ2乗検定(16) • ② adjustmentのχ2乗値を計算 2 ( O E ) i 2 i Ei i 1 2 i=1の時, LOBで18回 O1 = 18 i=2の時,Brown で35回 O2=35 期待値Eは平均として計算することにする. E1 E2 (O1 O2 ) / 2 (18 35) / 2 26.5 36 χ2乗検定(17) • ② adjustmentのχ2乗値を計算 2 ( O E ) i 2 i Ei i 1 2 i=1の時, LOBで18回 O1 = 18 i=2の時,Brown で35回 O2=35 期待値Eは平均として計算することにする. E1 E2 (O1 O2 ) / 2 (18 35) / 2 26.5 (18 26.5) 2 / 26.5 (35 26.5) 2 / 26.5 8.52 / 26.5 8.52 / 26.5 72.25 / 26.5 72.25 / 26.5 5.45 37 5.45 χ2乗検定(18) 2 ③χ2分布を見て,χ2値が大きいかどうか調 べる → χ2分布表 38 5.45 χ2乗検定(19) 2 ③χ2分布を見て,χ2値が大きいかどうか調 べる → χ2分布表 自由度1で5.45 が上回るところを探す. (自由度は変数の数―1, コーパスが2つでi=1,2なので自由度は 2-1=1) 39 5.45 χ2乗検定(20) 2 ③χ2分布を見て,χ2値が大きいかどうか調 べる → χ2分布表 自由度1で5.45 が上回るところを探す. (自由度は変数の数―1, コーパスが2つでi=1,2なので自由度は 2-1=1) 分布表によると, 確率レベル0.05の時,3.84を上回っている 0.01の時,6.63なので下回る. 40 5.45 χ2乗検定(21) 2 ③χ2分布を 確率レベル0.05の時,3.84を上回っている 0.01の時,6.63なので下回る. adjustmentでの出現 χ2値=5.45 41 5.45 χ2乗検定(22) 2 ③χ2分布を 0~2.71の値になる確率は90% 確率レベル0.05の時,3.84を上回っている 0~3.84の値になる確率は95% 0~6.63の値になる確率は99% 0.01の時,6.63なので下回る. adjustmentでの出現 χ2値=5.45 42 5.45 χ2乗検定(23) 2 ③χ2分布を 0~2.71の値になる確率は90% 確率レベル0.05の時,3.84を上回っている 0~3.84の値になる確率は95% 0~6.63の値になる確率は99% 0.01の時,6.63なので下回る. adjustmentでの出現 χ2値=5.45 χ2値が5.45ということは3.84 (5%)~6.63(1%)の間にあ る.→ 有意水準5%で, めったに起こらない. 43 5.45 χ2乗検定(24) 2 例:adjustmentの出現の仕方(差)は,めったに起こら ないことである(100回のうち5回以下) χ2値が5.45ということは3.84 (5%)~6.63(1%)の間にあ る.→ 有意水準5%で, めったに起こらない. 44 5.45 χ2乗検定(25) 2 例:adjustmentの出現の仕方(差)は,めったに起こら ないことである(100回のうち5回以下) 有意水準5%で,帰無仮説が棄却され,差には意味がある χ2値が5.45ということは3.84 (5%)~6.63(1%)の間にあ る.→ 有意水準5%で, めったに起こらない. 45 確率レベル,優位水準 確率レベル 0.10...100回に10回起こりうるとする確率 α 0.05...100回に 5回起こりうるとする確率 0.01...100回に 1回起こりうるとする確率 • 有意水準:よく起こることと,めったに起こらないことを,どこ を基準に判断しているかという水準. • 5%か1%が伝統的に有意水準. • 5%:出現確率が5%より大きければよく起こる. ↓ならめったに起こらない • 1%:出現確率が5%より大きければよく起こる. ↓ならめったに起こらない • 5%~10%:「有意傾向」にあると考えるのが一般的. 46 本日はここまで • 時間があれば, – MS-Excelを起動して,データの入力 LOB Brown 差 差異係数 adjustment 18 35 adjustments 3 20 administered 13 14 administration 68 161 administrative 42 53 administrator 6 15 administrators 10 5 admirable 20 10 47
© Copyright 2024 ExpyDoc