コーパス言語学入門

コーパス言語学入門
2006年1学期 第9回
本日の内容
• 前回のおさらい
• 差異係数
• χ2乗検定
2
出現頻度の差の有意差(1)
• コーパスを使って,語の出現について調べた
3
出現頻度の差の有意差(2)
• コーパスを使って,語の出現について調べた
→差があった
4
出現頻度の差の有意差(3)
• コーパスを使って,語の出現について調べた
→差があった
例: 2つのコーパス間に出現する同一語の
出現回数に差があった.
5
出現頻度の差の有意差(4)
• コーパスを使って,語の出現について調べた
→差があった
例: 2つのコーパス間に出現する同一語の
出現回数に差があった.
– 有意な(意味のある)差といえるか?
– それとも,そのくらいの差には意味がないか.
6
出現頻度の差の有意差(5)
• コーパスを使って,語の出現について調べた
→差があった
例: 2つのコーパス間に出現する同一語の
出現回数に差があった.
– 有意な(意味のある)差といえるか?
– それとも,そのくらいの差には意味がないか.
→検定を行う
7
出現頻度の差の有意差(6)
• Hofland & Johansson(1982)
Word frequency in British and American
Englishを例に説明
• イギリス英語とアメリカ英語の語彙頻度
8
Hofland & Johansson(1982) の例(1)
• イギリス英語とアメリカ英語の語彙頻度
対象コーパス:2つ
– LOBコーパス=イギリス英語
– Brownコーパス=アメリカ英語
• 対象単語に関する条件
– どちらか1つのコーパスで10回以上出現 かつ
– 5テキスト以上出現する語だけに注目
9
Hofland & Johansson(1982)の例(2)
• イギリス英語とアメリカ英語の語彙頻度
対象コーパス:2つ
– LOBコーパス=イギリス英語
– Brownコーパス=アメリカ英語
あまり頻度のない語で
は調査する意味がない
• 対象単語に関する条件
– どちらか1つのコーパスで10回以上出現 かつ
– 5テキスト以上出現する語だけに注目
10
Hofland & Johansson(1982)の例(3)
• イギリス英語とアメリカ英語の語彙頻度
特定のテキストにしか出てこない語
対象コーパス:2つ
では一般性に欠ける
– LOBコーパス=イギリス英語
– Brownコーパス=アメリカ英語
あまり頻度のない語で
は調査する意味がない
• 対象単語に関する条件
– どちらか1つのコーパスで10回以上出現 かつ
– 5テキスト以上出現する語だけに注目
11
Hofland & Johansson(1982)の例(4)
LOB Brown 差 差異係数
adjustment
18
35 -17
-0.32c
adjustments
3
20 -17
-0.73a
administered
13
14
-1
-0.03
administration 68 161 -93
-0.40a
administrative 42
53 -11
-0.11
administrator
6
15
-9
-0.42c
administrators 10
5
5
0.33
admirable
20
10
10
0.33
12
差異係数(1)
LOB Brown
adjustment
18
35
adjustments
3
20
単なる差だけでなく,
administered
13
14
差異係数という尺度
administration 68 161
を用いる
administrative 42
53
administrator
6
15
administrators 10
5
admirable
20
10
差 差異係数
-17
-0.32c
-17
-0.73a
-1
-0.03
-93
-0.40a
-11
-0.11
-9
-0.42c
5
0.33
10
0.33
13
差異係数(2)
差異係数
= (FreqA-FreqB)/(FreqA+FreqB)
= (Freq.LOB – Freq.Brown)/
(Freq.LOB + Freq.Brown)
Freqは,frequency(出現頻度,出現回数)
Freq.LOBはLOBコーパスでの出現頻度
Freq.BrownはBrownコーパスでの出現頻度
14
差異係数(3)
語iの差異係数
= (FreqAi-FreqBi)/(FreqAi+FreqBi)
= (Freq.LOBi – Freq.Browni)/
(Freq.LOBi + Freq.Browni)
Freq.LOBiはLOBコーパスでの語iの出現頻度
Freq.BrowniはBrownコーパスでの語iの出現頻度
15
差異係数(4)
• 差異係数は
-1 ≦ 差異係数 ≦ 1 となる尺度
という2つのコーパスへの出現の偏り
差異係数=(Freq.LOBi–Freq.Browni) / (Freq.LOBi+Freq.Browni)
16
差異係数の計算(1)
• 差異係数の計算
– adjustment
– adjustments
(LOB) 18 (Brown) 35
(LOB) 3 (Brown) 20
• adjustmentの差異係数 =
(18-35) / (18+35) = -17/53 = -0.32
• adjustmentsの差異係数=
(3-20) / (3+20) = -17/23 = -0.73
17
差異係数の計算(2)
• administered
–
LOB 13
Brown 14
• administration
–
LOB 68
Brown 161
の計算を行うこと
18
差異係数の計算(3)
• 単なる差に比べて,より偏りの傾向が見える.
しかし,
• この偏りは有効なものと考えてよいのか?
→ このような場合,統計による検定を行う.
19
次は検定
• 単なる差に比べて,より偏りの傾向が見える.
しかし,
• この偏りは有効なものと考えてよいのか?
→ このような場合,統計による検定を行う.
統計の検定にはいろいろな種類がある
→χ2検定で統計的有意性があるか検定
20
χ2乗検定(1)
• 観測された頻度と,期待される頻度の依存性
をはかる
• χ2乗値という値を計算する
21
χ2乗検定(2)
• 観測された頻度と,期待される頻度の依存性
をはかる
• χ2乗値という値を計算する
– 期待された度数(この場合,頻度)と実際に観測
された度数(頻度)が一致すると0になる
22
χ2乗検定(3)
• 観測された頻度と,期待される頻度の依存性
をはかる
• χ2乗値という値を計算する
– 期待された度数(この場合,頻度)と実際に観測
された度数(頻度)が一致すると0になる
• ズレが大きいとχ2乗値も大きくなる
23
χ2乗検定(4)
• 観測された頻度と,期待される頻度の依存性
をはかる
• χ2乗値という値を計算する
– 期待された度数(この場合,頻度)と実際に観測
された度数(頻度)が一致すると0になる
• ズレが大きいとχ2乗値も大きくなる
• χ2乗分布という理論的に考えられた分布と,
χ2乗値とを使って,ズレ(差)が大きいかどう
かを確かめる.
24
χ2乗検定(5)
• χ2乗検定の計算
(Oi  Ei )
 
Ei
i 1
2
2
2
• iはコーパス, i=1の時LOB,
i=2の時Brownコーパス
• Oi はコーパスiでの観測値,つまり出現頻度
• Ei はコーパスiでの期待値,期待される出現頻度
25
χ2乗検定(6)
• 例:adjustmentの出現頻度についての検定
• χ2乗検定:仮説検定
• ① 仮説を立てる
– 「帰無仮説(H0)」という仮説を立てる
– 「~には差はない」という形になる
• H0: adjustmentの使用頻度はイギリス英語とアメリ
カ英語で差がない
26
χ2乗検定(7)
• ① 仮説(帰無仮説)を立てる
H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で
差がない
– ある主張が正しいということを示すのは大変.
27
χ2乗検定(8)
• ① 仮説(帰無仮説)を立てる
H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で
差がない
– ある主張が正しいということを示すのは大変.
– ある主張が正しくないということを示すためには,
その主張に反する証拠を1つ示せばよい.
28
χ2乗検定(9)
• ① 仮説(帰無仮説)を立てる
H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で
差がない
– ある主張が正しいということを示すのは大変.
– ある主張が正しくないということを示すためには,
その主張に反する証拠を1つ示せばよい.
– 統計による検定では,わざと主張が正しくない方
が好ましい仮説を立てて,それが否定されること
を示すという方法が取られる.
29
χ2乗検定(10)
• ① 仮説(帰無仮説)を立てる
H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で
差がない
– 統計による検定では,わざと主張が正しくない方
が好ましい仮説を立てて,それが否定されること
を示すという方法が取られる.
– ここで帰無仮説が否定されると,逆の主張が肯
定される
30
χ2乗検定(11)
• ① 仮説(帰無仮説)を立てる
H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で
差がない
– 統計による検定では,わざと主張が正しくない方
が好ましい仮説を立てて,それが否定されること
を示すという方法が取られる.
– ここで帰無仮説が否定されると,逆の主張が肯
定される
– 帰無仮説が成り立たない場合
(「帰無仮説が棄却された」)
31
χ2乗検定(12)
• ① 仮説(帰無仮説)を立てる
H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で
差がない
– 帰無仮説が成り立たない場合(「棄却された」)
→対立仮説
H1:adjustmentの使用頻度はイギリス英語とアメリカ英語で
差がある
32
χ2乗検定(13)
• ① 仮説(帰無仮説)を立てる
H0: adjustmentの使用頻度はイギリス英語とアメリカ英語で
差がない
– 帰無仮説が成り立たない場合(「棄却された」)
→対立仮説
H1:adjustmentの使用頻度はイギリス英語とアメリカ英語で
差がある
という仮説がある程度の確率で言えることになる.
33
χ2乗検定(14)
• ② adjustmentのχ2乗値を計算
(Oi  Ei )
 
Ei
i 1
2
2
2
i=1の時, LOBで18回 O1 = 18
i=2の時,Brown で35回 O2=35
34
χ2乗検定(15)
• ② adjustmentのχ2乗値を計算
(Oi  Ei )
 
Ei
i 1
2
2
2
i=1の時, LOBで18回 O1 = 18
i=2の時,Brown で35回 O2=35
2つのコーパスのサイズはほぼ同数
出現に有意な差がないとすると
同数出現すると考えるのが自然.
期待値Eは平均として計算することにする.
35
χ2乗検定(16)
• ② adjustmentのχ2乗値を計算
2
(
O

E
)
i
2   i
Ei
i 1
2
i=1の時, LOBで18回 O1 = 18
i=2の時,Brown で35回 O2=35
期待値Eは平均として計算することにする.
E1  E2  (O1  O2 ) / 2  (18  35) / 2  26.5
36
χ2乗検定(17)
• ② adjustmentのχ2乗値を計算
2
(
O

E
)
i
2   i
Ei
i 1
2
i=1の時, LOBで18回 O1 = 18
i=2の時,Brown で35回 O2=35
期待値Eは平均として計算することにする.
E1  E2  (O1  O2 ) / 2  (18  35) / 2  26.5
   (18  26.5) 2 / 26.5  (35  26.5) 2 / 26.5
 8.52 / 26.5  8.52 / 26.5
 72.25 / 26.5  72.25 / 26.5  5.45
37
  5.45 χ2乗検定(18)
2
③χ2分布を見て,χ2値が大きいかどうか調
べる
→ χ2分布表
38
  5.45 χ2乗検定(19)
2
③χ2分布を見て,χ2値が大きいかどうか調
べる
→ χ2分布表
自由度1で5.45 が上回るところを探す.
(自由度は変数の数―1,
コーパスが2つでi=1,2なので自由度は 2-1=1)
39
  5.45 χ2乗検定(20)
2
③χ2分布を見て,χ2値が大きいかどうか調
べる
→ χ2分布表
自由度1で5.45 が上回るところを探す.
(自由度は変数の数―1,
コーパスが2つでi=1,2なので自由度は 2-1=1)
分布表によると,
確率レベル0.05の時,3.84を上回っている
0.01の時,6.63なので下回る.
40
  5.45 χ2乗検定(21)
2
③χ2分布を
確率レベル0.05の時,3.84を上回っている
0.01の時,6.63なので下回る.
adjustmentでの出現 χ2値=5.45
41
  5.45 χ2乗検定(22)
2
③χ2分布を
0~2.71の値になる確率は90%
確率レベル0.05の時,3.84を上回っている
0~3.84の値になる確率は95%
0~6.63の値になる確率は99%
0.01の時,6.63なので下回る.
adjustmentでの出現 χ2値=5.45
42
  5.45 χ2乗検定(23)
2
③χ2分布を
0~2.71の値になる確率は90%
確率レベル0.05の時,3.84を上回っている
0~3.84の値になる確率は95%
0~6.63の値になる確率は99%
0.01の時,6.63なので下回る.
adjustmentでの出現 χ2値=5.45
χ2値が5.45ということは3.84
(5%)~6.63(1%)の間にあ
る.→ 有意水準5%で,
めったに起こらない.
43
  5.45 χ2乗検定(24)
2
例:adjustmentの出現の仕方(差)は,めったに起こら
ないことである(100回のうち5回以下)
χ2値が5.45ということは3.84
(5%)~6.63(1%)の間にあ
る.→ 有意水準5%で,
めったに起こらない.
44
  5.45 χ2乗検定(25)
2
例:adjustmentの出現の仕方(差)は,めったに起こら
ないことである(100回のうち5回以下)
有意水準5%で,帰無仮説が棄却され,差には意味がある
χ2値が5.45ということは3.84
(5%)~6.63(1%)の間にあ
る.→ 有意水準5%で,
めったに起こらない.
45
確率レベル,優位水準
確率レベル 0.10...100回に10回起こりうるとする確率
α
0.05...100回に 5回起こりうるとする確率
0.01...100回に 1回起こりうるとする確率
• 有意水準:よく起こることと,めったに起こらないことを,どこ
を基準に判断しているかという水準.
• 5%か1%が伝統的に有意水準.
• 5%:出現確率が5%より大きければよく起こる.
↓ならめったに起こらない
• 1%:出現確率が5%より大きければよく起こる.
↓ならめったに起こらない
• 5%~10%:「有意傾向」にあると考えるのが一般的.
46
本日はここまで
• 時間があれば,
– MS-Excelを起動して,データの入力
LOB Brown 差 差異係数
adjustment
18
35
adjustments
3
20
administered
13
14
administration 68 161
administrative 42
53
administrator
6
15
administrators 10
5
admirable
20
10
47