コーパス言語学入門

コーパス言語学入門
2006年1学期 第10回
本日の内容
• 前回のおさらい
• 実習
– χ2乗検定1
– χ2乗検定2
• 相関
2
実習Excelで計算(1)
• Excelを起動
• 行,列に項目名を入力
B1 観測された頻度
B2 LOB
C2 Brown
D2 差異係数
3
実習Excelで計算(2)
• Excelを起動
• 行,列に項目名を入力
B1 観測された頻度
B2 LOB
C2 Brown
D2 差異係数
• 単語と観測値を入力
adjustment
18
35
adjustments
3
20
administered
13
14
administration 68
161
administrative 42
53
4
実習Excelで計算(3)
•
D3~D10まで,差異係数を計算する
1. D3セルをクリック
2. =(B3-C3)/(B3+C3) と入力
3. D3セルをクリック,右下の■をマウスでD10セ
ルまでドラッグ
(自動的に差異係数の計算式がコピーされる)
5
実習Excelで計算(4)
•
合計の計算
–
1.
2.
3.
4.
F2に「合計」と入力
F3セルをクリック
Σ(オートサム)を選択
C3,D3,E3をΣの計算の範囲に設定する
F3セルをクリック,右下の■をマウスでF10セ
ルまでドラッグ
(自動的に合計の計算式がコピーされる)
6
実習Excelで計算(5)
•
各単語の期待値の計算
–
–
1.
2.
3.
G1に「期待値」と入力
G2に「LOB」,H2に「Brown」と入力
G3セルをクリック
計算式を入力「=$F3/2」
G3セルをクリック,右下の■をマウスでG10セ
ルまでドラッグ
(自動的に合計の計算式がコピーされる)
4. 続けて,H3までドラッグ
7
実習Excelで計算(6)
•
χ2乗検定の計算
–
–
1.
2.
3.
4.
5.
6.
I2に「χ2乗検定」と入力
χ2乗検定はExcelの関数を利用して計算可能
F3をクリック
数式バーのfx (関数の挿入)をクリック
関数の挿入ウィンドウから「CHITEST」を選ぶ
実測値範囲の入力ボックス:B3とC3を指定
期待値範囲の入力ボックス:G3とH3を指定
I3をクリックし,右下の■をマウスでI10セルま
でドラッグ
8
実習Excelで計算(7)
•
χ2乗検定結果から優位水準を確認
– I3~I10にテスト結果が入っているので結果に
応じて,E列に判断結果を入力
1. E3に
=IF(I3<0.001,“a”,(IF(I3>0.01,“c”,
(IF(I3>0.01,”c”, “”)))))
2. E3をクリックし,右下の■をマウスでE10セル
までドラッグ
(これにより,判断結果が示される)
9
実習Excelで計算(8)
•
ついでに,χ2乗値を計算
– χ2乗値を改めて計算
1. J3をクリック
2. J3に「=(B3-G3)^2/G3+
(C3-H3)^2/H3
3. J3をクリックし,右下の■をマウスでJ10セル
までドラッグ(これにより,判断結果が示される)
10
実習Excelで計算(9)
•
χ2乗値を見て,χ2乗分布表で確認
– 自由度(degrees of freedom)
自由な値をとることができる数
例:adjustment 合計53,LOBとBrownで分ける
LOBが18だとするとBrownは35で決まり
2つの内,一方しか自由に数を選べない
2
→自由度1
(O  E ) 2
 
2
i 1
i
i
Ei
11
χ2乗検定の例2(1)
• テキストジャンルと法助動詞の関係
法の助動詞は,確信の度合い(may, mightなど)
意思(will),能力(can),義務(will)などを表すもの
特徴:(1)人称・数で語形変化しない(I can, He can, We can)
(2)活用が不完全.
• 助動詞には原型,不定詞,分詞がない.
• must, ought to には過去形なし,used toには現在形がない
現在形 過去形,
現在形
過去形
can
will
may
shall
might
should
could,
would,
12
χ2乗検定の例2(2)
• テキストジャンルと法助動詞の関係
法の助動詞は,確信の度合い(may, mightなど)
意思(will),能力(can),義務(will)などを表すもの
特徴:(1)人称・数で語形変化しない(I can, He can, We can)
(2)活用が不完全.
• 助動詞には原型,不定詞,分詞がない.
ジャンルの違いと法助動詞の使い方に
• must, ought to には過去形なし,used toには現在形がない
現在形 過去形, 現在形
違いがあるか?
過去形
can
could, may
might
→will
Brownコーパスを使いデータを収集
would, shall should
13
χ2乗検定の例2(3)
• 帰無仮説(H0):
「ジャンルと法助動詞の使用頻度には関連性
がない」
→χ2乗検定を行う
14
χ2乗検定の例2(4)
→χ2乗検定を行う
• i行 j列の表全体のχ2乗値は次式で計算する
  i 1  j 1
2
I
J
(Oij  Eij )
2
Eij
ここでOijはi行j列のセルの値(実際には観測された値)
→ジャンルBのmayは2行3列のセルで74
O23=74
15
χ2乗検定の例2(5)
→χ2乗検定を行う
• i行 j列の表全体のχ2乗値は次式で計算する
  i 1  j 1
2
I
J
(Oij  Eij )
2
Eij
ここでEijはOijのセルの期待値.ここでは
Eij=i行の起きる確率×j列の起きる確率×総合計
16
χ2乗検定の例2(6)
→χ2乗検定を行う
• i行 j列の表全体のχ2乗値は次式で計算する2
  i 1  j 1
2
I
J
ここでEijはOijのセルの期待値.ここでは
(Oij  Eij )
Eij
Eij=i行の起きる確率×j列の起きる確率×総合計
=(i行の合計/総合計)×(j列の合計/総合計)×総合計
i行目の合計 j列の合計  総合計

総合計 総合計
17
χ2乗検定の例2(7)
→χ2乗検定を行う
• i行 j列の表全体のχ2乗値は次式で計算する2
  i 1  j 1
2
I
J
ここでEijはOijのセルの期待値.ここでは
(Oij  Eij )
Eij
Eij=i行の起きる確率×j列の起きる確率×総合計
i行目の合計 j列の合計  総合計

総合計 総合計
i行目の合計 j行目の合計
Eij 
総合計
18
χ2乗検定の例2(8)
•
期待値の計算例
 2  i 1  j 1
I
J
(Oij  Eij ) 2
Eij
1059 1302 14039
E23 
14039 14039
1059 1302

 98.1267...
14039
19
χ2乗検定の例2(9)
•
 2  i 1  j 1
I
期待値の計算例
J
(Oij  Eij ) 2
(O11  E11 )
(O12  E12 )
 


E11
E12
2
Eij
2
2
(O21  E21 )
... 
 ...................... 
E21
2
... 
(O15,9  E15,9 )
E15,9
2
 2629.14
20
χ2乗検定の例2(10)
• χ2乗分布表で2629.14について調べる
– 自由度は?
変数が2つ(iとj)あるので,それぞれの自由度の
掛け算で出す.
iの自由度 (15-1) ×
jの自由度 (9-1)
= 14×8 = 112
21
χ2乗検定の例2(11)
• χ2乗分布表で2629.14について調べる
– 自由度は?
変数が2つ(iとj)あるので,それぞれの自由度の
掛け算で出す.
iの自由度 (15-1) ×
jの自由度 (9-1)
= 14×8 = 112
この自由度112は表にない→200で代用
(このくらい大きな自由度の場合,さほど問題なし)
22
χ2乗検定の例2(12)
• χ2乗分布表で2629.14について調べる
– 自由度112で,2629.14は,0.001の267.5より上
この事象が起こりうる確率は0.1%以下である
23
χ2乗検定の例2(13)
• χ2乗分布表で2629.14について調べる
– 自由度112で,2629.14は,0.001の267.5より上
この事象が起こりうる確率は0.1%以下である
χ2乗検定により,帰無仮説は棄却される
24
χ2乗検定の例2(14)
• χ2乗分布表で2629.14について調べる
– 自由度112で,2629.14は,0.001の267.5より上
この事象が起こりうる確率は0.1%以下である
χ2乗検定により,帰無仮説は棄却される
↓
「テキストジャンルと法助動詞の使われ方には偏
りがある」と有意水準0.001でいえる
25
χ2乗検定の例2(15)
• χ2乗分布表で2629.14について調べる
ただし,全体として偏りがあるということが
–わかったが,具体的にどのジャンル,法助
自由度112で,2629.14は,0.001の267.5より上
動詞間に偏りがあるかはわからない
この事象が起こりうる確率は0.1%以下である
→別の手法を使う必要がある
χ2乗検定により,帰無仮説は棄却される
多変量解析:数量化Ⅲ類など
(省略)
↓
「テキストジャンルと法助動詞の使われ方には偏
りがある」と有意水準0.001でいえる
26
平均,相関など(1)
• 相関
– 2つの量の間の関連性を表す指標(線形)
一方が増えると,もう一方も増える
正の相関
一方が増えると,もう一方が減る
負の相関
27
平均,相関など(2)
• 相関:非常に簡単な文体の研究を例に...
一人の作家が使う人称呼称「自分」「私」「僕」
「俺」「あなた」「君」に注目
使い方に特徴がみられるかどうかを考える
28
平均,相関など(3)
1. データの収集
青空文庫から一人の作家の作品を収集
例:「夏目漱石」の作品を収集
2. データの加工
処理のためのタグを付与(今回は管理タグだけ)
解析対象のテキストを加工(不要箇所除去後1行1文に)
形態素解析を実行(単語を切り出して,品詞付与)
29
平均,相関など(4)
3. 単語頻度情報データの作成
単語ごとの出現頻度を計算
4. 注目単語を取り出す
5. 分析用データの作成
6. MS-Excelを利用して相関の計算
30
平均,相関など(5)
•
相関rの値の見方
0.0 =< | r | =<0.2 →
0.2 < | r | =<0.4 →
0.4 < | r | =< 0.7 →
0.7 < | r | =< 1.0 →
ほとんど相関なし
弱い相関あり
比較的強い相関あり
強い相関あり
というのがひとつの考え方
31
平均,相関など(5)
r=0
• 相関rの値の見方
0.0 =< | r | =<0.2
→ほとんど相関なし
0.2 < | r | =<0.4
0.6
→弱い相関あり
0.4 < | r | =< 0.7
→比較的強い相関あり
0.7 < | r | =< 1.0
→強い相関あり
0.2
0.4
0.8
1.0
32