コーパス言語学入門

コーパス言語学入門
第8回
本日の内容
• 前回のおさらい
– コーパスの利用(実習)
– JUMAN+KNPのインストール
• コーパスを使ったデータの分析
– 出現頻度の差の有意性
– 差異係数
– (χ2乗検定)
2
前回のおさらい
• JUMANのインストール
• KNPのインストール
• PATHの設定
+applepie パーザのインストール
APP5.9win.zipをダウンロードして解凍
3
コーパスを利用した言語の分析(1)
•
言語の使用されている様子を調べる
– ある単語(表現)がどのような文脈で使用されて
いるか
•
ある単語や表現の出現頻度を数える
– 出現頻度...ある単語や表現,特徴が実際の
コーパスでどのくらい頻繁に現れているか
などの操作がコーパスを用いてよく行われる.
4
コーパスを利用した言語の分析(2)
• 得られた大量のデータの観察によって
– 言語の特徴を捉える(一般的)
– 文体的特徴を捉える(ある特定の分野など)
– 比較(言語間,年代間など)
などの基本的手法
→数え上げはよく行われる
5
コーパスを利用した言語の分析(3)
• 得られた大量のデータの観察によって
– 言語の特徴を捉える(一般的)
– 文体的特徴を捉える(ある特定の分野など)
– 比較
などの基本的手法
→数え上げはよく行われる
しかし,
数え上げた数字にどれほど意味があるか?
6
コーパスを利用した言語の分析(4)
• 得られた大量のデータの観察
→数え上げはよく行われる
しかし,
数え上げた数字にどれほど意味があるか?
何か特徴がありそうな数字が出たとして
7
コーパスを利用した言語の分析(5)
• 得られた大量のデータの観察
→数え上げはよく行われる
しかし,
数え上げた数字にどれほど意味があるか?
何か特徴がありそうな数字が出たとして
→経験的な判断,直感で考えてよいか?
8
コーパスを利用した言語の分析(6)
• 得られた大量のデータの観察
→数え上げはよく行われる
しかし,
数え上げた数字にどれほど意味があるか?
何か特徴がありそうな数字が出たとして
→経験的な判断,直感で考えてよいか?
不十分(客観性に欠ける)
9
コーパスを利用した言語の分析(7)
数え上げた数字にどれほど意味があるか?
何か特徴がありそうな数字が出たとして
→経験的な判断,直感で考えてよいか?
不十分(客観性に欠ける)
↓
何万,何百万,何億という規模のデータを前
にして,直感に頼るだけでは,その判断の信
頼性は高くない!
10
コーパスを利用した言語の分析(8)
数え上げた数字にどれほど意味があるか?
何か特徴がありそうな数字が出たとして
→経験的な判断,直感で考えてよいか?
都合のよいところだけ見ていたり,
不十分(客観性に欠ける)
ちゃんと説明ができていないなど
↓
何万,何百万,何億という規模のデータを前
にして,直感に頼るだけでは,その判断の信
頼性は高くない!
11
コーパスを利用した言語の分析(9)
直感に頼るだけでは,信頼性は高くない!
都合のよいところだけ見ていたり,
ちゃんと説明ができていないなど
→客観的な判断基準を利用
12
コーパスを利用した言語の分析(10)
直感に頼るだけでは,信頼性は高くない!
都合のよいところだけ見ていたり,
ちゃんと説明ができていないなど
→客観的な判断基準を利用
ー直感に説得力を持たせる
13
コーパスを利用した言語の分析(11)
直感に頼るだけでは,信頼性は高くない!
都合のよいところだけ見ていたり,
ちゃんと説明ができていないなど
→客観的な判断基準を利用
ー直感に説得力を持たせる
→統計学的な処理 の登場
14
出現頻度の差の有意差(1)
• コーパスを使って,語の出現について調べた
15
出現頻度の差の有意差(2)
• コーパスを使って,語の出現について調べた
→差があった
16
出現頻度の差の有意差(3)
• コーパスを使って,語の出現について調べた
→差があった
例: 2つのコーパス間に出現する同一語の
出現回数に差があった.
17
出現頻度の差の有意差(4)
• コーパスを使って,語の出現について調べた
→差があった
例: 2つのコーパス間に出現する同一語の
出現回数に差があった.
– 有意な(意味のある)差といえるか?
– それとも,そのくらいの差には意味がないか.
18
出現頻度の差の有意差(5)
• コーパスを使って,語の出現について調べた
→差があった
例: 2つのコーパス間に出現する同一語の
出現回数に差があった.
– 有意な(意味のある)差といえるか?
– それとも,そのくらいの差には意味がないか.
→検定を行う
19
出現頻度の差の有意差(6)
• Hofland & Johansson(1982)
Word frequency in British and American
Englishを例に説明
• イギリス英語とアメリカ英語の語彙頻度
20
Hofland & Johansson(1982) の例(1)
• イギリス英語とアメリカ英語の語彙頻度
対象コーパス:2つ
– LOBコーパス=イギリス英語
– Brownコーパス=アメリカ英語
• 対象単語に関する条件
– どちらか1つのコーパスで10回以上出現 かつ
– 5テキスト以上出現する語だけに注目
21
Hofland & Johansson(1982)の例(2)
• イギリス英語とアメリカ英語の語彙頻度
対象コーパス:2つ
– LOBコーパス=イギリス英語
– Brownコーパス=アメリカ英語
あまり頻度のない語で
は調査する意味がない
• 対象単語に関する条件
– どちらか1つのコーパスで10回以上出現 かつ
– 5テキスト以上出現する語だけに注目
22
Hofland & Johansson(1982)の例(3)
• イギリス英語とアメリカ英語の語彙頻度
特定のテキストにしか出てこない語
対象コーパス:2つ
では一般性に欠ける
– LOBコーパス=イギリス英語
– Brownコーパス=アメリカ英語
あまり頻度のない語で
は調査する意味がない
• 対象単語に関する条件
– どちらか1つのコーパスで10回以上出現 かつ
– 5テキスト以上出現する語だけに注目
23
Hofland & Johansson(1982)の例(4)
LOB Brown 差 差異係数
adjustment
18
35 -17
-0.32c
adjustments
3
20 -17
-0.73a
administered
13
14
-1
-0.03
administration 68 161 -93
-0.40a
administrative 42
53 -11
-0.11
administrator
6
15
-9
-0.42c
administrators 10
5
5
0.33
admirable
20
10
10
0.33
24
差異係数(1)
LOB Brown
adjustment
18
35
adjustments
3
20
単なる差だけでなく,
administered
13
14
差異係数という尺度
administration 68 161
を用いる
administrative 42
53
administrator
6
15
administrators 10
5
admirable
20
10
差 差異係数
-17
-0.32c
-17
-0.73a
-1
-0.03
-93
-0.40a
-11
-0.11
-9
-0.42c
5
0.33
10
0.33
25
差異係数(2)
差異係数
= FreqA-FreqB/FreqA+FreqB
= Freq.LOB – Freq.Brown/
Freq.LOB + Freq.Brown
Freqは,frequency(出現頻度,出現回数)
Freq.LOBはLOBコーパスでの出現頻度
Freq.BrownはBrownコーパスでの出現頻度
26
差異係数(3)
語iの差異係数
= FreqAi-FreqBi/FreqAi+FreqBi
= Freq.LOBi – Freq.Browni/
Freq.LOBi + Freq.Browni
Freq.LOBiはLOBコーパスでの語iの出現頻度
Freq.BrowniはBrownコーパスでの語iの出現頻度
27
差異係数(4)
• 差異係数は
-1 ≦ 差異係数 ≦ 1 となる尺度
という2つのコーパスへの出現の偏り
差異係数=Freq.LOBi – Freq.Browni / Freq.LOBi + Freq.Browni
28
差異係数の計算(1)
• 差異係数の計算
– adjustment
– adjustments
(LOB) 18 (Brown) 35
(LOB) 3 (Brown) 20
• adjustmentの差異係数 =
(18-35) / (18+35) = -17/53 = -0.32
• adjustmentsの差異係数=
(3-20) / (3+20) = -17/23 = -0.73
29
差異係数の計算(2)
• administered
–
LOB 13
Brown 14
• administration
–
LOB 68
Brown 161
の計算を行うこと
30
差異係数の計算(3)
• 単なる差に比べて,より偏りの傾向が見える.
しかし,
• この偏りは有効なものと考えてよいのか?
→ このような場合,統計による検定を行う.
31
次は検定
• 単なる差に比べて,より偏りの傾向が見える.
しかし,
• この偏りは有効なものと考えてよいのか?
→ このような場合,統計による検定を行う.
統計の検定にはいろいろな種類がある
→χ2検定で統計的有意性があるか検定
32
本日はここまで
• 時間があれば,
– MS-Excelを起動して,データの入力
LOB Brown 差 差異係数
adjustment
18
35
adjustments
3
20
administered
13
14
administration 68 161
administrative 42
53
administrator
6
15
administrators 10
5
admirable
20
10
33