コーパス言語学入門 第8回 本日の内容 • 前回のおさらい – コーパスの利用(実習) – JUMAN+KNPのインストール • コーパスを使ったデータの分析 – 出現頻度の差の有意性 – 差異係数 – (χ2乗検定) 2 前回のおさらい • JUMANのインストール • KNPのインストール • PATHの設定 +applepie パーザのインストール APP5.9win.zipをダウンロードして解凍 3 コーパスを利用した言語の分析(1) • 言語の使用されている様子を調べる – ある単語(表現)がどのような文脈で使用されて いるか • ある単語や表現の出現頻度を数える – 出現頻度...ある単語や表現,特徴が実際の コーパスでどのくらい頻繁に現れているか などの操作がコーパスを用いてよく行われる. 4 コーパスを利用した言語の分析(2) • 得られた大量のデータの観察によって – 言語の特徴を捉える(一般的) – 文体的特徴を捉える(ある特定の分野など) – 比較(言語間,年代間など) などの基本的手法 →数え上げはよく行われる 5 コーパスを利用した言語の分析(3) • 得られた大量のデータの観察によって – 言語の特徴を捉える(一般的) – 文体的特徴を捉える(ある特定の分野など) – 比較 などの基本的手法 →数え上げはよく行われる しかし, 数え上げた数字にどれほど意味があるか? 6 コーパスを利用した言語の分析(4) • 得られた大量のデータの観察 →数え上げはよく行われる しかし, 数え上げた数字にどれほど意味があるか? 何か特徴がありそうな数字が出たとして 7 コーパスを利用した言語の分析(5) • 得られた大量のデータの観察 →数え上げはよく行われる しかし, 数え上げた数字にどれほど意味があるか? 何か特徴がありそうな数字が出たとして →経験的な判断,直感で考えてよいか? 8 コーパスを利用した言語の分析(6) • 得られた大量のデータの観察 →数え上げはよく行われる しかし, 数え上げた数字にどれほど意味があるか? 何か特徴がありそうな数字が出たとして →経験的な判断,直感で考えてよいか? 不十分(客観性に欠ける) 9 コーパスを利用した言語の分析(7) 数え上げた数字にどれほど意味があるか? 何か特徴がありそうな数字が出たとして →経験的な判断,直感で考えてよいか? 不十分(客観性に欠ける) ↓ 何万,何百万,何億という規模のデータを前 にして,直感に頼るだけでは,その判断の信 頼性は高くない! 10 コーパスを利用した言語の分析(8) 数え上げた数字にどれほど意味があるか? 何か特徴がありそうな数字が出たとして →経験的な判断,直感で考えてよいか? 都合のよいところだけ見ていたり, 不十分(客観性に欠ける) ちゃんと説明ができていないなど ↓ 何万,何百万,何億という規模のデータを前 にして,直感に頼るだけでは,その判断の信 頼性は高くない! 11 コーパスを利用した言語の分析(9) 直感に頼るだけでは,信頼性は高くない! 都合のよいところだけ見ていたり, ちゃんと説明ができていないなど →客観的な判断基準を利用 12 コーパスを利用した言語の分析(10) 直感に頼るだけでは,信頼性は高くない! 都合のよいところだけ見ていたり, ちゃんと説明ができていないなど →客観的な判断基準を利用 ー直感に説得力を持たせる 13 コーパスを利用した言語の分析(11) 直感に頼るだけでは,信頼性は高くない! 都合のよいところだけ見ていたり, ちゃんと説明ができていないなど →客観的な判断基準を利用 ー直感に説得力を持たせる →統計学的な処理 の登場 14 出現頻度の差の有意差(1) • コーパスを使って,語の出現について調べた 15 出現頻度の差の有意差(2) • コーパスを使って,語の出現について調べた →差があった 16 出現頻度の差の有意差(3) • コーパスを使って,語の出現について調べた →差があった 例: 2つのコーパス間に出現する同一語の 出現回数に差があった. 17 出現頻度の差の有意差(4) • コーパスを使って,語の出現について調べた →差があった 例: 2つのコーパス間に出現する同一語の 出現回数に差があった. – 有意な(意味のある)差といえるか? – それとも,そのくらいの差には意味がないか. 18 出現頻度の差の有意差(5) • コーパスを使って,語の出現について調べた →差があった 例: 2つのコーパス間に出現する同一語の 出現回数に差があった. – 有意な(意味のある)差といえるか? – それとも,そのくらいの差には意味がないか. →検定を行う 19 出現頻度の差の有意差(6) • Hofland & Johansson(1982) Word frequency in British and American Englishを例に説明 • イギリス英語とアメリカ英語の語彙頻度 20 Hofland & Johansson(1982) の例(1) • イギリス英語とアメリカ英語の語彙頻度 対象コーパス:2つ – LOBコーパス=イギリス英語 – Brownコーパス=アメリカ英語 • 対象単語に関する条件 – どちらか1つのコーパスで10回以上出現 かつ – 5テキスト以上出現する語だけに注目 21 Hofland & Johansson(1982)の例(2) • イギリス英語とアメリカ英語の語彙頻度 対象コーパス:2つ – LOBコーパス=イギリス英語 – Brownコーパス=アメリカ英語 あまり頻度のない語で は調査する意味がない • 対象単語に関する条件 – どちらか1つのコーパスで10回以上出現 かつ – 5テキスト以上出現する語だけに注目 22 Hofland & Johansson(1982)の例(3) • イギリス英語とアメリカ英語の語彙頻度 特定のテキストにしか出てこない語 対象コーパス:2つ では一般性に欠ける – LOBコーパス=イギリス英語 – Brownコーパス=アメリカ英語 あまり頻度のない語で は調査する意味がない • 対象単語に関する条件 – どちらか1つのコーパスで10回以上出現 かつ – 5テキスト以上出現する語だけに注目 23 Hofland & Johansson(1982)の例(4) LOB Brown 差 差異係数 adjustment 18 35 -17 -0.32c adjustments 3 20 -17 -0.73a administered 13 14 -1 -0.03 administration 68 161 -93 -0.40a administrative 42 53 -11 -0.11 administrator 6 15 -9 -0.42c administrators 10 5 5 0.33 admirable 20 10 10 0.33 24 差異係数(1) LOB Brown adjustment 18 35 adjustments 3 20 単なる差だけでなく, administered 13 14 差異係数という尺度 administration 68 161 を用いる administrative 42 53 administrator 6 15 administrators 10 5 admirable 20 10 差 差異係数 -17 -0.32c -17 -0.73a -1 -0.03 -93 -0.40a -11 -0.11 -9 -0.42c 5 0.33 10 0.33 25 差異係数(2) 差異係数 = FreqA-FreqB/FreqA+FreqB = Freq.LOB – Freq.Brown/ Freq.LOB + Freq.Brown Freqは,frequency(出現頻度,出現回数) Freq.LOBはLOBコーパスでの出現頻度 Freq.BrownはBrownコーパスでの出現頻度 26 差異係数(3) 語iの差異係数 = FreqAi-FreqBi/FreqAi+FreqBi = Freq.LOBi – Freq.Browni/ Freq.LOBi + Freq.Browni Freq.LOBiはLOBコーパスでの語iの出現頻度 Freq.BrowniはBrownコーパスでの語iの出現頻度 27 差異係数(4) • 差異係数は -1 ≦ 差異係数 ≦ 1 となる尺度 という2つのコーパスへの出現の偏り 差異係数=Freq.LOBi – Freq.Browni / Freq.LOBi + Freq.Browni 28 差異係数の計算(1) • 差異係数の計算 – adjustment – adjustments (LOB) 18 (Brown) 35 (LOB) 3 (Brown) 20 • adjustmentの差異係数 = (18-35) / (18+35) = -17/53 = -0.32 • adjustmentsの差異係数= (3-20) / (3+20) = -17/23 = -0.73 29 差異係数の計算(2) • administered – LOB 13 Brown 14 • administration – LOB 68 Brown 161 の計算を行うこと 30 差異係数の計算(3) • 単なる差に比べて,より偏りの傾向が見える. しかし, • この偏りは有効なものと考えてよいのか? → このような場合,統計による検定を行う. 31 次は検定 • 単なる差に比べて,より偏りの傾向が見える. しかし, • この偏りは有効なものと考えてよいのか? → このような場合,統計による検定を行う. 統計の検定にはいろいろな種類がある →χ2検定で統計的有意性があるか検定 32 本日はここまで • 時間があれば, – MS-Excelを起動して,データの入力 LOB Brown 差 差異係数 adjustment 18 35 adjustments 3 20 administered 13 14 administration 68 161 administrative 42 53 administrator 6 15 administrators 10 5 admirable 20 10 33
© Copyright 2024 ExpyDoc