コーパス言語学実践 2006年度2学期 第1回 コーパス言語学実践 • • • • • • 授業科目名:言語情報学基礎 授業題目名:コーパス言語学実践 履修コード:4007 教室:216 2学期開講 授業の進め方 – 講義+コンピュータを使う. 2 評価方法 • 最終回にテストを実施 • レポートを3回だす予定 • テスト: – A4の紙を手書きに限り1枚持ち込み可 • 授業のフォローは,Web上で行う 大学のトップページ→外国語学部案内→ 学内ポータル→言語・情報コース→望月のページ →講義関連のコーパス言語学実践へ 3 授業概要 • おさらい – コーパス言語学入門 • 前半: – パソコン演習: • コーパスの準備,語彙表作成,Excelで整頓 • プログラミング言語でテキスト処理など • 後半: – 実例を使った分析に挑戦: • うらない,雑誌のキャッチコピーその他の素材で 4 おさらい • コーパス言語学とは? • 一般に...言語研究には – 言語の構造に興味 • 言語分析:形態素→単語→句→文→文章 • 言語とはどのように成り立っているのか? – 言語の用法に興味 • 特定の言語構造に焦点 →どんな使用場面,使用傾向があるか? 5 言語の研究 • 例:動詞補文 that節とto付き不定詞 (1) I hope that I can go. that節 (2) I hope to go. to付き不定詞 意味が類似 (3) I hope(that) I can go. that省略のthat節 6 言語の研究 • 例:動詞補文 that節とto付き不定詞 (1) I hope that I can go. that節 (2) I hope to go. to付き不定詞 意味が類似 (3) I hope(that) I can go. that省略のthat節 構造に興味... (1)(2)(3)の文法的な類似点,相違点を述べる 7 言語の研究 • 例:動詞補文 that節とto付き不定詞 (1) I hope that I can go. that節 (2) I hope to go. to付き不定詞 意味が類似 (3) I hope(that) I can go. that省略のthat節 用法に興味... 同じような意味なのになぜ違うのか? どんな用法上の違いがあるのか? 8 用法の研究 • 分析 – 典型的なパターンはないだろうか? ある作家の文体,社会的グループの違い, 時代,性別,ジャンルなどの観点 – 変異に影響を与える文脈などの要因はないか? that節とto節では好みの傾向などがあるのか? 一緒に出てくる動詞の傾向は?文脈は? 9 用法の研究 • 分析 – 典型的なパターンはないだろうか? ある作家の文体,社会的グループの違い, 時代,性別,ジャンルなどの観点 – 変異に影響を与える文脈などの要因はないか? that節とto節では好みの傾向などがあるのか? 一緒に出てくる動詞の傾向は?文脈は? 客観性を持った分析 直感だけ,印象だけ,ではない 10 用法の研究 • 客観性を持った分析 – 直感だけ,印象だけ,ではない これが難しい!! 人間は印象的なもの,目立つものを重要視 →実際は稀な事例でも,よくあるように思ってしまう ある傾向がありそうだとして,何が効いているか, 要因(候補)はたくさんある →ある程度の数がないと,偏りが出てしまう 11 用法の研究 しっかりと量的な裏づけが重要 • 客観性を持った分析 頻度統計 – 直感だけ,印象だけ,ではない バリエーションの確保 これが難しい!! 人間は印象的なもの,目立つものを重要視 →実際は稀な事例でも,よくあるように思ってしまう ある傾向がありそうだとして,何が効いているか, 要因(候補)はたくさんある →ある程度の数がないと,偏りが出てしまう 12 用法の研究 • しっかりと量的な裏づけが重要 – 頻度統計 – バリエーションの確保 最近まで 大量の言語データを集めるのは実質無理だった 最近 コンピュータの発達で現実のものとなってきた コーパスの存在 13 コーパスに基づく研究法 • 実際に使われているテキストにおける用法, パターンを分析 • 分析の基礎,対象としてコーパス(大量に収 集した言語データ)を用いる • 分析にコンピュータの処理能力を利用する (利用の仕方はいろいろ) • 数量的な面と,質的な面の両方を分析手法 に取り入れる 14 コーパスに基づく研究法 • 例:動詞補文 that節とto付き不定詞 (1) I hope that I can go. that節 (2) I hope to go. to付き不定詞 意味が類似 (3) I hope(that) I can go. that省略のthat節 違いはどこから来るのか? コーパスを用いれば調べる手立てがある. 15 例えば... • 試してみましょう. 16 計量言語学 • 言語や言語行動の量的側面 – 統計的な方法を用いて研究する学問分野 • コーパス言語学と近い • 計量言語学から見ると... コーパス言語学 →コーパスを使った計量言語学 と見える. *参考:計量言語学入門(伊藤雅光著,大修館書店) 17 計量言語学の分野 • 言語単位の利用率 • 文体の分析 • 言語の系統 – 2つの言語が1つの言語から分裂(言語年代学) • 方言区画 – 方言の分類(どこからどこまでがどの方言か) • 社会言語学 18 計量言語学の分野 • 言語単位の利用率 • 文体の分析 – 計量文献学:年代推定,著者推定 – 計量文体論:文章心理学,文体研究 • 文体的特徴を統計的な手法で明らかにする学問 • 言語の系統 • 方言区画 • 社会言語学 19 計量言語学の分野 • • • • • 言語単位の利用率 文体の分析 言語の系統 方言区画 社会言語学:多様であり定義困難 – 社会的要因との相関で言語の多様性を見る – コミュニケーション上のやり取りを社会的要因と 見る向きもある 20 計量言語学の分野 • 言語単位の利用率 – 音素,文字,単語の頻度,使用率を求め,言語や 記号の集合に関する使用率分布,量的な構成と 性格,構造,一般法則などを明らかにしていく. – 関連分野は,言語学のほとんど全部の分野 – 計量単位は,単音,音素,音節,形態素,単語, 文節,文字など – 固有の分野は,語彙を対象とした計量語彙論 計量語彙論が計量言語学の中心 21 コーパス言語学入門のおさらい(1) • コーパスとは? – 実際に使用されている言語を 言語データとして 大量に収集したもの(≒電子化) – 代表例:新聞記事,小説など →コーパスを眺めていると, 言語の特徴が見えてくる(はず) 22 コーパス言語学入門のおさらい(2) • コーパス言語学 – 言語学の一分野 – コーパス(言語資源)+コンピュータ(のパワー)を 利用した言語分析全般 ポイント – 電子化されたコーパス(機械可読)とコンピュータ だからできる規模を生かす • 検索,数え上げ,数値分析など 23 コーパス言語学入門のおさらい(3) ・コーパスにはどのような種類があるか ・コーパスは,どのように作るか,集めるか ・コーパスをどうやって使うか(ツールの話) ・コーパスを利用して出た結果を分析する技術, 知識 といったことを学んだ. 24 コーパス言語学入門のおさらい(4) コーパスにはどんな種類があるか • コーパスの違いを区別する特徴5つ 1. 2. 3. 4. 5. 規模 量の変化 汎用性 収集期間 掲載メディア 25 コーパス言語学入門のおさらい(5) コーパスにはどんな種類があるか • コーパスの違いを区別する特徴5つ 1. 2. 3. 4. 5. 規模 量の変化 大規模,中規模,小規模 モニタコーパス,サンプルコーパス 汎用性 収集期間 特殊目的,汎用目的 掲載メディア 通時的,共時的 書き言葉,読み言葉,中間的 26 コーパス言語学入門のおさらい(6) • コーパスはどのように作るか • コーパスは言語データ – ただ集めてきただけでは使いにくい(「生のデー タ」) • 情報を付与して整備することで使いやすく – どんな情報を付与するか? – どんなやり方で付与するか? 27 コーパス言語学入門のおさらい(7) コーパスに情報を付与 • 情報の種類 1.素材の管理のための情報(header情報) 2.コーパス内部の表記規則など 3.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 28 コーパス言語学入門のおさらい(8) 1.素材の管理のための情報(header情報) その言語データを整理,管理,参照するときに 必要にな るような情報 他の例 表現例 著者名:<author>赤川次郎</author> 作品名:<title>三毛猫ホームズの...</title> 出典名:<source>角川文庫</source> 出版日:<pubdate>2004.03.31</pubdate> 加工者名:<tagger>mochi</tagger> 加工日:<tagdate>2006.04.25</tagdate> 29 コーパス言語学入門のおさらい(9) 2.コーパス内部の表記規則など コーパス中で用いる特殊な記号や使い方の説明 例:対話を記録したコーパス 話者が2人いるとすると,A: B:とする.A:えー B:はい 発話が重なったとき,A,B:とする A,B:はい などという表記上のルール フォントを使い分けてあればその意味 送り仮名や漢字の統一した使い方など 30 コーパス言語学入門のおさらい(10) 3.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 コンピュータは,言語データの詳細をうまく扱えない (言葉がわからないから) コンピュータでの利用をやりやすくする処理 言語研究にとって都合のよいように加工して 手間をかけることで価値を高める 31 コーパス言語学入門のおさらい(10) 3.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 文章構造:単語,文,段落,節,章,テキスト 文<sentence> ~ </sentence> 段落<paragraph> ~ </paragraph> 文章全体 <text> ~ </text> など 32 コーパス言語学入門のおさらい(11) コーパスの作成 • タグづけにともなう問題 – 単語の区切りはどうするか? • 長い単位と短い単位 – 品詞をどう定義するのか? • 学校文法,その他の文法 – 人間の揺らぎをどうやって抑えるか? • ルールを厳格化し,揺らぎを排除 • 誰でもいつでも同じ基準で作業 33 コーパス言語学入門のおさらい(12) • コーパスに関係するツール – 言語解析ツール 日本語 • 形態素解析(茶筅,JUMAN) • 構文解析(Cabocha,KNP) 英語 • 形態素解析(BrillTagger) • 構文解析(ApplePieParser)などなど →利用できる言語解析ツールは存在する 34 コーパス言語学入門のおさらい(13) • コーパスに関係するツール – ブラウズツール KWIC (KeyWord In Context) • ひまわり (国立国語研究所) • KWIC Concordance for Windows • Web Concordancer • Web KWIC →利用できるブラウズツールも多数存在 35 コーパス言語学入門のおさらい(14) • コーパスを利用して出た結果の分析 – 語彙調査 – 分析(問題によってやることは異なるが) • 出現頻度の差の有意差 – 差異係数 – ばらつきの検定など • 考察 – 得られたデータから何が言えるかを考察 – 納得できる説明,視点を与える分析 36 コーパス言語学入門のおさらい(14) • コーパスを利用して出た結果の分析 – 語彙調査 – 分析(問題によってやることは異なるが) • 出現頻度の差の有意差 – 差異係数 必ず,統計的な検定をするというわけでもない – ばらつきの検定など 適用できる検定方法があるなら適用すべき • 考察 十分に納得のいく他の分析を用いる方法もある – 得られたデータから何が言えるかを考察 – 納得できる説明,視点を与える分析 37 授業の予定 10/3 10/10,17,24 語彙表作成 (データ収集) 10/31,11/7,14 統計的分析 (データ収集) 11/21 外語祭準備日で休み 11/28,12/5,12 収集データの加工分析準備 12/19 金曜日の授業に振り替え 1/16,23,30 分析 2/6 テストの予定 38
© Copyright 2025 ExpyDoc