コーパス言語学実践

コーパス言語学実践
2006年度2学期
第1回
コーパス言語学実践
•
•
•
•
•
•
授業科目名:言語情報学基礎
授業題目名:コーパス言語学実践
履修コード:4007
教室:216
2学期開講
授業の進め方
– 講義+コンピュータを使う.
2
評価方法
• 最終回にテストを実施
• レポートを3回だす予定
• テスト:
– A4の紙を手書きに限り1枚持ち込み可
• 授業のフォローは,Web上で行う
大学のトップページ→外国語学部案内→
学内ポータル→言語・情報コース→望月のページ
→講義関連のコーパス言語学実践へ
3
授業概要
• おさらい
– コーパス言語学入門
• 前半:
– パソコン演習:
• コーパスの準備,語彙表作成,Excelで整頓
• プログラミング言語でテキスト処理など
• 後半:
– 実例を使った分析に挑戦:
• うらない,雑誌のキャッチコピーその他の素材で
4
おさらい
• コーパス言語学とは?
• 一般に...言語研究には
– 言語の構造に興味
• 言語分析:形態素→単語→句→文→文章
• 言語とはどのように成り立っているのか?
– 言語の用法に興味
• 特定の言語構造に焦点
→どんな使用場面,使用傾向があるか?
5
言語の研究
• 例:動詞補文 that節とto付き不定詞
(1) I hope that I can go. that節
(2) I hope to go.
to付き不定詞
意味が類似
(3) I hope(that) I can go. that省略のthat節
6
言語の研究
• 例:動詞補文 that節とto付き不定詞
(1) I hope that I can go. that節
(2) I hope to go.
to付き不定詞
意味が類似
(3) I hope(that) I can go. that省略のthat節
構造に興味...
(1)(2)(3)の文法的な類似点,相違点を述べる
7
言語の研究
• 例:動詞補文 that節とto付き不定詞
(1) I hope that I can go. that節
(2) I hope to go.
to付き不定詞
意味が類似
(3) I hope(that) I can go. that省略のthat節
用法に興味...
同じような意味なのになぜ違うのか?
どんな用法上の違いがあるのか?
8
用法の研究
• 分析
– 典型的なパターンはないだろうか?
ある作家の文体,社会的グループの違い,
時代,性別,ジャンルなどの観点
– 変異に影響を与える文脈などの要因はないか?
that節とto節では好みの傾向などがあるのか?
一緒に出てくる動詞の傾向は?文脈は?
9
用法の研究
• 分析
– 典型的なパターンはないだろうか?
ある作家の文体,社会的グループの違い,
時代,性別,ジャンルなどの観点
– 変異に影響を与える文脈などの要因はないか?
that節とto節では好みの傾向などがあるのか?
一緒に出てくる動詞の傾向は?文脈は?
客観性を持った分析
直感だけ,印象だけ,ではない
10
用法の研究
• 客観性を持った分析
– 直感だけ,印象だけ,ではない
これが難しい!!
人間は印象的なもの,目立つものを重要視
→実際は稀な事例でも,よくあるように思ってしまう
ある傾向がありそうだとして,何が効いているか,
要因(候補)はたくさんある
→ある程度の数がないと,偏りが出てしまう
11
用法の研究
しっかりと量的な裏づけが重要
• 客観性を持った分析
頻度統計
– 直感だけ,印象だけ,ではない
バリエーションの確保
これが難しい!!
人間は印象的なもの,目立つものを重要視
→実際は稀な事例でも,よくあるように思ってしまう
ある傾向がありそうだとして,何が効いているか,
要因(候補)はたくさんある
→ある程度の数がないと,偏りが出てしまう
12
用法の研究
• しっかりと量的な裏づけが重要
– 頻度統計
– バリエーションの確保
最近まで
大量の言語データを集めるのは実質無理だった
最近
コンピュータの発達で現実のものとなってきた
コーパスの存在
13
コーパスに基づく研究法
• 実際に使われているテキストにおける用法,
パターンを分析
• 分析の基礎,対象としてコーパス(大量に収
集した言語データ)を用いる
• 分析にコンピュータの処理能力を利用する
(利用の仕方はいろいろ)
• 数量的な面と,質的な面の両方を分析手法
に取り入れる
14
コーパスに基づく研究法
• 例:動詞補文 that節とto付き不定詞
(1) I hope that I can go. that節
(2) I hope to go.
to付き不定詞
意味が類似
(3) I hope(that) I can go. that省略のthat節
違いはどこから来るのか?
コーパスを用いれば調べる手立てがある.
15
例えば...
• 試してみましょう.
16
計量言語学
• 言語や言語行動の量的側面
– 統計的な方法を用いて研究する学問分野
• コーパス言語学と近い
• 計量言語学から見ると...
コーパス言語学
→コーパスを使った計量言語学
と見える.
*参考:計量言語学入門(伊藤雅光著,大修館書店)
17
計量言語学の分野
• 言語単位の利用率
• 文体の分析
• 言語の系統
– 2つの言語が1つの言語から分裂(言語年代学)
• 方言区画
– 方言の分類(どこからどこまでがどの方言か)
• 社会言語学
18
計量言語学の分野
• 言語単位の利用率
• 文体の分析
– 計量文献学:年代推定,著者推定
– 計量文体論:文章心理学,文体研究
• 文体的特徴を統計的な手法で明らかにする学問
• 言語の系統
• 方言区画
• 社会言語学
19
計量言語学の分野
•
•
•
•
•
言語単位の利用率
文体の分析
言語の系統
方言区画
社会言語学:多様であり定義困難
– 社会的要因との相関で言語の多様性を見る
– コミュニケーション上のやり取りを社会的要因と
見る向きもある
20
計量言語学の分野
• 言語単位の利用率
– 音素,文字,単語の頻度,使用率を求め,言語や
記号の集合に関する使用率分布,量的な構成と
性格,構造,一般法則などを明らかにしていく.
– 関連分野は,言語学のほとんど全部の分野
– 計量単位は,単音,音素,音節,形態素,単語,
文節,文字など
– 固有の分野は,語彙を対象とした計量語彙論
計量語彙論が計量言語学の中心
21
コーパス言語学入門のおさらい(1)
• コーパスとは?
– 実際に使用されている言語を 言語データとして
大量に収集したもの(≒電子化)
– 代表例:新聞記事,小説など
→コーパスを眺めていると,
言語の特徴が見えてくる(はず)
22
コーパス言語学入門のおさらい(2)
• コーパス言語学
– 言語学の一分野
– コーパス(言語資源)+コンピュータ(のパワー)を
利用した言語分析全般
ポイント
– 電子化されたコーパス(機械可読)とコンピュータ
だからできる規模を生かす
• 検索,数え上げ,数値分析など
23
コーパス言語学入門のおさらい(3)
・コーパスにはどのような種類があるか
・コーパスは,どのように作るか,集めるか
・コーパスをどうやって使うか(ツールの話)
・コーパスを利用して出た結果を分析する技術,
知識
といったことを学んだ.
24
コーパス言語学入門のおさらい(4)
コーパスにはどんな種類があるか
•
コーパスの違いを区別する特徴5つ
1.
2.
3.
4.
5.
規模
量の変化
汎用性
収集期間
掲載メディア
25
コーパス言語学入門のおさらい(5)
コーパスにはどんな種類があるか
•
コーパスの違いを区別する特徴5つ
1.
2.
3.
4.
5.
規模
量の変化 大規模,中規模,小規模
モニタコーパス,サンプルコーパス
汎用性
収集期間 特殊目的,汎用目的
掲載メディア 通時的,共時的
書き言葉,読み言葉,中間的
26
コーパス言語学入門のおさらい(6)
• コーパスはどのように作るか
• コーパスは言語データ
– ただ集めてきただけでは使いにくい(「生のデー
タ」)
• 情報を付与して整備することで使いやすく
– どんな情報を付与するか?
– どんなやり方で付与するか?
27
コーパス言語学入門のおさらい(7)
コーパスに情報を付与
• 情報の種類
1.素材の管理のための情報(header情報)
2.コーパス内部の表記規則など
3.コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
28
コーパス言語学入門のおさらい(8)
1.素材の管理のための情報(header情報)
その言語データを整理,管理,参照するときに 必要にな
るような情報
他の例 表現例
著者名:<author>赤川次郎</author>
作品名:<title>三毛猫ホームズの...</title>
出典名:<source>角川文庫</source>
出版日:<pubdate>2004.03.31</pubdate>
加工者名:<tagger>mochi</tagger>
加工日:<tagdate>2006.04.25</tagdate>
29
コーパス言語学入門のおさらい(9)
2.コーパス内部の表記規則など
コーパス中で用いる特殊な記号や使い方の説明
例:対話を記録したコーパス
話者が2人いるとすると,A: B:とする.A:えー
B:はい
発話が重なったとき,A,B:とする A,B:はい
などという表記上のルール
フォントを使い分けてあればその意味
送り仮名や漢字の統一した使い方など
30
コーパス言語学入門のおさらい(10)
3.コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
コンピュータは,言語データの詳細をうまく扱えない
(言葉がわからないから)
コンピュータでの利用をやりやすくする処理
言語研究にとって都合のよいように加工して
手間をかけることで価値を高める
31
コーパス言語学入門のおさらい(10)
3.コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
文章構造:単語,文,段落,節,章,テキスト
文<sentence> ~ </sentence>
段落<paragraph> ~ </paragraph>
文章全体 <text> ~ </text>
など
32
コーパス言語学入門のおさらい(11)
コーパスの作成
• タグづけにともなう問題
– 単語の区切りはどうするか?
• 長い単位と短い単位
– 品詞をどう定義するのか?
• 学校文法,その他の文法
– 人間の揺らぎをどうやって抑えるか?
• ルールを厳格化し,揺らぎを排除
• 誰でもいつでも同じ基準で作業
33
コーパス言語学入門のおさらい(12)
• コーパスに関係するツール
– 言語解析ツール
日本語
• 形態素解析(茶筅,JUMAN)
• 構文解析(Cabocha,KNP)
英語
• 形態素解析(BrillTagger)
• 構文解析(ApplePieParser)などなど
→利用できる言語解析ツールは存在する
34
コーパス言語学入門のおさらい(13)
• コーパスに関係するツール
– ブラウズツール
KWIC (KeyWord In Context)
• ひまわり (国立国語研究所)
• KWIC Concordance for Windows
• Web Concordancer
• Web KWIC
→利用できるブラウズツールも多数存在
35
コーパス言語学入門のおさらい(14)
• コーパスを利用して出た結果の分析
– 語彙調査
– 分析(問題によってやることは異なるが)
• 出現頻度の差の有意差
– 差異係数
– ばらつきの検定など
• 考察
– 得られたデータから何が言えるかを考察
– 納得できる説明,視点を与える分析
36
コーパス言語学入門のおさらい(14)
• コーパスを利用して出た結果の分析
– 語彙調査
– 分析(問題によってやることは異なるが)
• 出現頻度の差の有意差
– 差異係数
必ず,統計的な検定をするというわけでもない
– ばらつきの検定など
適用できる検定方法があるなら適用すべき
• 考察
十分に納得のいく他の分析を用いる方法もある
– 得られたデータから何が言えるかを考察
– 納得できる説明,視点を与える分析
37
授業の予定
10/3
10/10,17,24
語彙表作成
(データ収集)
10/31,11/7,14 統計的分析
(データ収集)
11/21
外語祭準備日で休み
11/28,12/5,12 収集データの加工分析準備
12/19
金曜日の授業に振り替え
1/16,23,30
分析
2/6
テストの予定
38