コーパス言語学入門

コーパス言語学入門
第6回
本日の内容
• 前回のおさらい
• コーパスの利用
– コーパスの入手
– コーパスの加工(一部実習済み)
– コーパスの利用
2
前回のおさらい-タグ付けの実際
• タグづけでは,細かい部分で困ることは多い
日本語を例として
– 単語って?
• 特に複合名詞はどこで切れるか
• 単語の単位をどうするか
– 品詞って?
• 名詞,動詞,形容詞,副詞,助詞,助動詞
3
前回のおさらいー単語の定義
• 単語(単位語)をどうとらえるか
– 大雑把に言って...
• 短い単位
パスタ/に/スペイン/風/トマト/ソース/を
• 長い単位
パスタ/に/スペイン風トマトソース/を
使用目的によって使い分ける
同一コーパス内での首尾一貫性の保持は重要
4
前回のおさらい-ゆらぎに注意
• 人間の基準はかなり曖昧
– 感覚で決めてはいけない
– 「ゆらぎ」が発生することがあるので,注意
• 品詞の判定,単語(単位語)の取り決め,属性の判断
• ゆらぎが発生して曖昧になると
– コーパスの言語データとしての信頼性が低下
– コーパスの価値がなくなることもある
– せっかくの苦労(作業)が台無しに...
5
前回のおさらい
• タグをxmlとして利用
– xmlはいろんなことができる
– インターネットエクスプローラで表示もできる
先頭に以下を追加して,<article>の移動もした
<?xml version="1.0" encoding="ISO-2022-JP" ?>
さらに,2行目に以下を追加して,article.xsl追加で
<?xml:stylesheet type="text/xsl" href="article.xsl" ?>
表示の変更も行った
→xmlが便利なので,急速に普及しているのはこのせい
6
コーパスの利用
1. コーパスの入手
2. コーパスの加工
3. コーパスの利用
という順番になる.
演習では,かなり省略して1と2を行ったが
あらためて,他の事例も見る
7
コーパスの入手(1)
• 実際にコーパスをどうやって入手するか
少なくとも以下の3つが考えられる
– 公開されているコーパス(入手可能)
– 実はコーパスとして考えられる言語データを入手
(自分で収集し,加工をする)
– 完全なる手作り(内容も含め自作する)
8
コーパスの入手(2)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
– 入手可能な公開されているコーパス(有料)
個別のコーパス配布先から手続きを経て入手
(BNC,毎日新聞 など Webで確認)
9
コーパスの入手(2b)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
著作権の問題はおきず...契約するので
– 入手可能な公開されているコーパス(有料)
個別のコーパス配布先から手続きを経て入手
(BNC,毎日新聞 など Webで確認)
10
コーパスの入手(2c)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
著作権の問題はおきず...契約するので
– 入手可能な公開されているコーパス(有料)
しかし,だいたいの場合,高価!
個別のコーパス配布先から手続きを経て入手
(BNC,毎日新聞 など Webで確認)
11
コーパスの入手(3)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
– 入手可能な公開されているコーパス(有料)
言語資源を収集し会員制で配布している組織経由
(LDC, ELRA など Webで確認)
12
コーパスの入手(3b)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
著作権の問題はおきず...契約するので
– 入手可能な公開されているコーパス(有料)
言語資源を収集し会員制で配布している組織経由
(LDC, ELRA など Webで確認)
13
コーパスの入手(3c)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
著作権の問題はおきず...契約するので
– 入手可能な公開されているコーパス(有料)
しかし,だいたいの場合,高価!
言語資源を収集し会員制で配布している組織経由
(LDC, ELRA など Webで確認)
14
コーパスの入手(4)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
– 入手可能な公開されているコーパス(無料)
青空文庫
15
コーパスの入手(4b)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
– 入手可能な公開されているコーパス(無料)
著作権,版権の切れた素材を掲載
青空文庫
一応は大丈夫だと思われる
16
コーパスの入手(4c)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
– 入手可能な公開されているコーパス(無料)
著作権,版権の切れた素材を掲載
青空文庫
一応は大丈夫だと思われる
文学作品に特化している.仮名遣いが古い
17
コーパスの入手(5)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
– 入手は無理だが利用可能なコーパス(有料)
利用料を払って検索可能
The Bank of English
18
コーパスの入手(5b)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
著作権の問題はおきず...契約するので
– 入手は無理だが利用可能なコーパス(有料)
利用料を払って検索可能
The Bank of English
19
コーパスの入手(5c)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
著作権の問題はおきず...契約するので
– 入手は無理だが利用可能なコーパス(有料)
通常検索だけなので,使
い方が限定される
利用料を払って検索可能
The Bank of English
20
コーパスの入手(6)
• 実はコーパスとして考えられる言語データ
(入手後に自分で収集し,加工をする)
– 新聞社などのWebページ
例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN
– 市販のCD-ROMとかDVD-ROMの中身
例:百科事典,日本語大辞典など
21
コーパスの入手(6b)
• 実はコーパスとして考えられる言語データ
個人的に利用するだけならほぼ問題ない
(入手後に自分で収集し,加工をする)
– 新聞社などのWebページ
例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN
– 市販のCD-ROMとかDVD-ROMの中身
例:百科事典,日本語大辞典など
22
コーパスの入手(6c)
• 実はコーパスとして考えられる言語データ
個人的に利用するだけならほぼ問題ない
(入手後に自分で収集し,加工をする)
– 新聞社などのWebページ
例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN
– 市販のCD-ROMとかDVD-ROMの中身
例:百科事典,日本語大辞典など
成果の公開時に著作権問題等が発生
23
コーパスの入手(6d)
• 実はコーパスとして考えられる言語データ
個人的に利用するだけならほぼ問題ない
(入手後に自分で収集し,加工をする)
– 新聞社などのWebページ
例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN
公開を念頭に置くなら,予め著作権者に
許諾をとっておいた方がよい
– 市販のCD-ROMとかDVD-ROMの中身
(扱いは難しい)
例:百科事典,日本語大辞典など
成果の公開時に著作権問題等が発生
24
コーパスの入手(7)
• 実はコーパスとして考えられる言語データ
(入手後に自分で収集し,加工をする)
– 歌詞
• 歌も研究テーマとして言語データになりうる
うたまっぷ(登録不要,無料),歌ネット(要登録,無料)
25
コーパスの入手(7b)
• 実はコーパスとして考えられる言語データ
(入手後に自分で収集し,加工をする)
歌詞はJASRAC管理であることが多い
– 歌詞
• 歌も研究テーマとして言語データになりうる
うたまっぷ(登録不要,無料),歌ネット(要登録,無料)
26
コーパスの入手(7c)
• 実はコーパスとして考えられる言語データ
(入手後に自分で収集し,加工をする)
歌詞はJASRAC管理であることが多い
– 歌詞
• 歌も研究テーマとして言語データになりうる
うたまっぷ(登録不要,無料),歌ネット(要登録,無料)
歌詞を前面に出す場合はJASRACを通じ
て著作権料を支払う必要あり!
27
コーパスの入手(8)
• 完全なる手作り(内容も含め自作する)
28
コーパスの入手(8b)
• 完全なる手作り(内容も含め自作する)
著作権の問題は起こらない(自分にあるから)
29
コーパスの入手(8c)
• 完全なる手作り(内容も含め自作する)
著作権の問題は起こらない(自分にあるから)
– しかし
30
コーパスの入手(8d)
• 完全なる手作り(内容も含め自作する)
著作権の問題は起こらない(自分にあるから)
– しかし
信頼性↓
一般性↓
客観性↓
コスト↑
31
コーパスの入手(8e)
• 完全なる手作り(内容も含め自作する)
著作権の問題は起こらない(自分にあるから)
– しかし
信頼性↓
一般性↓
客観性↓
コスト↑
あまり現実的でない...
32
コーパスの加工(1)
• テキストエディタによる手作業
– windows → TeraPad, メモ帳など
– MS-Wordや一太郎などのワープロソフトも不可
能ではないが,お勧めせず
変なコードがつく(エディタで開いて見ればわかる)
• その他のエディタとしては,
– emacs, mule, meadow, viなどもある
33
コーパスの加工(2)
• 文字コードは何を使うか?
– 文字コードとは?
• 日本語:jis, sjis, euc, utf-8
• Windowsでは,標準でsjis
• Unix系では,標準でeuc
– パソコンで通常使っているのはsjis
– 複数の言語を混ぜて使うならutf-8
34
コーパスの加工(3)
• 自然言語処理ツールを使う
– 形態素解析・品詞付与
(日本語)
• ChaSen(茶筅),
• JUMAN,
• すもも,など
(英語)
• Brill Tagger,
• Xerox POS-Tagger,
• PC-KIMMO
35
コーパスの加工(4)
• 自然言語処理ツールを使う
– 構文解析
(日本語) 係り受け解析器
• KNP
• Cabocha(かぼちゃ)
(英語) 構文解析木
• Apple Pie Parser
36
コーパスの加工(5)
• 自分でプログラムを書く
– タグ付けのためのアプリケーションを作る
– 自動的に決まった情報を付与するためのプログ
ラムを作る
などなど.
簡単なプログラムを書くなら,
perlという言語を使うのが手軽.
37
コーパスの加工(6)
• 自分でプログラムを書く
– タグ付けのためのアプリケーションを作る
– 自動的に決まった情報を付与するためのプログ
ラムを作る
などなど. この辺は,2学期の実践編で扱う
簡単なプログラムを書くなら,
perlという言語を使うのが手軽.
38