コーパス言語学入門

コーパス言語学入門
第6回
本日の内容
• 前回のおさらい
• コーパスの作成(補足)
• コーパスの利用
– コーパスの入手
– コーパスの加工(一部実習済み)
– コーパスの利用
2
前回のおさらい
• タグ付け
– タグの形式は何でもいい
• 使い勝手のよい形式が望ましい(実習ではxml)
– 重要なのは定義をしっかりすること
• タグ付けを正確に行うのは結構たいへんな作業
– 通常,複数の人間,複数の日にちをかけて作業
• 人によって,日によって,タグ付けの基準がずれては
困る! だから,基準を明確にし,曖昧さを出さない!
3
前回のおさらい
• タグにxml形式を利用
– xmlはいろんなことができる
– インターネットエクスプローラで表示もできる
先頭に以下を追加して,<article>の移動もした
<?xml version="1.0" encoding="ISO-2022-JP" ?>
さらに,2行目に以下を追加して,article.xsl追加で
<?xml:stylesheet type="text/xsl" href="article.xsl" ?>
表示の変更も行った
→xmlが便利なので,急速に普及しているのはこのせい
4
補足:タグ付けの実際
• 実際的な手順
– 「どんなタグが必要か」はサンプルを元に検討
• 初期に考えたタグセット
→普通は足りない部分がある
• いくつかサンプルとして作業をし,検討
→足りない部分,余分な部分を訂正
– 定義を確定し,明示
• 多人数で共同作業する場合にも有効
• 自分が別の日に作業する場合にも揺らぎを防ぐ
5
補足:タグ付けの実際
• 細かい部分で困ることは多い
日本語を例として
– 単語って?
• 特に複合名詞はどこで切れるか
• 単語の単位をどうするか
– 品詞って?
• 名詞,動詞,形容詞,副詞,助詞,助動詞
6
補足:単語の定義
• 単語(単位語)をどうとらえるか
– 国立国語研究所などの研究でもいくつかある
(調査によって微妙に違う)
– 大雑把に言って...
• 短い単位
• 長い単位
7
補足:単語の定義(2)
• 単語(単位語)をどうとらえるか
– 短い単位だと,形態素相当
パスタにスペイン風トマトソースを
パスタ/に/スペイン/風/トマト/ソース/を
パスタ/に/スペイン/風/トマトソース/を
ぐらい
8
補足:単語の定義(3)
• 単語(単位語)をどうとらえるか
– 長い単位だと,文節(単語)相当
パスタにスペイン風トマトソースを
パスタ/に/スペイン風/トマトソース/を
パスタに/スペイン風/トマトソースを
パスタ/に/スペイン風トマトソース/を
パスタに/スペイン風トマトソースを
ぐらい
9
補足:単語の定義(4)
• 短い単位
パスタ/に/スペイン/風/トマト/ソース/を
パスタ/に/スペイン/風/トマトソース/を
– 単位語が抽象的なものとしてとらえられる
• 「ソース」で切れると「何とかソース」が全部含まれる
• 日本語の基本語彙調査のような,一般的な側面を調
査したい場合向き
10
補足:単語の定義(5)
• 長い単位
パスタに/スペイン風/トマトソースを
パスタ/に/スペイン風トマトソース/を
– 特殊なものとしてとらえられる
• 「トマトソース」は「とんかつソース」や「チリソース」とは
異なる
• 文体的な特徴のような,素材にある特殊な側面を調査
したい場合向き
11
補足:品詞の定義
• 品詞をどう考えるか?
– 学校文法
• 名詞,動詞,形容詞,形容動詞,助詞,助動詞,感動
詞,接続詞,...
– 実際は文法もいろいろある
• 茶筅やJUMANでは形容動詞はない
→どの文法を使うかは,やはりコーパスを作る側が決め
ていかなければならない
12
補足:ゆらぎに注意
• 人間の基準はかなり曖昧
– 感覚で決めてはいけない
– 「ゆらぎ」が発生することがあるので,注意
• 品詞の判定,単語(単位語)の取り決め,属性の判断
• ゆらぎが発生して曖昧になると
– コーパスの言語データとしての信頼性が低下
– コーパスの価値がなくなることもある
– せっかくの苦労(作業)が台無しに...
13
コーパスの利用
1. コーパスの入手
2. コーパスの加工
3. コーパスの利用
という順番になる.
演習では,かなり省略して1と2を行ったが
あらためて,他の事例も見る
14
コーパスの入手(1)
• 実際にコーパスをどうやって入手するか
少なくとも以下の3つが考えられる
– 公開されているコーパス(入手可能)
– 実はコーパスとして考えられる言語データを入手
(自分で収集し,加工をする)
– 完全なる手作り(内容も含め自作する)
15
コーパスの入手(2)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
– 入手可能な公開されているコーパス(有料)
個別のコーパス配布先から手続きを経て入手
(BNC,毎日新聞 など Webで確認)
16
コーパスの入手(2b)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
著作権の問題はおきず...契約するので
– 入手可能な公開されているコーパス(有料)
個別のコーパス配布先から手続きを経て入手
(BNC,毎日新聞 など Webで確認)
17
コーパスの入手(2c)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
著作権の問題はおきず...契約するので
– 入手可能な公開されているコーパス(有料)
しかし,だいたいの場合,高価!
個別のコーパス配布先から手続きを経て入手
(BNC,毎日新聞 など Webで確認)
18
コーパスの入手(3)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
– 入手可能な公開されているコーパス(有料)
言語資源を収集し会員制で配布している組織経由
(LDC, ELRA など Webで確認)
19
コーパスの入手(3b)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
著作権の問題はおきず...契約するので
– 入手可能な公開されているコーパス(有料)
言語資源を収集し会員制で配布している組織経由
(LDC, ELRA など Webで確認)
20
コーパスの入手(3c)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
著作権の問題はおきず...契約するので
– 入手可能な公開されているコーパス(有料)
しかし,だいたいの場合,高価!
言語資源を収集し会員制で配布している組織経由
(LDC, ELRA など Webで確認)
21
コーパスの入手(4)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
– 入手可能な公開されているコーパス(無料)
青空文庫
22
コーパスの入手(4b)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
– 入手可能な公開されているコーパス(無料)
著作権,版権の切れた素材を掲載
青空文庫
一応は大丈夫だと思われる
23
コーパスの入手(4c)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
– 入手可能な公開されているコーパス(無料)
著作権,版権の切れた素材を掲載
青空文庫
一応は大丈夫だと思われる
文学作品に特化している.仮名遣いが古い
24
コーパスの入手(5)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
– 入手は無理だが利用可能なコーパス(有料)
利用料を払って検索可能
The Bank of English
25
コーパスの入手(5b)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
著作権の問題はおきず...契約するので
– 入手は無理だが利用可能なコーパス(有料)
利用料を払って検索可能
The Bank of English
26
コーパスの入手(5c)
• 公開されているコーパス(入手可能)
– 費用,著作権問題なども考慮して入手先を考える
著作権の問題はおきず...契約するので
– 入手は無理だが利用可能なコーパス(有料)
通常検索だけなので,使
い方が限定される
利用料を払って検索可能
The Bank of English
27
コーパスの入手(6)
• 実はコーパスとして考えられる言語データ
(入手後に自分で収集し,加工をする)
– 新聞社などのWebページ
例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN
– 市販のCD-ROMとかDVD-ROMの中身
例:百科事典,日本語大辞典など
28
コーパスの入手(6b)
• 実はコーパスとして考えられる言語データ
個人的に利用するだけならほぼ問題ない
(入手後に自分で収集し,加工をする)
– 新聞社などのWebページ
例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN
– 市販のCD-ROMとかDVD-ROMの中身
例:百科事典,日本語大辞典など
29
コーパスの入手(6c)
• 実はコーパスとして考えられる言語データ
個人的に利用するだけならほぼ問題ない
(入手後に自分で収集し,加工をする)
– 新聞社などのWebページ
例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN
– 市販のCD-ROMとかDVD-ROMの中身
例:百科事典,日本語大辞典など
成果の公開時に著作権問題等が発生
30
コーパスの入手(6d)
• 実はコーパスとして考えられる言語データ
個人的に利用するだけならほぼ問題ない
(入手後に自分で収集し,加工をする)
– 新聞社などのWebページ
例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN
公開を念頭に置くなら,予め著作権者に
許諾をとっておいた方がよい
– 市販のCD-ROMとかDVD-ROMの中身
(扱いは難しい)
例:百科事典,日本語大辞典など
成果の公開時に著作権問題等が発生
31
コーパスの入手(7)
• 実はコーパスとして考えられる言語データ
(入手後に自分で収集し,加工をする)
– 歌詞
• 歌も研究テーマとして言語データになりうる
うたまっぷ(登録不要,無料),歌ネット(要登録,無料)
32
コーパスの入手(7b)
• 実はコーパスとして考えられる言語データ
(入手後に自分で収集し,加工をする)
歌詞はJASRAC管理であることが多い
– 歌詞
• 歌も研究テーマとして言語データになりうる
うたまっぷ(登録不要,無料),歌ネット(要登録,無料)
33
コーパスの入手(7c)
• 実はコーパスとして考えられる言語データ
(入手後に自分で収集し,加工をする)
歌詞はJASRAC管理であることが多い
– 歌詞
• 歌も研究テーマとして言語データになりうる
うたまっぷ(登録不要,無料),歌ネット(要登録,無料)
歌詞を前面に出す場合はJASRACを通じ
て著作権料を支払う必要あり!
34
コーパスの入手(8)
• 完全なる手作り(内容も含め自作する)
35
コーパスの入手(8b)
• 完全なる手作り(内容も含め自作する)
著作権の問題は起こらない(自分にあるから)
36
コーパスの入手(8c)
• 完全なる手作り(内容も含め自作する)
著作権の問題は起こらない(自分にあるから)
– しかし
37
コーパスの入手(8d)
• 完全なる手作り(内容も含め自作する)
著作権の問題は起こらない(自分にあるから)
– しかし
信頼性↓
一般性↓
客観性↓
コスト↑
38
コーパスの入手(8e)
• 完全なる手作り(内容も含め自作する)
著作権の問題は起こらない(自分にあるから)
– しかし
信頼性↓
一般性↓
客観性↓
コスト↑
あまり現実的でない...
39
コーパスの加工(1)
• テキストエディタによる手作業
– windows → TeraPad, メモ帳など
– MS-Wordや一太郎などのワープロソフトも不可
能ではないが,お勧めせず
変なコードがつく(エディタで開いて見ればわかる)
• その他のエディタとしては,
– emacs, mule, meadow, viなどもある
40
コーパスの加工(2)
• 文字コードは何を使うか?
– 文字コードとは?
• 日本語:jis, sjis, euc, utf-8
• Windowsでは,標準でsjis
• Unix系では,標準でeuc
– パソコンで通常使っているのはsjis
– 複数の言語を混ぜて使うならutf-8
41
コーパスの加工(3)
• 自然言語処理ツールを使う
– 形態素解析・品詞付与
(日本語)
• ChaSen(茶筅),
• JUMAN,
• すもも,など
(英語)
• Brill Tagger,
• Xerox POS-Tagger,
• PC-KIMMO
42
コーパスの加工(4)
• 自然言語処理ツールを使う
– 構文解析
(日本語) 係り受け解析器
• KNP
• Cabocha(かぼちゃ)
(英語) 構文解析木
• Apple Pie Parser
43
コーパスの加工(5)
• 自分でプログラムを書く
– タグ付けのためのアプリケーションを作る
– 自動的に決まった情報を付与するためのプログ
ラムを作る
などなど.
簡単なプログラムを書くなら,
perlという言語を使うのが手軽.
44
コーパスの加工(6)
• 自分でプログラムを書く
– タグ付けのためのアプリケーションを作る
– 自動的に決まった情報を付与するためのプログ
ラムを作る
などなど. この辺は,2学期の実践編で扱う予定
簡単なプログラムを書くなら,
perlという言語を使うのが手軽.
45