コーパス言語学入門 第6回 本日の内容 • 前回のおさらい • コーパスの利用 – コーパスの入手 – コーパスの加工(一部実習済み) – コーパスの利用 2 前回のおさらい-タグ付けの実際 • タグづけでは,細かい部分で困ることは多い 日本語を例として – 単語って? • 特に複合名詞はどこで切れるか • 単語の単位をどうするか – 品詞って? • 名詞,動詞,形容詞,副詞,助詞,助動詞 3 前回のおさらいー単語の定義 • 単語(単位語)をどうとらえるか – 大雑把に言って... • 短い単位 パスタ/に/スペイン/風/トマト/ソース/を • 長い単位 パスタ/に/スペイン風トマトソース/を 使用目的によって使い分ける 同一コーパス内での首尾一貫性の保持は重要 4 前回のおさらい-ゆらぎに注意 • 人間の基準はかなり曖昧 – 感覚で決めてはいけない – 「ゆらぎ」が発生することがあるので,注意 • 品詞の判定,単語(単位語)の取り決め,属性の判断 • ゆらぎが発生して曖昧になると – コーパスの言語データとしての信頼性が低下 – コーパスの価値がなくなることもある – せっかくの苦労(作業)が台無しに... 5 前回のおさらい • タグをxmlとして利用 – xmlはいろんなことができる – インターネットエクスプローラで表示もできる 先頭に以下を追加して,<article>の移動もした <?xml version="1.0" encoding="ISO-2022-JP" ?> さらに,2行目に以下を追加して,article.xsl追加で <?xml:stylesheet type="text/xsl" href="article.xsl" ?> 表示の変更も行った →xmlが便利なので,急速に普及しているのはこのせい 6 コーパスの利用 1. コーパスの入手 2. コーパスの加工 3. コーパスの利用 という順番になる. 演習では,かなり省略して1と2を行ったが あらためて,他の事例も見る 7 コーパスの入手(1) • 実際にコーパスをどうやって入手するか 少なくとも以下の3つが考えられる – 公開されているコーパス(入手可能) – 実はコーパスとして考えられる言語データを入手 (自分で収集し,加工をする) – 完全なる手作り(内容も含め自作する) 8 コーパスの入手(2) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える – 入手可能な公開されているコーパス(有料) 個別のコーパス配布先から手続きを経て入手 (BNC,毎日新聞 など Webで確認) 9 コーパスの入手(2b) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える 著作権の問題はおきず...契約するので – 入手可能な公開されているコーパス(有料) 個別のコーパス配布先から手続きを経て入手 (BNC,毎日新聞 など Webで確認) 10 コーパスの入手(2c) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える 著作権の問題はおきず...契約するので – 入手可能な公開されているコーパス(有料) しかし,だいたいの場合,高価! 個別のコーパス配布先から手続きを経て入手 (BNC,毎日新聞 など Webで確認) 11 コーパスの入手(3) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える – 入手可能な公開されているコーパス(有料) 言語資源を収集し会員制で配布している組織経由 (LDC, ELRA など Webで確認) 12 コーパスの入手(3b) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える 著作権の問題はおきず...契約するので – 入手可能な公開されているコーパス(有料) 言語資源を収集し会員制で配布している組織経由 (LDC, ELRA など Webで確認) 13 コーパスの入手(3c) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える 著作権の問題はおきず...契約するので – 入手可能な公開されているコーパス(有料) しかし,だいたいの場合,高価! 言語資源を収集し会員制で配布している組織経由 (LDC, ELRA など Webで確認) 14 コーパスの入手(4) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える – 入手可能な公開されているコーパス(無料) 青空文庫 15 コーパスの入手(4b) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える – 入手可能な公開されているコーパス(無料) 著作権,版権の切れた素材を掲載 青空文庫 一応は大丈夫だと思われる 16 コーパスの入手(4c) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える – 入手可能な公開されているコーパス(無料) 著作権,版権の切れた素材を掲載 青空文庫 一応は大丈夫だと思われる 文学作品に特化している.仮名遣いが古い 17 コーパスの入手(5) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える – 入手は無理だが利用可能なコーパス(有料) 利用料を払って検索可能 The Bank of English 18 コーパスの入手(5b) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える 著作権の問題はおきず...契約するので – 入手は無理だが利用可能なコーパス(有料) 利用料を払って検索可能 The Bank of English 19 コーパスの入手(5c) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える 著作権の問題はおきず...契約するので – 入手は無理だが利用可能なコーパス(有料) 通常検索だけなので,使 い方が限定される 利用料を払って検索可能 The Bank of English 20 コーパスの入手(6) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) – 新聞社などのWebページ 例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN – 市販のCD-ROMとかDVD-ROMの中身 例:百科事典,日本語大辞典など 21 コーパスの入手(6b) • 実はコーパスとして考えられる言語データ 個人的に利用するだけならほぼ問題ない (入手後に自分で収集し,加工をする) – 新聞社などのWebページ 例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN – 市販のCD-ROMとかDVD-ROMの中身 例:百科事典,日本語大辞典など 22 コーパスの入手(6c) • 実はコーパスとして考えられる言語データ 個人的に利用するだけならほぼ問題ない (入手後に自分で収集し,加工をする) – 新聞社などのWebページ 例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN – 市販のCD-ROMとかDVD-ROMの中身 例:百科事典,日本語大辞典など 成果の公開時に著作権問題等が発生 23 コーパスの入手(6d) • 実はコーパスとして考えられる言語データ 個人的に利用するだけならほぼ問題ない (入手後に自分で収集し,加工をする) – 新聞社などのWebページ 例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN 公開を念頭に置くなら,予め著作権者に 許諾をとっておいた方がよい – 市販のCD-ROMとかDVD-ROMの中身 (扱いは難しい) 例:百科事典,日本語大辞典など 成果の公開時に著作権問題等が発生 24 コーパスの入手(7) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) – 歌詞 • 歌も研究テーマとして言語データになりうる うたまっぷ(登録不要,無料),歌ネット(要登録,無料) 25 コーパスの入手(7b) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) 歌詞はJASRAC管理であることが多い – 歌詞 • 歌も研究テーマとして言語データになりうる うたまっぷ(登録不要,無料),歌ネット(要登録,無料) 26 コーパスの入手(7c) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) 歌詞はJASRAC管理であることが多い – 歌詞 • 歌も研究テーマとして言語データになりうる うたまっぷ(登録不要,無料),歌ネット(要登録,無料) 歌詞を前面に出す場合はJASRACを通じ て著作権料を支払う必要あり! 27 コーパスの入手(8) • 完全なる手作り(内容も含め自作する) 28 コーパスの入手(8b) • 完全なる手作り(内容も含め自作する) 著作権の問題は起こらない(自分にあるから) 29 コーパスの入手(8c) • 完全なる手作り(内容も含め自作する) 著作権の問題は起こらない(自分にあるから) – しかし 30 コーパスの入手(8d) • 完全なる手作り(内容も含め自作する) 著作権の問題は起こらない(自分にあるから) – しかし 信頼性↓ 一般性↓ 客観性↓ コスト↑ 31 コーパスの入手(8e) • 完全なる手作り(内容も含め自作する) 著作権の問題は起こらない(自分にあるから) – しかし 信頼性↓ 一般性↓ 客観性↓ コスト↑ あまり現実的でない... 32 コーパスの加工(1) • テキストエディタによる手作業 – windows → TeraPad, メモ帳など – MS-Wordや一太郎などのワープロソフトも不可 能ではないが,お勧めせず 変なコードがつく(エディタで開いて見ればわかる) • その他のエディタとしては, – emacs, mule, meadow, viなどもある 33 コーパスの加工(2) • 文字コードは何を使うか? – 文字コードとは? • 日本語:jis, sjis, euc, utf-8 • Windowsでは,標準でsjis • Unix系では,標準でeuc – パソコンで通常使っているのはsjis – 複数の言語を混ぜて使うならutf-8 34 コーパスの加工(3) • 自然言語処理ツールを使う – 形態素解析・品詞付与 (日本語) • ChaSen(茶筅), • JUMAN, • すもも,など (英語) • Brill Tagger, • Xerox POS-Tagger, • PC-KIMMO 35 コーパスの加工(4) • 自然言語処理ツールを使う – 構文解析 (日本語) 係り受け解析器 • KNP • Cabocha(かぼちゃ) (英語) 構文解析木 • Apple Pie Parser 36 コーパスの加工(5) • 自分でプログラムを書く – タグ付けのためのアプリケーションを作る – 自動的に決まった情報を付与するためのプログ ラムを作る などなど. 簡単なプログラムを書くなら, perlという言語を使うのが手軽. 37 コーパスの加工(6) • 自分でプログラムを書く – タグ付けのためのアプリケーションを作る – 自動的に決まった情報を付与するためのプログ ラムを作る などなど. この辺は,2学期の実践編で扱う 簡単なプログラムを書くなら, perlという言語を使うのが手軽. 38
© Copyright 2024 ExpyDoc