コーパス言語学入門 第6回 本日の内容 • 前回のおさらい • コーパスの作成(補足) • コーパスの利用 – コーパスの入手 – コーパスの加工(一部実習済み) – コーパスの利用 2 前回のおさらい • タグ付け – タグの形式は何でもいい • 使い勝手のよい形式が望ましい(実習ではxml) – 重要なのは定義をしっかりすること • タグ付けを正確に行うのは結構たいへんな作業 – 通常,複数の人間,複数の日にちをかけて作業 • 人によって,日によって,タグ付けの基準がずれては 困る! だから,基準を明確にし,曖昧さを出さない! 3 前回のおさらい • タグにxml形式を利用 – xmlはいろんなことができる – インターネットエクスプローラで表示もできる 先頭に以下を追加して,<article>の移動もした <?xml version="1.0" encoding="ISO-2022-JP" ?> さらに,2行目に以下を追加して,article.xsl追加で <?xml:stylesheet type="text/xsl" href="article.xsl" ?> 表示の変更も行った →xmlが便利なので,急速に普及しているのはこのせい 4 補足:タグ付けの実際 • 実際的な手順 – 「どんなタグが必要か」はサンプルを元に検討 • 初期に考えたタグセット →普通は足りない部分がある • いくつかサンプルとして作業をし,検討 →足りない部分,余分な部分を訂正 – 定義を確定し,明示 • 多人数で共同作業する場合にも有効 • 自分が別の日に作業する場合にも揺らぎを防ぐ 5 補足:タグ付けの実際 • 細かい部分で困ることは多い 日本語を例として – 単語って? • 特に複合名詞はどこで切れるか • 単語の単位をどうするか – 品詞って? • 名詞,動詞,形容詞,副詞,助詞,助動詞 6 補足:単語の定義 • 単語(単位語)をどうとらえるか – 国立国語研究所などの研究でもいくつかある (調査によって微妙に違う) – 大雑把に言って... • 短い単位 • 長い単位 7 補足:単語の定義(2) • 単語(単位語)をどうとらえるか – 短い単位だと,形態素相当 パスタにスペイン風トマトソースを パスタ/に/スペイン/風/トマト/ソース/を パスタ/に/スペイン/風/トマトソース/を ぐらい 8 補足:単語の定義(3) • 単語(単位語)をどうとらえるか – 長い単位だと,文節(単語)相当 パスタにスペイン風トマトソースを パスタ/に/スペイン風/トマトソース/を パスタに/スペイン風/トマトソースを パスタ/に/スペイン風トマトソース/を パスタに/スペイン風トマトソースを ぐらい 9 補足:単語の定義(4) • 短い単位 パスタ/に/スペイン/風/トマト/ソース/を パスタ/に/スペイン/風/トマトソース/を – 単位語が抽象的なものとしてとらえられる • 「ソース」で切れると「何とかソース」が全部含まれる • 日本語の基本語彙調査のような,一般的な側面を調 査したい場合向き 10 補足:単語の定義(5) • 長い単位 パスタに/スペイン風/トマトソースを パスタ/に/スペイン風トマトソース/を – 特殊なものとしてとらえられる • 「トマトソース」は「とんかつソース」や「チリソース」とは 異なる • 文体的な特徴のような,素材にある特殊な側面を調査 したい場合向き 11 補足:品詞の定義 • 品詞をどう考えるか? – 学校文法 • 名詞,動詞,形容詞,形容動詞,助詞,助動詞,感動 詞,接続詞,... – 実際は文法もいろいろある • 茶筅やJUMANでは形容動詞はない →どの文法を使うかは,やはりコーパスを作る側が決め ていかなければならない 12 補足:ゆらぎに注意 • 人間の基準はかなり曖昧 – 感覚で決めてはいけない – 「ゆらぎ」が発生することがあるので,注意 • 品詞の判定,単語(単位語)の取り決め,属性の判断 • ゆらぎが発生して曖昧になると – コーパスの言語データとしての信頼性が低下 – コーパスの価値がなくなることもある – せっかくの苦労(作業)が台無しに... 13 コーパスの利用 1. コーパスの入手 2. コーパスの加工 3. コーパスの利用 という順番になる. 演習では,かなり省略して1と2を行ったが あらためて,他の事例も見る 14 コーパスの入手(1) • 実際にコーパスをどうやって入手するか 少なくとも以下の3つが考えられる – 公開されているコーパス(入手可能) – 実はコーパスとして考えられる言語データを入手 (自分で収集し,加工をする) – 完全なる手作り(内容も含め自作する) 15 コーパスの入手(2) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える – 入手可能な公開されているコーパス(有料) 個別のコーパス配布先から手続きを経て入手 (BNC,毎日新聞 など Webで確認) 16 コーパスの入手(2b) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える 著作権の問題はおきず...契約するので – 入手可能な公開されているコーパス(有料) 個別のコーパス配布先から手続きを経て入手 (BNC,毎日新聞 など Webで確認) 17 コーパスの入手(2c) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える 著作権の問題はおきず...契約するので – 入手可能な公開されているコーパス(有料) しかし,だいたいの場合,高価! 個別のコーパス配布先から手続きを経て入手 (BNC,毎日新聞 など Webで確認) 18 コーパスの入手(3) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える – 入手可能な公開されているコーパス(有料) 言語資源を収集し会員制で配布している組織経由 (LDC, ELRA など Webで確認) 19 コーパスの入手(3b) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える 著作権の問題はおきず...契約するので – 入手可能な公開されているコーパス(有料) 言語資源を収集し会員制で配布している組織経由 (LDC, ELRA など Webで確認) 20 コーパスの入手(3c) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える 著作権の問題はおきず...契約するので – 入手可能な公開されているコーパス(有料) しかし,だいたいの場合,高価! 言語資源を収集し会員制で配布している組織経由 (LDC, ELRA など Webで確認) 21 コーパスの入手(4) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える – 入手可能な公開されているコーパス(無料) 青空文庫 22 コーパスの入手(4b) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える – 入手可能な公開されているコーパス(無料) 著作権,版権の切れた素材を掲載 青空文庫 一応は大丈夫だと思われる 23 コーパスの入手(4c) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える – 入手可能な公開されているコーパス(無料) 著作権,版権の切れた素材を掲載 青空文庫 一応は大丈夫だと思われる 文学作品に特化している.仮名遣いが古い 24 コーパスの入手(5) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える – 入手は無理だが利用可能なコーパス(有料) 利用料を払って検索可能 The Bank of English 25 コーパスの入手(5b) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える 著作権の問題はおきず...契約するので – 入手は無理だが利用可能なコーパス(有料) 利用料を払って検索可能 The Bank of English 26 コーパスの入手(5c) • 公開されているコーパス(入手可能) – 費用,著作権問題なども考慮して入手先を考える 著作権の問題はおきず...契約するので – 入手は無理だが利用可能なコーパス(有料) 通常検索だけなので,使 い方が限定される 利用料を払って検索可能 The Bank of English 27 コーパスの入手(6) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) – 新聞社などのWebページ 例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN – 市販のCD-ROMとかDVD-ROMの中身 例:百科事典,日本語大辞典など 28 コーパスの入手(6b) • 実はコーパスとして考えられる言語データ 個人的に利用するだけならほぼ問題ない (入手後に自分で収集し,加工をする) – 新聞社などのWebページ 例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN – 市販のCD-ROMとかDVD-ROMの中身 例:百科事典,日本語大辞典など 29 コーパスの入手(6c) • 実はコーパスとして考えられる言語データ 個人的に利用するだけならほぼ問題ない (入手後に自分で収集し,加工をする) – 新聞社などのWebページ 例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN – 市販のCD-ROMとかDVD-ROMの中身 例:百科事典,日本語大辞典など 成果の公開時に著作権問題等が発生 30 コーパスの入手(6d) • 実はコーパスとして考えられる言語データ 個人的に利用するだけならほぼ問題ない (入手後に自分で収集し,加工をする) – 新聞社などのWebページ 例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN 公開を念頭に置くなら,予め著作権者に 許諾をとっておいた方がよい – 市販のCD-ROMとかDVD-ROMの中身 (扱いは難しい) 例:百科事典,日本語大辞典など 成果の公開時に著作権問題等が発生 31 コーパスの入手(7) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) – 歌詞 • 歌も研究テーマとして言語データになりうる うたまっぷ(登録不要,無料),歌ネット(要登録,無料) 32 コーパスの入手(7b) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) 歌詞はJASRAC管理であることが多い – 歌詞 • 歌も研究テーマとして言語データになりうる うたまっぷ(登録不要,無料),歌ネット(要登録,無料) 33 コーパスの入手(7c) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) 歌詞はJASRAC管理であることが多い – 歌詞 • 歌も研究テーマとして言語データになりうる うたまっぷ(登録不要,無料),歌ネット(要登録,無料) 歌詞を前面に出す場合はJASRACを通じ て著作権料を支払う必要あり! 34 コーパスの入手(8) • 完全なる手作り(内容も含め自作する) 35 コーパスの入手(8b) • 完全なる手作り(内容も含め自作する) 著作権の問題は起こらない(自分にあるから) 36 コーパスの入手(8c) • 完全なる手作り(内容も含め自作する) 著作権の問題は起こらない(自分にあるから) – しかし 37 コーパスの入手(8d) • 完全なる手作り(内容も含め自作する) 著作権の問題は起こらない(自分にあるから) – しかし 信頼性↓ 一般性↓ 客観性↓ コスト↑ 38 コーパスの入手(8e) • 完全なる手作り(内容も含め自作する) 著作権の問題は起こらない(自分にあるから) – しかし 信頼性↓ 一般性↓ 客観性↓ コスト↑ あまり現実的でない... 39 コーパスの加工(1) • テキストエディタによる手作業 – windows → TeraPad, メモ帳など – MS-Wordや一太郎などのワープロソフトも不可 能ではないが,お勧めせず 変なコードがつく(エディタで開いて見ればわかる) • その他のエディタとしては, – emacs, mule, meadow, viなどもある 40 コーパスの加工(2) • 文字コードは何を使うか? – 文字コードとは? • 日本語:jis, sjis, euc, utf-8 • Windowsでは,標準でsjis • Unix系では,標準でeuc – パソコンで通常使っているのはsjis – 複数の言語を混ぜて使うならutf-8 41 コーパスの加工(3) • 自然言語処理ツールを使う – 形態素解析・品詞付与 (日本語) • ChaSen(茶筅), • JUMAN, • すもも,など (英語) • Brill Tagger, • Xerox POS-Tagger, • PC-KIMMO 42 コーパスの加工(4) • 自然言語処理ツールを使う – 構文解析 (日本語) 係り受け解析器 • KNP • Cabocha(かぼちゃ) (英語) 構文解析木 • Apple Pie Parser 43 コーパスの加工(5) • 自分でプログラムを書く – タグ付けのためのアプリケーションを作る – 自動的に決まった情報を付与するためのプログ ラムを作る などなど. 簡単なプログラムを書くなら, perlという言語を使うのが手軽. 44 コーパスの加工(6) • 自分でプログラムを書く – タグ付けのためのアプリケーションを作る – 自動的に決まった情報を付与するためのプログ ラムを作る などなど. この辺は,2学期の実践編で扱う予定 簡単なプログラムを書くなら, perlという言語を使うのが手軽. 45
© Copyright 2024 ExpyDoc