コーパス言語学入門 2007年度1学期 第4回 本日の内容 • 前回のおさらい – コーパスの特徴 5つ • コーパスの作成,加工 – コーパスへの情報付与 • どんな情報を付与するか – タグの話 • SGMLの話 • HTMLの話 • XMLの話 2 前回のおさらい(1) • コーパスの特徴 – 1. 2. 3. 4. 5. コーパスの違いを区別する特徴5つ 規模 量の変化 汎用性 収集期間 掲載メディア 3 前回のおさらい(2) • コーパスの特徴 – 1. 2. 3. 4. 5. コーパスの違いを区別する特徴5つ 規模 収集する量の違いに 量の変化 よる分類 汎用性 収集期間 大規模,中規模, 掲載メディア 小規模, 4 前回のおさらい(3) • コーパスの特徴 – 1. 2. 3. 4. 5. コーパスの違いを区別する特徴5つ 規模 サンプルコーパス, 量の変化 (収集する量固定) 汎用性 収集期間 モニタコーパス 掲載メディア (常に更新) 5 前回のおさらい(4) • コーパスの特徴 – 1. 2. 3. 4. 5. コーパスの違いを区別する特徴5つ 規模 汎用: 量の変化 様々な研究 汎用性 特殊目的: 収集期間 決まった特殊な目的 掲載メディア その他: パラレルコーパスなど 6 前回のおさらい(5) • コーパスの特徴 – 1. 2. 3. 4. 5. コーパスの違いを区別する特徴5つ 規模 共時コーパス: 量の変化 同時代に限って収集 汎用性 通時コーパス: 収集期間 複数の時代区分に 掲載メディア 渡って収集 7 前回のおさらい(6) • コーパスの特徴 – 1. 2. 3. 4. 5. コーパスの違いを区別する特徴5つ 規模 書き言葉 量の変化 新聞,小説,雑誌... 汎用性 話し言葉 収集期間 講演,ニュース,会話 掲載メディア 中間的 blog, チャット,Web文書 8 前回のおさらい(7) • 代表的なコーパス – Brown Corpus, LOB Corpus – BNC Corpus … British National Corpus→ BNC2 – Bank of English • (こうした特徴を踏まえて,) 自分の目的に合う特徴を持った コーパスの選択が大事 9 コーパスの加工(作成) • コーパスは言語データ – ただ集めてきただけでは使いにくい (「生のデータ」という) – 情報を付与して整備することで使いやすくする →どんな情報を付与するか? →どんなやり方で付与するか? などを学ぶ 10 コーパスに情報を付与(1) • 付与する情報とはどんなものか? 例:毎日新聞 \ID\00000010 \C0\980101001 \AD\01 \AE\N \AF\980101M01 \T1\[社告]「第39回毎日芸術賞」決まる \S1\ ’98.1.1 朝刊 1頁 写図無 (全742文字) ... \KA\毎日芸術賞 \AA\シャコク \AA\ダイ39カイ ... \KB\100本 \KB\11月 ... \AB\ヤマモトリケン 11 コーパスに情報を付与(1) • 付与する情報とはどんなものか? 例:毎日新聞 \ データの区切り(フィールド区切り) \ID\00000010 \C0\980101001 ID ...記事のID \AD\01 \AE\N C0 ...記事の番号 \AF\980101M01 \ \T1\[社告]「第39回毎日芸術賞」決まる AD ...セクション \S1\ ’98.1.1 朝刊 1頁 写図無 (全742文字) 01→1面,02→2面,03→3面,04→ ... \KA\毎日芸術賞 解説,05→社説,07→国際,08→経済, \AA\シャコク 10→特集,12→総合,13→家庭,14→ \AA\ダイ39カイ 文化,15→読書,16→科学,18→芸能, ... 35→スポーツ,41→社会 \KB\100本 \KB\11月 AE,AF ...? ... \AB\ヤマモトリケン T1 ...見出し, T2...本文など 12 コーパスに情報を付与(2) • 情報の種類 1.ヘッダー情報 素材の管理のための情報 コーパス内部の表記規則など 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 13 コーパスに情報を付与(3) 1.ヘッダー情報(素材の管理のための情報) その言語データを整理,管理,参照するときに 必要になるような情報 14 コーパスに情報を付与(3) 1.ヘッダー情報(素材の管理のための情報) その言語データを整理,管理,参照するときに 必要になるような情報 ID ...記事のID C0 ...記事の番号 AD ...セクション 01→1面,02→2面,03→3面,04→解説,05→社説,07→ 国際,08→経済,10→特集,12→総合,13→家庭,14→文化, 15→読書,16→科学,18→芸能,35→スポーツ,41→社会 15 コーパスに情報を付与(4) 1.ヘッダー情報(コーパス内部の表記規則など) コーパス中で用いる特殊な記号や使い方の説明 など. 16 コーパスに情報を付与(5) 1.ヘッダー情報(コーパス内部の表記規則など) コーパス中で用いる特殊な記号や使い方の説明 例:対話を記録したコーパス 話者が2人いるとすると,A: B:とする.A:えー B:はい 発話が重なったとき,A,B:とする A,B:はい などという表記上のルール フォントを使い分けてあればその意味 送り仮名や漢字の統一した使い方など 17 コーパスに情報を付与(6) 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 コンピュータは,言語データの詳細をうまく扱えない (言葉がわからないから) コンピュータでの利用をやりやすくする処理 言語研究にとって都合のよいように加工して 手間をかけることで価値を高める 18 コーパスに情報を付与(7) 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 具体的には:例えば, 品詞情報(名詞,動詞,形容詞,...) 単数,複数などの情報(英語など) 形態素の情報 19 コーパスに情報を付与(8) 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 実際の例: – 京大コーパス(京大) • 毎日新聞 ’95の記事 (1/1~17の全記事2万文+1月~12月の社説2万文) • 形態素解析(JUMAN),構文解析(KNP)人手修正 – PennTreebank (Univ. of Pennsylvania) • WSJ,ATIS,Brown Corpus • 品詞タグ,構文解析 20 コーパスに情報を付与(9) 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 韻律情報:イントネーション,ポーズ,ピッチなど 文章構造:単語,文,段落,節,章,テキスト • 文<sentence> ~ </sentence> • 段落<paragraph> ~ </paragraph> • 文章全体 <text> ~ </text> 21 コーパスに情報を付与(10) 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 固有名詞の属性: • 人名 <person>松井</person> • 組織名<organization>東京外国語大学 </organization> • 役職 <title>社長</title> その他情報として欲しいものは何でも対象となる 22 タグ タグtag...商品タグ,プライスタグ タグで区別されたものに何かの属性があるこ とを示す. /title/ こんな形のタグや <title></title> こんな形のタグがある 23 タグ(2) • タグのつけ方,タグというものの定義 – 囲んだり,印をつけたものの属性を示す <属性>ほにゃらら</属性> /属性/ほにゃらら 24 タグ(3) • タグのつけ方,タグというものの定義 – 囲んだり,印をつけたものの属性を示す – タグの形式は基本的には何でもよい <>○○</> // 25 タグ(4) • タグのつけ方,タグというものの定義 – 囲んだり,印をつけたものの属性を示す – タグの形式は基本的には何でもよい – 区別できるように定義され,曖昧でなく,境界を はっきりさせればよい 26 タグ(5) • タグのつけ方,タグというものの定義 – 区別できるように定義され,曖昧でなく,境界を はっきりさせればよい – 実際既存のコーパスでは独自の定義でタグの 集合(タグセット)が決められていることが多い 27 タグ(6) • タグのつけ方,タグというものの定義 – 区別できるように定義され,曖昧でなく,境界を はっきりさせればよい – 実際既存のコーパスでは独自の定義でタグの 集合(タグセット)が決められていることが多い →標準化(国際化を目指した)の試みもある 代表的なのはTEI(Text Encoding Initiative)形式 (SGML形式にのっとっている) 28 タグ(7) 表現例 著者名を表す: <author>赤川次郎</author> 作品名を表す: <title>三毛猫ホームズの... </title> 出典名:<source>角川文庫</source> 出版日:<pubdate>2004.03.31</pubdate> 加工者名:<tagger>mochi</tagger> 加工日:<tagdate>2006.04.25</tagdate> 29 代表的なタグ SGML(1) • SGML(Standard Generalized Markup Language) – 元のテキストにマーク(タグ)を付与する(これを マークアップするという)ことで,情報を付与する <要素名>元のテキスト</要素名> と記述 開始タグ 終了タグ – こういうのをマークアップ言語と呼ぶ 30 SGML(2) • SGML(Standard Generalized Markup Language) 世界標準のマークアップに関するルール – タグの名前を決めているのではない タグの名前の決め方のルール – 文書構造を決めているのではない 文書構造の決め方のルール →タグの集合(タグセット)を定義する方法 マークアップする言語を定義する「メタな言語」 31 SGML(3) • SGMLで「タグをつける」 – 意味がわかり,使い方が一定ならなんでもよい (SGMLの決まりにあわせる必要はある) <要素名>元のテキスト</要素名> – 使用する要素名を決める=タグの定義 – テキストの論理構造などを記述する+ – タグの出現順=文章構造の定義 32 SGML(4) • SGMLの一例 TEI形式 DTD TEI(Text Encoding Initiative) • 人文科学系の文書を中心としたテキストの電子文書化を推進し ガイドラインを定める団体 – <p> … </p> 段落 – <q> … </q> 引用 – <note> … </note> 注記 – <text> … </text>文章全体 など 33 代表的なタグ HTML • 他の代表的なMarkup Language – HTML:Hyper Text Markup Language • SGMLから派生,テキストの表示形式を記述する • 主にWWWページ用の記述言語 • タグは決められていて自分では定義できない • タグを読めるブラウザが多いので使い勝手がよい (インターネットエクスプローラ,FireFox,Operaなど) <a href=“*****.html”>ほにゃららページ</a> <table><tr><td>0</td></tr></table> 34 代表的なタグ XML • 他の代表的なMarkup Language – XML:eXtended Markup Language • やはりSGMLから派生(SGMLのサブセット) SGMLは自由度↑,コンピュータでの扱い↓ 複雑すぎ HTMLは自由度↓,コンピュータでの扱い↑ • タグの定義ができる • タグ定義の自由さを残しつつ,コンピュータでも扱いや すいマークアップ言語として登場 • Webページも作れる→汎用性が高い 35 XML(2) • HTML と XML (意味情報) <HTML> <BODY> <H1>書籍情報</H1> <TABLE> <TR> <TD>書籍名</TD> <TD>定価</TD> <TD>著者</TD> </TR> <TR> <TD>XMLの話</TD> <TD>300円</TD> <TD>外大太郎</TD> </TR> </TABLE> </BODY> </HTML> <?xml version = "1.0" encoding = "Shift_JIS"?> <bookinfo genre = "computer"> <title>XMLの話</title> <price>300円</price> <author> 外大太郎</author> </bookinfo> 36 XML(3) • HTML と XML (意味情報) <HTML> <BODY> <H1>書籍情報</H1> <TABLE> <TR> <TD>書籍名</TD> <TD>定価</TD> <TD>著者</TD> </TR> <TR> <TD>XMLの話</TD> <TD>300円</TD> <TD>外大太郎</TD> </TR> </TABLE> </BODY> </HTML> <?xml version = "1.0" encoding = "Shift_JIS"?> <bookinfo genre = "computer"> <title>XMLの話</title> <price>300円</price> <author> 外大太郎</author> </bookinfo> これは表を作っているが, 見ないと想像しにくい 37 XML(4) • HTML と XML (意味情報) <HTML> <BODY> <H1>書籍情報</H1> <TABLE> <TR> <TD>書籍名</TD> <TD>定価</TD> <TD>著者</TD> </TR> <TR> <TD>XMLの話</TD> <TD>300円</TD> <TD>外大太郎</TD> </TR> </TABLE> </BODY> </HTML> <?xml version = "1.0" encoding = "Shift_JIS"?> <bookinfo genre = "computer"> <title>XMLの話</title> <price>300円</price> <author> 外大太郎</author> </bookinfo> こちらのタグには意味を定義 できる 例<price>..</price> 38 XML(5) • XMLは分業みたいな文書の定義 – 「文書の内容」「文書の構造」「文書の体裁」 この3つを分離して扱う 内容はXMLで記述 1つの文書 構造はDTDに定義 見た目はスタイルシート XSL,CSSを利用 39 XML(6) • XMLは分業みたいな文書の定義 – 「文書の内容」「文書の構造」「文書の体裁」 この3つを分離して扱う 説明が複雑になりすぎるので, 内容はXMLで記述 またの機会に... 1つの文書 構造はDTDに定義 見た目はスタイルシート XSL,CSSを利用 40 どんなタグを使うか • この授業では,SGML風タグを簡単に定義し て使用することにする • 文書の情報(header情報) • 言語処理のための情報 – 品詞,固有名詞,文章構造など 41
© Copyright 2024 ExpyDoc