コーパス言語学入門 2007年度1学期 第5回 本日の内容 • 本日はコーパス作成の実習 – タグの定義 – タグ付け作業 2 タグの定義 • タグの定義 – その前に,どんなコーパスを作るかが問題 3 タグの定義(2) • タグの定義 – その前に,どんなコーパスを作るかが問題 – 例として行うので,汎用目的の一般的なもの • 新聞記事 • 小説の一部 4 タグの定義(3) • 対象コーパス – 新聞記事 を元に作成する汎用コーパス • タグの定義 – 汎用的な目的に使えそうなタグを定義する • タグの種類 1. 素材の管理のための情報 2. コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 5 データの入手 • とにかく,データを手にいれる – 自分で作成 – どこかから入手 →今回は,練習なので,新聞記事を選んで入手 読売新聞 朝日新聞 毎日新聞 日経新聞 6 データの入手(2) • 記事の取得 – 読売新聞 朝日新聞 毎日新聞 日経新聞 – WWWのブラウザ(インターネットエクスプローラ) • とりたい記事を表示 • マウスで記事を選んでコピー • エディタに貼り付け – エディタには,TeraPadかメモ帳を使う • 名前を付けて保存で「enshu01.txt」 7 タグの定義(4) • タグの定義に話を戻して... 1. 素材の管理のための情報 – – – – – 作成日 著者 加工日 加工者 加工者のID(学籍番号) 8 タグの定義(5) • タグの定義に話を戻して... 1. 素材の管理のための情報 – – – – – 作成日 <pubdate></pubdate> 著者 <author></author> 加工日 <tagdate></tagdata> 加工者 <tagger></tagger> 加工者のID(学籍番号) <tagger_id></tagger_id> 9 タグの定義(6) 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 –色々考えられるが.. • テキスト構造に関する情報 • 単語の品詞情報 • 固有名の属性情報 – 場所,組織名,数値などの情報 を今回の練習では扱う 10 タグの定義(7) 2. コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 テキスト構造に関する情報 – – – – – – 文 <sent></sent> 段落 <para></para> テキスト <text></text> 記事全体 <article></article> 見出し<title></title> 日付 <date></date> 11 タグの定義(8) 2. コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 単語の品詞情報(自立語だけ) – – – – 名詞 <noun></noun> 動詞 <verb></verb> 形容詞 <adj></adj> 副詞 <adv></adv> 12 タグの定義(9) 2. コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 固有名などの情報(名詞の属性として) 名詞 <noun></noun> – – – – – – 場所 <noun ne=“loc”></noun> 組織名 <noun ne=“org”></noun> 数値 <noun ne=“num”></noun> 時間 <noun ne=“time”></noun> 人名 <noun ne=“person”></noun> 役職 <noun ne=“title”></noun> 13 タグ付け作業 • 開始 – enshu01.txt として保存 14 タグをxmlとして利用 • enshu01.txtに次の加工をしてxmlに 先頭に <?xml version="1.0" encoding="ISO-2022-JP" ?> を追加し, <title>の前の<article>を <pubdate>の前に移動する 名前を付けて保存で, enshu01.xml という名前で保存 15 タグをxmlとして利用(2) • インターネットエクスプローラで enshu01.xml を読み込む. 問題ないか,チェック! 16 タグをxmlとして利用(3) • 更に,2行目に <?xml:stylesheet type="text/xsl" href="article.xsl" ?> を追加し,再度保存 • article.xsl をWebページからダウンロード 17 タグをxmlとして利用(4) • 再びインターネットエクスプローラで enshu01.xml を読み込む. どのように見えるか,チェック! 18 まとめ • タグの定義の実際 – どんなパターンがあるかはサンプルを見て検討 – 定義をしっかりしておくことでゆらぎを防ぐ – それでも,言語的な問題で悩むことも多い →少なくとも同一コーパス内では一貫性の保持が必要! • タグをxmlとして利用 – xmlはいろんなことができる – インターネットエクスプローラで表示もできる 19
© Copyright 2025 ExpyDoc