コーパス言語学入門 第4回 本日の内容 • 本日は実習 – タグの定義 – タグ付け作業 2 タグの定義 • タグの定義 – その前に,どんなコーパスを作るかが問題 3 タグの定義(2) • タグの定義 – その前に,どんなコーパスを作るかが問題 – 最初なので,汎用で比較的量の少ないものを • 新聞記事 • 小説の一部 4 タグの定義(3) • 対象コーパス – 新聞記事 を元に作成する汎用コーパス • タグの定義 – 汎用的な目的に使えそうなタグを定義する • タグの種類 1. 素材の管理のための情報 2. コーパス内部の表記規則など 3. コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 5 データの入手 • とにかく,データを手にいれる – 自分で作成 – どこかから入手 →今回は,練習なので,新聞記事を選んで入手 読売新聞 朝日新聞 毎日新聞 日経新聞 6 データの入手(2) • 記事の取得 – 読売新聞 朝日新聞 毎日新聞 日経新聞 – WWWのブラウザ(インターネットエクスプローラ) • とりたい記事を表示 • マウスで記事を選んでコピー • エディタに貼り付け – エディタには,TeraPadかメモ帳を使う • 名前を付けて保存で「enshu01.txt」 7 タグの定義(4) • タグの定義に話を戻して... 1. 素材の管理のための情報 – – – – – 作成日 著者 加工日 加工者 加工者のID(学籍番号) 8 タグの定義(5) • タグの定義に話を戻して... 1. 素材の管理のための情報 – – – – – 作成日 <pubdate></pubdate> 著者 <author></author> 加工日 <tagdate></tagdata> 加工者 <tagger></tagger> 加工者のID(学籍番号) <tagger_id></tagger_id> 9 タグの定義(6) 2. コーパス内部の表記規則など – 今回はなし 10 タグの定義(7) 3. コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 –色々考えられるが.. • テキスト構造に関する情報 • 単語の品詞情報 • 固有名の属性情報 – 場所,組織名,数値などの情報 を今回の練習では扱う 11 タグの定義(8) 3. コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 テキスト構造に関する情報 –文 <sent></sent> –段落 <para></para> –テキスト <text></text> –記事全体 <article></article> –見出し<title></title> –日付 <date></date> 12 タグの定義(9) 3. コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 単語の品詞情報(自立語だけ) –名詞 –動詞 –形容詞 –副詞 <noun></noun> <verb></verb> <adj></adj> <adv></adv> 13 タグの定義(10) 3. コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 固有名などの情報(名詞の属性として) 名詞 <noun></noun> –場所 <noun ne=“loc”></noun> –組織名 <noun ne=“org”></noun> –数値 <noun ne=“num”></noun> –時間 <noun ne=“time”></noun> –人名 <noun ne=“person”></noun> –役職 <noun ne=“title”></noun> 14 タグ付け作業 • 開始 15
© Copyright 2024 ExpyDoc