コーパス言語学入門

コーパス言語学入門
第4回
本日の内容
• 本日は実習
– タグの定義
– タグ付け作業
2
タグの定義
• タグの定義
– その前に,どんなコーパスを作るかが問題
3
タグの定義(2)
• タグの定義
– その前に,どんなコーパスを作るかが問題
– 最初なので,汎用で比較的量の少ないものを
• 新聞記事
• 小説の一部
4
タグの定義(3)
• 対象コーパス
– 新聞記事 を元に作成する汎用コーパス
• タグの定義
– 汎用的な目的に使えそうなタグを定義する
• タグの種類
1. 素材の管理のための情報
2. コーパス内部の表記規則など
3. コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
5
データの入手
• とにかく,データを手にいれる
– 自分で作成
– どこかから入手
→今回は,練習なので,新聞記事を選んで入手
読売新聞
朝日新聞
毎日新聞
日経新聞
6
データの入手(2)
• 記事の取得
– 読売新聞 朝日新聞 毎日新聞 日経新聞
– WWWのブラウザ(インターネットエクスプローラ)
• とりたい記事を表示
• マウスで記事を選んでコピー
• エディタに貼り付け
– エディタには,TeraPadかメモ帳を使う
• 名前を付けて保存で「enshu01.txt」
7
タグの定義(4)
• タグの定義に話を戻して...
1. 素材の管理のための情報
–
–
–
–
–
作成日
著者
加工日
加工者
加工者のID(学籍番号)
8
タグの定義(5)
• タグの定義に話を戻して...
1. 素材の管理のための情報
–
–
–
–
–
作成日 <pubdate></pubdate>
著者
<author></author>
加工日 <tagdate></tagdata>
加工者 <tagger></tagger>
加工者のID(学籍番号)
<tagger_id></tagger_id>
9
タグの定義(6)
2. コーパス内部の表記規則など
– 今回はなし
10
タグの定義(7)
3. コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
–色々考えられるが..
• テキスト構造に関する情報
• 単語の品詞情報
• 固有名の属性情報
– 場所,組織名,数値などの情報
を今回の練習では扱う
11
タグの定義(8)
3. コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
テキスト構造に関する情報
–文
<sent></sent>
–段落
<para></para>
–テキスト <text></text>
–記事全体 <article></article>
–見出し<title></title>
–日付 <date></date>
12
タグの定義(9)
3. コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
単語の品詞情報(自立語だけ)
–名詞
–動詞
–形容詞
–副詞
<noun></noun>
<verb></verb>
<adj></adj>
<adv></adv>
13
タグの定義(10)
3. コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
固有名などの情報(名詞の属性として)
名詞 <noun></noun>
–場所 <noun ne=“loc”></noun>
–組織名 <noun ne=“org”></noun>
–数値 <noun ne=“num”></noun>
–時間 <noun ne=“time”></noun>
–人名 <noun ne=“person”></noun>
–役職 <noun ne=“title”></noun>
14
タグ付け作業
• 開始
15