コーパス言語学入門

コーパス言語学入門
2007年度1学期
第5回
本日の内容
• 本日はコーパス作成の実習
– タグの定義
– タグ付け作業
2
タグの定義
• タグの定義
– その前に,どんなコーパスを作るかが問題
3
タグの定義(2)
• タグの定義
– その前に,どんなコーパスを作るかが問題
– 例として行うので,汎用目的の一般的なもの
• 新聞記事
• 小説の一部
4
タグの定義(3)
• 対象コーパス
– 新聞記事 を元に作成する汎用コーパス
• タグの定義
– 汎用的な目的に使えそうなタグを定義する
• タグの種類
1. 素材の管理のための情報
2. コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
5
データの入手
• とにかく,データを手にいれる
– 自分で作成
– どこかから入手
→今回は,練習なので,新聞記事を選んで入手
読売新聞
朝日新聞
毎日新聞
日経新聞
6
データの入手(2)
• 記事の取得
– 読売新聞 朝日新聞 毎日新聞 日経新聞
– WWWのブラウザ(インターネットエクスプローラ)
• とりたい記事を表示
• マウスで記事を選んでコピー
• エディタに貼り付け
– エディタには,TeraPadかメモ帳を使う
• 名前を付けて保存で「enshu01.txt」
7
タグの定義(4)
• タグの定義に話を戻して...
1. 素材の管理のための情報
–
–
–
–
–
作成日
著者
加工日
加工者
加工者のID(学籍番号)
8
タグの定義(5)
• タグの定義に話を戻して...
1. 素材の管理のための情報
–
–
–
–
–
作成日 <pubdate></pubdate>
著者
<author></author>
加工日 <tagdate></tagdata>
加工者 <tagger></tagger>
加工者のID(学籍番号)
<tagger_id></tagger_id>
9
タグの定義(6)
2.コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
–色々考えられるが..
• テキスト構造に関する情報
• 単語の品詞情報
• 固有名の属性情報
– 場所,組織名,数値などの情報
を今回の練習では扱う
10
タグの定義(7)
2. コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
テキスト構造に関する情報
–
–
–
–
–
–
文
<sent></sent>
段落
<para></para>
テキスト <text></text>
記事全体 <article></article>
見出し<title></title>
日付 <date></date>
11
タグの定義(8)
2. コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
単語の品詞情報(自立語だけ)
–
–
–
–
名詞
<noun></noun>
動詞
<verb></verb>
形容詞 <adj></adj>
副詞
<adv></adv>
12
タグの定義(9)
2. コンピュータでの処理をしやすくする+
言語研究での利用をしやすくするための情報
固有名などの情報(名詞の属性として)
名詞 <noun></noun>
–
–
–
–
–
–
場所 <noun ne=“loc”></noun>
組織名 <noun ne=“org”></noun>
数値 <noun ne=“num”></noun>
時間 <noun ne=“time”></noun>
人名 <noun ne=“person”></noun>
役職 <noun ne=“title”></noun>
13
タグ付け作業
• 開始
– enshu01.txt として保存
14
タグをxmlとして利用
• enshu01.txtに次の加工をしてxmlに
先頭に
<?xml version="1.0" encoding="ISO-2022-JP" ?>
を追加し,
<title>の前の<article>を
<pubdate>の前に移動する
名前を付けて保存で,
enshu01.xml という名前で保存
15
タグをxmlとして利用(2)
• インターネットエクスプローラで
enshu01.xml
を読み込む.
問題ないか,チェック!
16
タグをxmlとして利用(3)
• 更に,2行目に
<?xml:stylesheet type="text/xsl" href="article.xsl" ?>
を追加し,再度保存
• article.xsl
をWebページからダウンロード
17
タグをxmlとして利用(4)
• 再びインターネットエクスプローラで
enshu01.xml
を読み込む.
どのように見えるか,チェック!
18
まとめ
• タグの定義の実際
– どんなパターンがあるかはサンプルを見て検討
– 定義をしっかりしておくことでゆらぎを防ぐ
– それでも,言語的な問題で悩むことも多い
→少なくとも同一コーパス内では一貫性の保持が必要!
• タグをxmlとして利用
– xmlはいろんなことができる
– インターネットエクスプローラで表示もできる
19