コーパス言語学実践

コーパス言語学実践
2006年度2学期
第10回
本日の内容
• 品詞構成比率について
• 語彙の計量的な分析
– 高頻度語と低頻度語
– 広範囲語
– 特徴語,無特徴語
• 語の出現の性質の応用
– 基本的な情報検索
2
品詞構成比率について
• これまで計算してきた品詞構成比率
– 述べ語数での比率を見ると
名詞>動詞>副詞>形容詞>その他
4テキストとも同じ傾向
比率(名50,動30,副5-10,形3-8)も似ている
– 異なり語数での比率を見ると
品詞順は同じ.
だが4テキストで傾向は異なる
3
品詞構成比率について(2)
• 異なりで見ると(つづき)
– 我輩,銀鉄は名詞比率が上がる(我輩が高い)
– 蜘蛛の糸,最後の一句は名詞比率が下がる
など.述べ語数とはまた違う傾向がある
作家によって語彙が異なる+使う語彙の偏りがあ
るのでは? と思えるデータ
4
品詞構成比率について(3)
• 述べ語数で見ると(つづき)
– 今回の4テキストは差があまりない
– どれも小説というジャンルである
もし異なるジャンルのテキストだったら,品詞構成
比率はどう出るだろうか?
例えば,若者のブログ系文章だったらどうか?
「ヤバ」「すご」「はや」「マジ」...名詞か形容詞↑
文章中の異なり語数の割合は↓かも.
5
品詞構成比率について(4)
• 残念ながら...
– 品詞構成比率をジャンル別や同一ジャンルなど
で,確かな傾向としてみていくにはデータ不足
– 今回のデータだけでは足りないのではっきりとは
いえない(少数による偏りがあるかもしれない)
– ただし,ありそうな傾向はいくつか見られた
– 予想はつけられそう→量を増やして検証という流
れができる
6
語彙の計量的な分析
• わざわざ数をかぞえたのはなぜだったか?
– 語は全て均等に出てくるわけでない
• 出現に偏りがあるはず
→高頻度語 とか 低頻度語という違いが見える
– 高頻度語はどんな特徴で,低頻度語にはどんな
特徴,役割があるのか?
7
語彙の計量的な分析(2)
• 高頻度語
– 1つのテキストに良く出てくる見出し語
• 低頻度語
– 1つのテキストにあまり出てこない見出し語
どっちが大事か? どっちが意味があるか?
8
語彙の計量的な分析(3)
• 高頻度語
– 1つのテキストに良く出てくる見出し語
• 低頻度語
– 1つのテキストにあまり出てこない見出し語
どんな語があるのか
実際のデータを見てみることにする
議論しましょう
9
語彙の計量的な分析(4)
• 高頻度語は...
具体的にはどんな語か?
4つの作品を並べてみると何が特徴が出てこない
か?
10
語彙の計量的な分析(5)
• 特徴語と無特徴語
– 特徴語:
• あるテキストにとっては重要.
• 他のテキストにとっては重要でない
– 無特徴語(無性格語):
• どのようなテキストでも良く使われている
• 特徴のない語
11
語彙の計量的な分析(6)
• 特徴語と無特徴語
– 特徴語:
• あるテキストにとっては重要.
• 他のテキストにとっては重要でない
– 無特徴語(無性格語):
• どのようなテキストでも良く使われている
• 特徴のない語
あらためて,先ほどの語のリストを見るとど
うか? 特徴語は? 無特徴語は?
12
高頻度語の分析
• 高頻度語
– 特徴語 → そのテキストの内容や特徴を示す
• 文体論
– 無特徴語 →どのテキストでもよく利用される
• 基本語彙
テキスト(言葉)は語の組み合わせで何かを伝えるた
めに使われる
→語の使い方に重要な意味がある
13
広範囲語は?
• 広範囲語とは何か?
– さまざまなテキストに広く出現する(利用される)
語のことをいう
– 1つのテキスト中での出現頻度が高頻度か,低
頻度かは別問題
– 多くのテキストで広く使われるという意味で,
• あまり特徴を持たないと考えられる
• 無特徴語でもある
14
語彙の計量的な分析(7)
• 頻度と範囲のマトリックス
– 高頻度語で低範囲語
– 高頻度語で広範囲語
– 低頻度語で低範囲語
– 低頻度語で広範囲語
それぞれどんな意味があるのだろうか?
15
語彙の計量的な分析(8)
• 頻度と範囲のマトリックス
– 高頻度語で低範囲語
• 特定のテキストにしか出てこない
• 1つのテキストにはたくさん出てくる
→そのテキストの特徴をよく表した語である!
– 高頻度語で広範囲語
• 多くのテキストに広くでてくる
• 1つのテキストにもたくさん出てくる
→そのテキストの特徴をほとんど表さない語である!
16
語彙の計量的な分析(9)
• 頻度と範囲のマトリックス
– 低頻度語で低範囲語
• 特定のテキストにしか出てこない
• 1つのテキストに少ししか出てこない
→かなり特殊な語かもしれない.意味があるかは不明.
– 低頻度語で広範囲語
• 多くのテキストに広く出てくる
• 1つのテキストに少ししか出てこない
→量は少ないが広く出てくるので,何かの役割がある?
17
語の出現の性質の応用
• 基本的な情報検索
– 考え方の基本に語の出現の性質がある
• 情報検索って何?
keywordを入力→関連のあるテキストを検索
(本当は)検索者の検索要求(query)をシステムに
伝える(=これがkeywordのことが多い)
システムが要求にあうテキストを探そうとがんばる
(=キーワードに合致するテキスト探す)
18
基本的な情報検索
検索意図
検索質問 query
検索要求
照合
文書群
(database)
該当文書
19
基本的な情報検索(2)
検索意図
検索質問 query
検索要求
キーワードの場合が多い
照合
文書群
(database)
キーワードの内容に
該当文書
良く合うものを探す
キーワードの内容に良く
合う内容を持った文書群
20
基本的な情報検索(3)
→「キーワードの内容に良く合うもの」って何?
– 語の出現の傾向という観点で考えてみると
• テキストのこと(内容)をよく表すものって何?
– 語のはず.しかも,テキスト内で高頻度の語
• 高頻度ならいいのか?
– 広範囲語は,あまり強くそのテキストの特徴に
なっていない
21
基本的な情報検索(4)
• 1つのテキストの特徴をよく表す語は
– 高頻度語であり,広範囲語でない語と考えられる
• テキスト内の各語について
– それぞれの語がどのくらいよく特徴を示すかをそ
の語の出現の仕方を手がかりに点数付け
– term frequency (TF) そのテキストでの頻度
– document frequency (DF) 出現範囲の広さ
という2つの計量的な値を語の点数付けに利用
22
基本的な情報検索(5)
1. テキストを収集
2. テキストを形態素解析(単語を認定)
3. 不要語(無特徴語)を除去
– stopword (the,a,is,of,...)
– 助詞,助動詞などの機能語
4. 残った語を索引語とする
23
基本的な情報検索(6)
4. 索引語 つづき 最も単純な場合
文書1 文書2 文書3 文書4 文書5
索引語A
索引語B
索引語C
索引語D
○
×
×
○
×
○
○
×
○
×
○
○
×
×
×
○
○
○
○
×
24
基本的な情報検索(7)
4. 索引語 つづき 出現数(tf)
tf
文書1 文書2 文書3 文書4 文書5
索引語1
索引語2
索引語3
索引語4
索引語5
索引語6
索引語7
1
0
3
6
4
0
3
0
3
2
6
1
5
0
5
3
0
8
4
0
2
2
2
4
7
0
3
0
3
0
0
5
0
2
0
25
基本的な情報検索(8)
4. 索引語 つづき 出現文書数(df)
tf
文書1
文書2
文書3
文書4
文書5
df
索引語1
索引語2
索引語3
索引語4
索引語5
索引語6
索引語7
1
0
3
6
4
0
3
0
3
2
6
1
5
0
5
3
0
8
4
0
2
2
2
4
7
0
3
0
3
0
0
5
0
2
0
4
3
3
5
3
3
2
26
基本的な情報検索(9)
(log N/df) +1
4. 索引語 つづき
tf
文書1
文書2
文書3
文書4
文書5
df
索引語1
索引語2
索引語3
索引語4
索引語5
索引語6
索引語7
1
0
3
6
4
0
3
0
3
2
6
1
5
0
5
3
0
8
4
0
2
2
2
4
7
0
3
0
3
0
0
5
0
2
0
4
3
3
5
3
3
2
1.22
1.51
1.51
1.00
1.51
1.51
1.92 27
基本的な情報検索(10)
tf ×(log N/df) +1
4. 索引語 つづき
tf.idf
文書1
文書2
文書3
文書4
文書5
索引語1
索引語2
索引語3
索引語4
索引語5
索引語6
索引語7
1.22
0
4.53
6.00
6.04
0
5.76
0
4.53
3.02
6.00
1.51
7.55
0
6.10
4.53
0
8.00
6.04
0
3.84
2.44
3.02
6.04
7.00
0
4.53
0
3.66
0
0
5.00
0
3.02
0
28
基本的な情報検索(11)
tf ×(log N/df) +1
4. 索引語 つづき
tf.idf
文書1
文書2
文書3
文書4
文書5
0
3.84
0
0
あるテキストで
6.10 2.44 3.66
索引語1 1.22 0
ある索引語(単語)が たくさん出現し,
0
4.53 4.53 3.02 0
索引語2
しかも,その索引語は
4.53 3.02 0
6.04 0
索引語3
あまり多くのテキストに出現しない
6.00 6.00 8.00 7.00 5.00
索引語4
のなら,その索引語は
6.04 1.51 6.04 0
0
索引語5
そのテキストを良く特徴付けている語
0
7.55 0
4.53 3.02
索引語6
であると考える
索引語7 5.76
29
基本的な情報検索(12)
文書1
文書2
文書3
文書4
文書5
1.22
0
6.10
2.44
3.66
索引語1
5.入力
0
4.53
4.53
3.02
0
索引語2
keywordを
4.53
3.02
0
6.04
0
索引語3
使って,
6.00
6.00
8.00
7.00
5.00
索引語4
索引語と
6.04
1.51
6.04
0
0
索引語5
0
7.55
0
4.53
3.02
索引語6
照合する
5.76
0
3.84
0
0
索引語7
6.
各文書の一致度を値から計算して,大きい順に提示
例:keywordが索引語1なら 文書3,5,4,1の順
30
基本的な情報検索(13)
• 上手な検索の仕方
– 自分が欲しい情報を表す特別な語を考える
– 1語では苦しいので複数の語で表す (and検索,絞込み)
– 検索結果が少なかったら,表現を変えてみる
(or検索,拡張)
こういう方法が成り立つ根拠は,語の偏りがテキスト
の特徴,情報の特徴を表すから
複数の語が同時に出てくる割合は単数よりかなり減
るから.
同じ内容でもいろいろな言葉で表せるから.
31