コーパス言語学実践

コーパス言語学実践
2006年度2学期
第10回
本日の内容
• 品詞構成比率について
• 語彙の計量的な分析
– 高頻度語と低頻度語
– 広範囲語
– 特徴語，無特徴語
• 語の出現の性質の応用
– 基本的な情報検索
2
品詞構成比率について
• これまで計算してきた品詞構成比率
– 述べ語数での比率を見ると
名詞＞動詞＞副詞＞形容詞＞その他
4テキストとも同じ傾向
比率（名50,動30，副5-10，形3-8）も似ている
– 異なり語数での比率を見ると
品詞順は同じ．
だが4テキストで傾向は異なる
3
品詞構成比率について（2）
• 異なりで見ると（つづき）
– 我輩，銀鉄は名詞比率が上がる（我輩が高い）
– 蜘蛛の糸，最後の一句は名詞比率が下がる
など．述べ語数とはまた違う傾向がある
作家によって語彙が異なる＋使う語彙の偏りがあ
るのでは？と思えるデータ
4
品詞構成比率について（3）
• 述べ語数で見ると（つづき）
– 今回の4テキストは差があまりない
– どれも小説というジャンルである
もし異なるジャンルのテキストだったら，品詞構成
比率はどう出るだろうか？
例えば，若者のブログ系文章だったらどうか？
「ヤバ」「すご」「はや」「マジ」．．．名詞か形容詞↑
文章中の異なり語数の割合は↓かも．
5
品詞構成比率について（4）
• 残念ながら．．．
– 品詞構成比率をジャンル別や同一ジャンルなど
で，確かな傾向としてみていくにはデータ不足
– 今回のデータだけでは足りないのではっきりとは
いえない（少数による偏りがあるかもしれない）
– ただし，ありそうな傾向はいくつか見られた
– 予想はつけられそう→量を増やして検証という流
れができる
6
語彙の計量的な分析
• わざわざ数をかぞえたのはなぜだったか？
– 語は全て均等に出てくるわけでない
• 出現に偏りがあるはず
→高頻度語とか低頻度語という違いが見える
– 高頻度語はどんな特徴で，低頻度語にはどんな
特徴，役割があるのか？
7
語彙の計量的な分析（2）
• 高頻度語
– 1つのテキストに良く出てくる見出し語
• 低頻度語
– 1つのテキストにあまり出てこない見出し語
どっちが大事か？どっちが意味があるか？
8
語彙の計量的な分析（3）
• 高頻度語
– 1つのテキストに良く出てくる見出し語
• 低頻度語
– 1つのテキストにあまり出てこない見出し語
どんな語があるのか
実際のデータを見てみることにする
議論しましょう
9
語彙の計量的な分析（4）
• 高頻度語は．．．
具体的にはどんな語か？
４つの作品を並べてみると何が特徴が出てこない
か？
10
語彙の計量的な分析（5）
• 特徴語と無特徴語
– 特徴語：
• あるテキストにとっては重要．
• 他のテキストにとっては重要でない
– 無特徴語（無性格語）：
• どのようなテキストでも良く使われている
• 特徴のない語
11
語彙の計量的な分析（6）
• 特徴語と無特徴語
– 特徴語：
• あるテキストにとっては重要．
• 他のテキストにとっては重要でない
– 無特徴語（無性格語）：
• どのようなテキストでも良く使われている
• 特徴のない語
あらためて，先ほどの語のリストを見るとど
うか？特徴語は？無特徴語は？
12
高頻度語の分析
• 高頻度語
– 特徴語 → そのテキストの内容や特徴を示す
• 文体論
– 無特徴語 →どのテキストでもよく利用される
• 基本語彙
テキスト（言葉）は語の組み合わせで何かを伝えるた
めに使われる
→語の使い方に重要な意味がある
13
広範囲語は？
• 広範囲語とは何か？
– さまざまなテキストに広く出現する（利用される）
語のことをいう
– １つのテキスト中での出現頻度が高頻度か，低
頻度かは別問題
– 多くのテキストで広く使われるという意味で，
• あまり特徴を持たないと考えられる
• 無特徴語でもある
14
語彙の計量的な分析（7）
• 頻度と範囲のマトリックス
– 高頻度語で低範囲語
– 高頻度語で広範囲語
– 低頻度語で低範囲語
– 低頻度語で広範囲語
それぞれどんな意味があるのだろうか？
15
語彙の計量的な分析（8）
• 頻度と範囲のマトリックス
– 高頻度語で低範囲語
• 特定のテキストにしか出てこない
• 1つのテキストにはたくさん出てくる
→そのテキストの特徴をよく表した語である！
– 高頻度語で広範囲語
• 多くのテキストに広くでてくる
• 1つのテキストにもたくさん出てくる
→そのテキストの特徴をほとんど表さない語である！
16
語彙の計量的な分析（9）
• 頻度と範囲のマトリックス
– 低頻度語で低範囲語
• 特定のテキストにしか出てこない
• 1つのテキストに少ししか出てこない
→かなり特殊な語かもしれない．意味があるかは不明．
– 低頻度語で広範囲語
• 多くのテキストに広く出てくる
• 1つのテキストに少ししか出てこない
→量は少ないが広く出てくるので，何かの役割がある？
17
語の出現の性質の応用
• 基本的な情報検索
– 考え方の基本に語の出現の性質がある
• 情報検索って何？
keywordを入力→関連のあるテキストを検索
（本当は）検索者の検索要求（query）をシステムに
伝える（＝これがkeywordのことが多い）
システムが要求にあうテキストを探そうとがんばる
（＝キーワードに合致するテキスト探す）
18
基本的な情報検索
検索意図
検索質問 query
検索要求
照合
文書群
（database)
該当文書
19
基本的な情報検索（2）
検索意図
検索質問 query
検索要求
キーワードの場合が多い
照合
文書群
（database)
キーワードの内容に
該当文書
良く合うものを探す
キーワードの内容に良く
合う内容を持った文書群
20
基本的な情報検索（3）
→「キーワードの内容に良く合うもの」って何？
– 語の出現の傾向という観点で考えてみると
• テキストのこと（内容）をよく表すものって何？
– 語のはず．しかも，テキスト内で高頻度の語
• 高頻度ならいいのか？
– 広範囲語は，あまり強くそのテキストの特徴に
なっていない
21
基本的な情報検索（4）
• 1つのテキストの特徴をよく表す語は
– 高頻度語であり，広範囲語でない語と考えられる
• テキスト内の各語について
– それぞれの語がどのくらいよく特徴を示すかをそ
の語の出現の仕方を手がかりに点数付け
– term frequency (TF) そのテキストでの頻度
– document frequency (DF) 出現範囲の広さ
という2つの計量的な値を語の点数付けに利用
22
基本的な情報検索（5）
1. テキストを収集
2. テキストを形態素解析（単語を認定）
3. 不要語（無特徴語）を除去
– stopword (the,a,is,of,...)
– 助詞,助動詞などの機能語
4. 残った語を索引語とする
23
基本的な情報検索（6）
4. 索引語つづき最も単純な場合
文書１文書２文書３文書４文書５
索引語Ａ
索引語Ｂ
索引語Ｃ
索引語Ｄ
○
×
×
○
×
○
○
×
○
×
○
○
×
×
×
○
○
○
○
×
24
基本的な情報検索（7）
4. 索引語つづき出現数（ｔｆ）
ｔｆ
文書１文書２文書３文書４文書５
索引語1
索引語2
索引語3
索引語4
索引語5
索引語6
索引語7
1
0
3
6
4
0
3
0
3
2
6
1
5
0
5
3
0
8
4
0
2
2
2
4
7
0
3
0
3
0
0
5
0
2
0
25
基本的な情報検索（8）
4. 索引語つづき出現文書数（df）
ｔｆ
文書１
文書２
文書３
文書４
文書５
df
索引語1
索引語2
索引語3
索引語4
索引語5
索引語6
索引語7
1
0
3
6
4
0
3
0
3
2
6
1
5
0
5
3
0
8
4
0
2
2
2
4
7
0
3
0
3
0
0
5
0
2
0
4
3
3
5
3
3
2
26
基本的な情報検索（9）
(log N/df) +1
4. 索引語つづき
ｔｆ
文書１
文書２
文書３
文書４
文書５
df
索引語1
索引語2
索引語3
索引語4
索引語5
索引語6
索引語7
1
0
3
6
4
0
3
0
3
2
6
1
5
0
5
3
0
8
4
0
2
2
2
4
7
0
3
0
3
0
0
5
0
2
0
4
3
3
5
3
3
2
1.22
1.51
1.51
1.00
1.51
1.51
1.92 27
基本的な情報検索（10）
tf ×(log N/df) +1
4. 索引語つづき
ｔｆ.idf
文書１
文書２
文書３
文書４
文書５
索引語1
索引語2
索引語3
索引語4
索引語5
索引語6
索引語7
1.22
0
4.53
6.00
6.04
0
5.76
0
4.53
3.02
6.00
1.51
7.55
0
6.10
4.53
0
8.00
6.04
0
3.84
2.44
3.02
6.04
7.00
0
4.53
0
3.66
0
0
5.00
0
3.02
0
28
基本的な情報検索（11）
tf ×(log N/df) +1
4. 索引語つづき
ｔｆ.idf
文書１
文書２
文書３
文書４
文書５
0
3.84
0
0
あるテキストで
6.10 2.44 3.66
索引語1 1.22 0
ある索引語（単語）がたくさん出現し，
0
4.53 4.53 3.02 0
索引語2
しかも，その索引語は
4.53 3.02 0
6.04 0
索引語3
あまり多くのテキストに出現しない
6.00 6.00 8.00 7.00 5.00
索引語4
のなら，その索引語は
6.04 1.51 6.04 0
0
索引語5
そのテキストを良く特徴付けている語
0
7.55 0
4.53 3.02
索引語6
であると考える
索引語7 5.76
29
基本的な情報検索（12）
文書１
文書２
文書３
文書４
文書５
1.22
0
6.10
2.44
3.66
索引語1
5．入力
0
4.53
4.53
3.02
0
索引語2
keywordを
4.53
3.02
0
6.04
0
索引語3
使って，
6.00
6.00
8.00
7.00
5.00
索引語4
索引語と
6.04
1.51
6.04
0
0
索引語5
0
7.55
0
4.53
3.02
索引語6
照合する
5.76
0
3.84
0
0
索引語7
6．
各文書の一致度を値から計算して，大きい順に提示
例：keywordが索引語1なら文書3，5，4，1の順
30
基本的な情報検索（13）
• 上手な検索の仕方
– 自分が欲しい情報を表す特別な語を考える
– 1語では苦しいので複数の語で表す（and検索，絞込み）
– 検索結果が少なかったら，表現を変えてみる
（or検索，拡張）
こういう方法が成り立つ根拠は，語の偏りがテキスト
の特徴，情報の特徴を表すから
複数の語が同時に出てくる割合は単数よりかなり減
るから．
同じ内容でもいろいろな言葉で表せるから．
31

Download Report