コーパス言語学実践 2006年度2学期 第10回 本日の内容 • 品詞構成比率について • 語彙の計量的な分析 – 高頻度語と低頻度語 – 広範囲語 – 特徴語,無特徴語 • 語の出現の性質の応用 – 基本的な情報検索 2 品詞構成比率について • これまで計算してきた品詞構成比率 – 述べ語数での比率を見ると 名詞>動詞>副詞>形容詞>その他 4テキストとも同じ傾向 比率(名50,動30,副5-10,形3-8)も似ている – 異なり語数での比率を見ると 品詞順は同じ. だが4テキストで傾向は異なる 3 品詞構成比率について(2) • 異なりで見ると(つづき) – 我輩,銀鉄は名詞比率が上がる(我輩が高い) – 蜘蛛の糸,最後の一句は名詞比率が下がる など.述べ語数とはまた違う傾向がある 作家によって語彙が異なる+使う語彙の偏りがあ るのでは? と思えるデータ 4 品詞構成比率について(3) • 述べ語数で見ると(つづき) – 今回の4テキストは差があまりない – どれも小説というジャンルである もし異なるジャンルのテキストだったら,品詞構成 比率はどう出るだろうか? 例えば,若者のブログ系文章だったらどうか? 「ヤバ」「すご」「はや」「マジ」...名詞か形容詞↑ 文章中の異なり語数の割合は↓かも. 5 品詞構成比率について(4) • 残念ながら... – 品詞構成比率をジャンル別や同一ジャンルなど で,確かな傾向としてみていくにはデータ不足 – 今回のデータだけでは足りないのではっきりとは いえない(少数による偏りがあるかもしれない) – ただし,ありそうな傾向はいくつか見られた – 予想はつけられそう→量を増やして検証という流 れができる 6 語彙の計量的な分析 • わざわざ数をかぞえたのはなぜだったか? – 語は全て均等に出てくるわけでない • 出現に偏りがあるはず →高頻度語 とか 低頻度語という違いが見える – 高頻度語はどんな特徴で,低頻度語にはどんな 特徴,役割があるのか? 7 語彙の計量的な分析(2) • 高頻度語 – 1つのテキストに良く出てくる見出し語 • 低頻度語 – 1つのテキストにあまり出てこない見出し語 どっちが大事か? どっちが意味があるか? 8 語彙の計量的な分析(3) • 高頻度語 – 1つのテキストに良く出てくる見出し語 • 低頻度語 – 1つのテキストにあまり出てこない見出し語 どんな語があるのか 実際のデータを見てみることにする 議論しましょう 9 語彙の計量的な分析(4) • 高頻度語は... 具体的にはどんな語か? 4つの作品を並べてみると何が特徴が出てこない か? 10 語彙の計量的な分析(5) • 特徴語と無特徴語 – 特徴語: • あるテキストにとっては重要. • 他のテキストにとっては重要でない – 無特徴語(無性格語): • どのようなテキストでも良く使われている • 特徴のない語 11 語彙の計量的な分析(6) • 特徴語と無特徴語 – 特徴語: • あるテキストにとっては重要. • 他のテキストにとっては重要でない – 無特徴語(無性格語): • どのようなテキストでも良く使われている • 特徴のない語 あらためて,先ほどの語のリストを見るとど うか? 特徴語は? 無特徴語は? 12 高頻度語の分析 • 高頻度語 – 特徴語 → そのテキストの内容や特徴を示す • 文体論 – 無特徴語 →どのテキストでもよく利用される • 基本語彙 テキスト(言葉)は語の組み合わせで何かを伝えるた めに使われる →語の使い方に重要な意味がある 13 広範囲語は? • 広範囲語とは何か? – さまざまなテキストに広く出現する(利用される) 語のことをいう – 1つのテキスト中での出現頻度が高頻度か,低 頻度かは別問題 – 多くのテキストで広く使われるという意味で, • あまり特徴を持たないと考えられる • 無特徴語でもある 14 語彙の計量的な分析(7) • 頻度と範囲のマトリックス – 高頻度語で低範囲語 – 高頻度語で広範囲語 – 低頻度語で低範囲語 – 低頻度語で広範囲語 それぞれどんな意味があるのだろうか? 15 語彙の計量的な分析(8) • 頻度と範囲のマトリックス – 高頻度語で低範囲語 • 特定のテキストにしか出てこない • 1つのテキストにはたくさん出てくる →そのテキストの特徴をよく表した語である! – 高頻度語で広範囲語 • 多くのテキストに広くでてくる • 1つのテキストにもたくさん出てくる →そのテキストの特徴をほとんど表さない語である! 16 語彙の計量的な分析(9) • 頻度と範囲のマトリックス – 低頻度語で低範囲語 • 特定のテキストにしか出てこない • 1つのテキストに少ししか出てこない →かなり特殊な語かもしれない.意味があるかは不明. – 低頻度語で広範囲語 • 多くのテキストに広く出てくる • 1つのテキストに少ししか出てこない →量は少ないが広く出てくるので,何かの役割がある? 17 語の出現の性質の応用 • 基本的な情報検索 – 考え方の基本に語の出現の性質がある • 情報検索って何? keywordを入力→関連のあるテキストを検索 (本当は)検索者の検索要求(query)をシステムに 伝える(=これがkeywordのことが多い) システムが要求にあうテキストを探そうとがんばる (=キーワードに合致するテキスト探す) 18 基本的な情報検索 検索意図 検索質問 query 検索要求 照合 文書群 (database) 該当文書 19 基本的な情報検索(2) 検索意図 検索質問 query 検索要求 キーワードの場合が多い 照合 文書群 (database) キーワードの内容に 該当文書 良く合うものを探す キーワードの内容に良く 合う内容を持った文書群 20 基本的な情報検索(3) →「キーワードの内容に良く合うもの」って何? – 語の出現の傾向という観点で考えてみると • テキストのこと(内容)をよく表すものって何? – 語のはず.しかも,テキスト内で高頻度の語 • 高頻度ならいいのか? – 広範囲語は,あまり強くそのテキストの特徴に なっていない 21 基本的な情報検索(4) • 1つのテキストの特徴をよく表す語は – 高頻度語であり,広範囲語でない語と考えられる • テキスト内の各語について – それぞれの語がどのくらいよく特徴を示すかをそ の語の出現の仕方を手がかりに点数付け – term frequency (TF) そのテキストでの頻度 – document frequency (DF) 出現範囲の広さ という2つの計量的な値を語の点数付けに利用 22 基本的な情報検索(5) 1. テキストを収集 2. テキストを形態素解析(単語を認定) 3. 不要語(無特徴語)を除去 – stopword (the,a,is,of,...) – 助詞,助動詞などの機能語 4. 残った語を索引語とする 23 基本的な情報検索(6) 4. 索引語 つづき 最も単純な場合 文書1 文書2 文書3 文書4 文書5 索引語A 索引語B 索引語C 索引語D ○ × × ○ × ○ ○ × ○ × ○ ○ × × × ○ ○ ○ ○ × 24 基本的な情報検索(7) 4. 索引語 つづき 出現数(tf) tf 文書1 文書2 文書3 文書4 文書5 索引語1 索引語2 索引語3 索引語4 索引語5 索引語6 索引語7 1 0 3 6 4 0 3 0 3 2 6 1 5 0 5 3 0 8 4 0 2 2 2 4 7 0 3 0 3 0 0 5 0 2 0 25 基本的な情報検索(8) 4. 索引語 つづき 出現文書数(df) tf 文書1 文書2 文書3 文書4 文書5 df 索引語1 索引語2 索引語3 索引語4 索引語5 索引語6 索引語7 1 0 3 6 4 0 3 0 3 2 6 1 5 0 5 3 0 8 4 0 2 2 2 4 7 0 3 0 3 0 0 5 0 2 0 4 3 3 5 3 3 2 26 基本的な情報検索(9) (log N/df) +1 4. 索引語 つづき tf 文書1 文書2 文書3 文書4 文書5 df 索引語1 索引語2 索引語3 索引語4 索引語5 索引語6 索引語7 1 0 3 6 4 0 3 0 3 2 6 1 5 0 5 3 0 8 4 0 2 2 2 4 7 0 3 0 3 0 0 5 0 2 0 4 3 3 5 3 3 2 1.22 1.51 1.51 1.00 1.51 1.51 1.92 27 基本的な情報検索(10) tf ×(log N/df) +1 4. 索引語 つづき tf.idf 文書1 文書2 文書3 文書4 文書5 索引語1 索引語2 索引語3 索引語4 索引語5 索引語6 索引語7 1.22 0 4.53 6.00 6.04 0 5.76 0 4.53 3.02 6.00 1.51 7.55 0 6.10 4.53 0 8.00 6.04 0 3.84 2.44 3.02 6.04 7.00 0 4.53 0 3.66 0 0 5.00 0 3.02 0 28 基本的な情報検索(11) tf ×(log N/df) +1 4. 索引語 つづき tf.idf 文書1 文書2 文書3 文書4 文書5 0 3.84 0 0 あるテキストで 6.10 2.44 3.66 索引語1 1.22 0 ある索引語(単語)が たくさん出現し, 0 4.53 4.53 3.02 0 索引語2 しかも,その索引語は 4.53 3.02 0 6.04 0 索引語3 あまり多くのテキストに出現しない 6.00 6.00 8.00 7.00 5.00 索引語4 のなら,その索引語は 6.04 1.51 6.04 0 0 索引語5 そのテキストを良く特徴付けている語 0 7.55 0 4.53 3.02 索引語6 であると考える 索引語7 5.76 29 基本的な情報検索(12) 文書1 文書2 文書3 文書4 文書5 1.22 0 6.10 2.44 3.66 索引語1 5.入力 0 4.53 4.53 3.02 0 索引語2 keywordを 4.53 3.02 0 6.04 0 索引語3 使って, 6.00 6.00 8.00 7.00 5.00 索引語4 索引語と 6.04 1.51 6.04 0 0 索引語5 0 7.55 0 4.53 3.02 索引語6 照合する 5.76 0 3.84 0 0 索引語7 6. 各文書の一致度を値から計算して,大きい順に提示 例:keywordが索引語1なら 文書3,5,4,1の順 30 基本的な情報検索(13) • 上手な検索の仕方 – 自分が欲しい情報を表す特別な語を考える – 1語では苦しいので複数の語で表す (and検索,絞込み) – 検索結果が少なかったら,表現を変えてみる (or検索,拡張) こういう方法が成り立つ根拠は,語の偏りがテキスト の特徴,情報の特徴を表すから 複数の語が同時に出てくる割合は単数よりかなり減 るから. 同じ内容でもいろいろな言葉で表せるから. 31
© Copyright 2024 ExpyDoc