数値マイニング

Qiwi: テキスト中の
数値表現マイニング
吉田 稔、 中川裕志
東京大学情報基盤センター
数値表現とは
• テキスト中に出てくる数字
– (例)「上昇中、15,000ftにて被雷した。」
– 「入場料:大人2000円、子供1000円」
– 「社長に就任。富山県出身、58歳」
• 陽に数値データベースとしては与えられてい
ないが、データベースとして使えるとうれしい
– 抽出トピックを限定しない情報抽出
動機1:数値的意味獲得
• 数値と言語の関係を捉えたい
– (例) 年齢と呼称
• 同じ人間でも、3歳→男児(女児)
45歳→中年男性
80歳→老人
20歳→若者
– (例) 位置とイベント
• 1,000ft→「離陸」 8,000ft→「落雷」
れ」 25,000ft→「巡航」
12,000ft→「揺
– (例) 典型的な値段
• 「コーヒー」→200円 「サラダ」→500円
→1000円 「ディナー」→3000円
「ランチ」
数値検索
• 「数値の範囲」を、単語のようにして扱える
– (例)「20~40歳」⇒「21歳」「25歳」…等をまとめた
表現
• 検索クエリとして使える
• 検索結果もまとめて表示される
応用検索
• Number-Kiwi
– 文字列を入れると、それに連接しやすい数値を
返す
– 数値を入れると、それに連接しやすい言葉を返す
• Number-Synonym
– 数値を入れると、それに類似した言葉を返す
検索例1:Num-Kiwi
• 文字列と、それに連接しやすい数値
検索例2: Num-Kiwi
• 数値と、それに連接しやすい言葉