文脈にもとづく未知語の抽出

大規模時系列ウェブコーパスを用いた
新造語の盛衰のダイナミズムの分析
鍜治伸裕1
宇野良子2
東京大学 生産技術研究所1
東京大学大学院 総合文化研究科2
ちょっと大きな狙い
データ
ベース
言語
処理
言語
学
新しい言語学?
大規模時系列コーパスを活用した言語学
とそれを支援する自然言語処理技術
新造語の通時的な用例
気になってググって
みると
2005
2006
お父さんをファブる
から服全部脱いで
2007
2008
大規模時系列ウェブコーパス
(10年100億ページ)
用例の検索
言語学者
研究課題
• 言語処理
– 辞書未登録語(⊇新造語)を解析するためのモデル
• 言語学
– 通時的な言葉の変化の理論化,および実データにもとづ
く理論検証
• (データベース)
– クローラの設計,および大規模データの管理
新しい知見
(a)分類
ウェブコーパスの
利用によって
外来語由来、漢語由来、
オノマトペ由来、固有名由来
(a) 新たなカテゴリーを指摘
(b)特徴
(b) 検証・時間変化に関わる
特徴の指摘
Tsujimura & Davis (2008)
音韻・形態的
五段活用
二モーラ以上
アクセント(*)
*
…(C)V(C)V-C]|
/r/
語用論的
playfulness, ノリ [米川、2002]
(c)新造語動詞はconstruction
(意味と形の特殊な結びつき、Goldberg
[1995])
(c) 形と意味の特殊な結び
つきの出現を分析
事例研究:
「ファブる」における構文交替の出現
布団、部
屋、カーテ
ン、人‥
「ファブる」と「ファブリーズする」
の相関
2006年データ
を
に
ファブリーズを
する
1
41
全184例
ファブリーズす
る
27
93
全2246例中
1000例
ファブる
53
36
全1459例中
1000例
ファブリーズをかける対象がとる格の変化
新造語の通時的な用例
気になってググって
みると
2005
2006
お父さんをファブる
から服全部脱いで
2007
用例の検索
2008
大規模時系列ウェブコーパス
(10年100億ページ)
言語学者
辞書未登録語(⊇新造語)の頑健な解析の実現
大規模時系列コーパスを活用した言語学の実践
品詞に特徴的な文字列
動詞「ググる」
左側文脈
語幹
右側文脈
というキーワードで
ググ
ったところ,妙に沢山
あ,なんかわざわざ
ググ
らせてしまったみたいで
No.6848をそのまま
ググ
ってもヒントは手に入る
入門的なサイトを
ググ
ってみました
名詞「ブログ」
左側文脈
語幹
右側文脈
すでにこの
ブログ
に何回か登場している
「楽天広場」内の
ブログ
のみの絞り込み検索と
一週間書いてなかった
ブログ
ですが,こんなに書かなか
と思ったら映画の
ブログ
を書いているところが
前後5文字のベクトル表現
(実際には正規化している)
左側文脈
の た この…
(ブログ) → ( 3, 1,
1, …

右側文脈
の を のみ…
1, 1,
1, … )
問題:単語と句の区別が困難
左側文脈
語幹
右側文脈
すでにこの
ブログ検索
を何回か利用している
ヤフーの
ブログ検索
のみの結果と
使ったことがなかった
ブログ検索
ですが,こんなに
この会社の
ブログ検索
を使っているのですが
他には「この国」「社会と文化」「横に長(い)」などが問題に
句の内部構造をモデル化することによって解決を図る
単語モデル
既知語から推定した
文脈ベクトルの平均
語幹の文脈ベクトル
 (ググる)

動詞
p1(ググる,動詞)  p1(ググる|動詞)  e

T
(文脈をvMF分布でモデル化)
句モデル
1/2
p2(ブログ-検索,名詞-名詞)  p1(ブログ|名詞)p1(検索|名詞)
単語モデルの幾何平均(3単語以上の場合も同様)
対数尤度比によるランキング
品詞は不明なのでmaxをとる.
句モデル(分母)の場合は単語境界も不明
maxt p1 ( w, t )
ある文字列 w の単語らしさ  log
max p2 ( w1 , w2, t1 , t2 )
句モデルの尤度が高いと
全体のスコアが低くなる
品詞の推定
文字列 w に以下を満たす品詞
t
を与える
p1 ( w, t )
log
 tT  ( w)  tmax  ( w)  
p1 ( w, tmax )
ただし t max  arg max p ( w, t )
t
尤度比の計算
maxt p1 (w, t )
log
max p2 (w1 , w2, t1 , t2 )
n


T
ti  ( wi ) 



   maxt tT  ( w)  max i 1


n




文字列 w を単語と考えたときのコサイン
句と考えたときの構成要素のコサインの平均
獲得例
名詞
筐体
サ変名詞
結線
動詞(ラ行)
齧る
形容詞
喧しい
形容動詞
大仰だ
弓兵
竹林
魔獣
恫喝
誤爆
剪定
手折る
触わる
強請る
汗臭い
毛深い
嘘臭い
穏かだ
怠惰だ
無様だ
夏服
錠前
肉球
聴牌
伸張
縫合
端折る
痒がる
)やる*
長細い
深ーい
赤黒い
健気だ
愚鈍だ
著明だ
畳表
食玩
幻獣
折伏
爆走
抜歯
も廻る*
昂ぶる
雪降る*
足細い*
濃ゆい
長ーい
精妙だ
凡庸だ
根暗だ
Juman辞書に登録されていないスコア上位の語