Document

微小時間における日本語の変
化とその法則
荒牧英治 *
増川佐知子 **
東京大学 知の構造化センター
**科学技術振興機構 さきがけ
10/1/2015
Mar. 9, NLP2011
1
10/1/2015
Mar. 9, NLP2011
2
現代日本語で頻出する1000語のうち万葉
集において見られるものは326語 [宮島1967]
32.6%
使用頻度
時間
平安時代
10/1/2015
現代
現代+Δt
Mar. 9, NLP2011
3
常用語は固定化されほと
んど順位が変化しない
境界は
どこか?
非常用語ははげしく
順位が入れ替わる
10/1/2015
Mar. 9, NLP2011
4
• はじめに
• Q1 「語彙の頻度の変化速度は?」
• Q2 「高頻度語と低頻度語に境界はある
か?」
• まとめ
10/1/2015
Mar. 9, NLP2011
5
材料
• Twitterクロールデータ約30億tweet
• 全データを形態素解析器(juman)にて解析
• 1日毎に過去30日の語の使用頻度を集計した
– スライド単位=1日,ウィンドウ幅=30日
– 本稿では形態素を語とみなす
• 相対頻度(対象となる形態素頻度/すべての
形態素頻度)で正規化
– 日によってクロール稼働率が異なるため
10/1/2015
Mar. 9, NLP2011
6
2つの指標
• N位保存率
– ある時期でN位以内にいた語がΔt経過後にもN位
以内にとどまる割合
• 順位相関係数(スピアマン)
– 基準期間で上位N位以内の語の順位(の系列)
がΔ t時間経過後の順位とどれくらい類似してい
るか
10/1/2015
Mar. 9, NLP2011
7
N位保存率(Y軸)とΔt(8ヶ月)
論文図表
10/1/2015
Mar. 9, NLP2011
8
N位保存率(Y軸)とΔt (1.5年)
最新結果
10/1/2015
Mar. 9, NLP2011
9
順位相関係数とΔt
10/1/2015
Mar. 9, NLP2011
10
Δt経過後(Δt=180日)に
成長した語と衰退した語
フォロワー
つぶやいて
ツイッター
マイケル
民主党
ユニクロ
Android
プラス
Chrome
ヒートテック
牧場
10/1/2015
ラブ
9134位→ 1408位
7408位→ 1612位
4517位→ 1005位
ケフィア
衛星
麻生
7317位→ 2514位 デジタルネイティブ
8535位→ 3234位
5171位→ 1972位
塗装
ZERO
7501位→ 2880位 クロノトリガー
キラッ
7799位→ 3458位 やよい
8740位→ 3988位 インデックス
9509位→ 4429位 ワザップ
小室
Mar. 9, NLP2011
2793位→ 1420位
4740位→ 1888位
1959位→
2434位→
2490位→
3017位→
3391位→
3470位→
3878位→
3971位→
4043位→
4618位→
5080位→
5195位→
圏外
圏外
圏外
圏外
圏外
圏外
圏外
圏外
圏外
圏外
圏外
圏外
11
どのような頻度変化が起こっているのか?
ある時点で頻度Xだった後がΔt時間経過後に
頻度Yになっている頻度(Δt=30日)
時間T+Δtでの相対頻度
Δt経過後に頻度aとなった語が
もともと基準期間にどのような
頻度であったかの確率分布
基準期間で頻度aであった語が,
Δt経過後にどのような頻度に変
化しているかの確率分布
10/1/2015
Mar. 9, NLP2011
時間Tでの
相対頻度
12
詳細釣り合い(detailed balance)
• ある過程の起こる確率とその逆過程の起こる確
率が等しい状態
– 企業の成長や気体分子の運動などに見られる
• 言語の頻度変化で詳細釣り合いが成り立つ範
囲
– 相対頻度2.5e-5より大きい語(使用頻度上位4000語)
• 語の頻度分布の形は時間の経過とともに変化し
ない
– 現時点での言語がZipf則にしたがっているなら今後も
従い続ける
10/1/2015
Mar. 9, NLP2011
13
• はじめに
• Q1 「語彙の頻度の変化速度は?」
• Q2 「高頻度語と低頻度語に境界はある
か?」
• まとめ
10/1/2015
Mar. 9, NLP2011
14
具体的には
使用頻度
語彙が
安定している
領域
常用語
語彙が
不安定な領域
新語
死語
10/1/2015
Mar. 9, NLP2011
時間
15
語の成長率とその分布
• ある語がどれだけ使用頻度を増やしたか
語wの成長率 =
Δt経過後の語wの相対使用頻度
基準期間での語wの相対使用頻度
• 成長率分布 (例:使用頻度1位~10位まで)
頻度
10/1/2015
0.5 Mar.19, NLP2011 2 成長率
16
成長率の定義
使用頻度
語彙が
安定している
領域
成長率=1
成長率=2
語彙が
不安定な領域
成長率=0.5
10/1/2015
Mar. 9, NLP2011
時間
17
語の成長率の分布 (Δt=30日)
高頻度から1000位毎にプロット
10/1/2015
Mar. 9, NLP2011
18
成長率の分布が同じということは
使用頻度
語彙として安定する境
界というものはない
どんな頻度であっても
入れ替わりが起こりうる
高頻度ほど大きな頻度
変化を起こしやすい
10回→30回≒
10000回→30000回
10/1/2015
Mar. 9, NLP2011
時間
19
• はじめに
• Q1 「語彙の頻度の変化速度は?」
• Q2 「高頻度語と低頻度語に境界はある
か?」
• 関連研究
• まとめ
10/1/2015
Mar. 9, NLP2011
20
関連研究との差異
• 語全体の調査
– あらかじめ注目していた語について,その振る舞いを
調査[宮島1967,飛田1966]
– 本研究では,すべての語での調査を行うため,バイ
アスがかからず,全体的な挙動を知ることができる.
• 微小時間の調査
– いくつかの大規模調査(大西調査[5]や凸版調査[6]
など)では10年またはそれ以上の期間が対象
– 本研究は日単位という微小時間での使用頻度の連
続的変化を調査
10/1/2015
Mar. 9, NLP2011
21
• はじめに
• Q1 「語彙の頻度の変化速度は?」
• Q2 「高頻度語と低頻度語に境界はある
か?」
• 関連研究
• まとめ
10/1/2015
Mar. 9, NLP2011
22
現代日本語で頻出する1000語の1年後で
も同順位に入っているものは80%
32.6%
80%
使用頻度
時間
平安時代
10/1/2015
現代
現代+Δt
Mar. 9, NLP2011
23
まとめ
• 語の使用頻度は平衡状態を保ちながら言語
全体で変化している
– 詳細釣り合い状態(時間について対象な状態)
• 語の使用頻度の変化は順位に依存しない
– 高頻度語も低頻度語も次の瞬間には同様な変化
をしうる
10/1/2015
Mar. 9, NLP2011
24
本研究の限界
• 一般的な議論を行うためには,さらなる長期
観察が必要である
– 語が変化したのではなくユーザが変化した可能
性は?
• ツィッター上の発言(文書における話し言葉)
以外の伝達形式においても本研究での知見
が共通するかどうかは不明
10/1/2015
Mar. 9, NLP2011
25
謝辞
京都大学 遠藤智子氏
産業技術総合研究所 黒嶋智美氏
金沢学院大学 石川温先生
クックパッド 兼山元太氏
荒牧英治 [email protected]
10/1/2015
Mar. 9, NLP2011
26