微小時間における日本語の変 化とその法則 荒牧英治 * 増川佐知子 ** 東京大学 知の構造化センター **科学技術振興機構 さきがけ 10/1/2015 Mar. 9, NLP2011 1 10/1/2015 Mar. 9, NLP2011 2 現代日本語で頻出する1000語のうち万葉 集において見られるものは326語 [宮島1967] 32.6% 使用頻度 時間 平安時代 10/1/2015 現代 現代+Δt Mar. 9, NLP2011 3 常用語は固定化されほと んど順位が変化しない 境界は どこか? 非常用語ははげしく 順位が入れ替わる 10/1/2015 Mar. 9, NLP2011 4 • はじめに • Q1 「語彙の頻度の変化速度は?」 • Q2 「高頻度語と低頻度語に境界はある か?」 • まとめ 10/1/2015 Mar. 9, NLP2011 5 材料 • Twitterクロールデータ約30億tweet • 全データを形態素解析器(juman)にて解析 • 1日毎に過去30日の語の使用頻度を集計した – スライド単位=1日,ウィンドウ幅=30日 – 本稿では形態素を語とみなす • 相対頻度(対象となる形態素頻度/すべての 形態素頻度)で正規化 – 日によってクロール稼働率が異なるため 10/1/2015 Mar. 9, NLP2011 6 2つの指標 • N位保存率 – ある時期でN位以内にいた語がΔt経過後にもN位 以内にとどまる割合 • 順位相関係数(スピアマン) – 基準期間で上位N位以内の語の順位(の系列) がΔ t時間経過後の順位とどれくらい類似してい るか 10/1/2015 Mar. 9, NLP2011 7 N位保存率(Y軸)とΔt(8ヶ月) 論文図表 10/1/2015 Mar. 9, NLP2011 8 N位保存率(Y軸)とΔt (1.5年) 最新結果 10/1/2015 Mar. 9, NLP2011 9 順位相関係数とΔt 10/1/2015 Mar. 9, NLP2011 10 Δt経過後(Δt=180日)に 成長した語と衰退した語 フォロワー つぶやいて ツイッター マイケル 民主党 ユニクロ Android プラス Chrome ヒートテック 牧場 10/1/2015 ラブ 9134位→ 1408位 7408位→ 1612位 4517位→ 1005位 ケフィア 衛星 麻生 7317位→ 2514位 デジタルネイティブ 8535位→ 3234位 5171位→ 1972位 塗装 ZERO 7501位→ 2880位 クロノトリガー キラッ 7799位→ 3458位 やよい 8740位→ 3988位 インデックス 9509位→ 4429位 ワザップ 小室 Mar. 9, NLP2011 2793位→ 1420位 4740位→ 1888位 1959位→ 2434位→ 2490位→ 3017位→ 3391位→ 3470位→ 3878位→ 3971位→ 4043位→ 4618位→ 5080位→ 5195位→ 圏外 圏外 圏外 圏外 圏外 圏外 圏外 圏外 圏外 圏外 圏外 圏外 11 どのような頻度変化が起こっているのか? ある時点で頻度Xだった後がΔt時間経過後に 頻度Yになっている頻度(Δt=30日) 時間T+Δtでの相対頻度 Δt経過後に頻度aとなった語が もともと基準期間にどのような 頻度であったかの確率分布 基準期間で頻度aであった語が, Δt経過後にどのような頻度に変 化しているかの確率分布 10/1/2015 Mar. 9, NLP2011 時間Tでの 相対頻度 12 詳細釣り合い(detailed balance) • ある過程の起こる確率とその逆過程の起こる確 率が等しい状態 – 企業の成長や気体分子の運動などに見られる • 言語の頻度変化で詳細釣り合いが成り立つ範 囲 – 相対頻度2.5e-5より大きい語(使用頻度上位4000語) • 語の頻度分布の形は時間の経過とともに変化し ない – 現時点での言語がZipf則にしたがっているなら今後も 従い続ける 10/1/2015 Mar. 9, NLP2011 13 • はじめに • Q1 「語彙の頻度の変化速度は?」 • Q2 「高頻度語と低頻度語に境界はある か?」 • まとめ 10/1/2015 Mar. 9, NLP2011 14 具体的には 使用頻度 語彙が 安定している 領域 常用語 語彙が 不安定な領域 新語 死語 10/1/2015 Mar. 9, NLP2011 時間 15 語の成長率とその分布 • ある語がどれだけ使用頻度を増やしたか 語wの成長率 = Δt経過後の語wの相対使用頻度 基準期間での語wの相対使用頻度 • 成長率分布 (例:使用頻度1位~10位まで) 頻度 10/1/2015 0.5 Mar.19, NLP2011 2 成長率 16 成長率の定義 使用頻度 語彙が 安定している 領域 成長率=1 成長率=2 語彙が 不安定な領域 成長率=0.5 10/1/2015 Mar. 9, NLP2011 時間 17 語の成長率の分布 (Δt=30日) 高頻度から1000位毎にプロット 10/1/2015 Mar. 9, NLP2011 18 成長率の分布が同じということは 使用頻度 語彙として安定する境 界というものはない どんな頻度であっても 入れ替わりが起こりうる 高頻度ほど大きな頻度 変化を起こしやすい 10回→30回≒ 10000回→30000回 10/1/2015 Mar. 9, NLP2011 時間 19 • はじめに • Q1 「語彙の頻度の変化速度は?」 • Q2 「高頻度語と低頻度語に境界はある か?」 • 関連研究 • まとめ 10/1/2015 Mar. 9, NLP2011 20 関連研究との差異 • 語全体の調査 – あらかじめ注目していた語について,その振る舞いを 調査[宮島1967,飛田1966] – 本研究では,すべての語での調査を行うため,バイ アスがかからず,全体的な挙動を知ることができる. • 微小時間の調査 – いくつかの大規模調査(大西調査[5]や凸版調査[6] など)では10年またはそれ以上の期間が対象 – 本研究は日単位という微小時間での使用頻度の連 続的変化を調査 10/1/2015 Mar. 9, NLP2011 21 • はじめに • Q1 「語彙の頻度の変化速度は?」 • Q2 「高頻度語と低頻度語に境界はある か?」 • 関連研究 • まとめ 10/1/2015 Mar. 9, NLP2011 22 現代日本語で頻出する1000語の1年後で も同順位に入っているものは80% 32.6% 80% 使用頻度 時間 平安時代 10/1/2015 現代 現代+Δt Mar. 9, NLP2011 23 まとめ • 語の使用頻度は平衡状態を保ちながら言語 全体で変化している – 詳細釣り合い状態(時間について対象な状態) • 語の使用頻度の変化は順位に依存しない – 高頻度語も低頻度語も次の瞬間には同様な変化 をしうる 10/1/2015 Mar. 9, NLP2011 24 本研究の限界 • 一般的な議論を行うためには,さらなる長期 観察が必要である – 語が変化したのではなくユーザが変化した可能 性は? • ツィッター上の発言(文書における話し言葉) 以外の伝達形式においても本研究での知見 が共通するかどうかは不明 10/1/2015 Mar. 9, NLP2011 25 謝辞 京都大学 遠藤智子氏 産業技術総合研究所 黒嶋智美氏 金沢学院大学 石川温先生 クックパッド 兼山元太氏 荒牧英治 [email protected] 10/1/2015 Mar. 9, NLP2011 26
© Copyright 2024 ExpyDoc