2ch.net

第一回計算社会科学ワークショップ
2017.2.26:10:15-10:40
学習院大学目白キャンパス
中央教育研究棟403・404教室
2ch.netの書き込みデータの統計的法則とPitman分布
Contents
1.物理学の対象としての経済・社会現象
Short Reviw
2.2ch.netの投稿過程のモデル化
Pitman分布とPólya urn
北里大学理学部物理学科
守 真太郎
共同研究者
Fintec Lab.
久門正人
References
Pitman sampling formula in Equilibrium and Non-equilibrium processes, M.Hisakadoi and S.Mori, preprint.
1
1990年代 経済物理学の誕生
1.物理学の対象としての経済・社会現象
Empirical analysis
Analysis of data in real market By H.E.Stanley, H.Takayasu
Stylized Facts: fat tail and scaling, volatility clustering
Advantage : reliability of huge data
Disadvantage : uncontrollability, only correlation
J.Kepler(1571-1630)
Kepler’s Laws
Agent Model
Minority Game by D.Challet and Y.C.Zhang (1997)
R.N.Mantegna and H.E.Stanley, Nature 1995.
Controlled human experiment
Minoriy Game (T.Platkowski and M.Ramsa 2003)
Laboratory Stock Market (J.P.Huang et al 2013)
G.Galilei (1564-1642)
Galilei’s Law
Advantage : contorollablity (causality) and formalty
Disadvantage : deviation from nature and few data
K.N.An, X.H.Li, G.Yang and J.P.Huang,Eur.Phys.J.B86(2013)436
Unification of Empirical and Experimental Studies
Physics
I.Newton(1642-1726)
Reasons should be Coarse-Grained
Results should be Universal
2
2012年11月@北里祭
Theory
1.物理学の対象としての経済・社会現象
Agents + Social Interaction = Reinforced stochastic process
Pólya urn, voter model, rw+ feedback
Posting in electric boards (2ch.net) = Pólya urn
Fernandez-Gracia et al, PRL(2014)
2ch.netの書き込みデータの統計的法則とPitman分布
F.Sano et al, Proceedings of APES-SSS2016 (2017)
43rd
44th
45th
46th
47th
2/26,15:40-16:05 佐野 衆議院総選挙のDirichlet分布を用いた分散分析
NHK調査の無党派層の比率
投票結果から推定した浮動層の比率
Wang and Wang, Big Data(2014)
Amazonのレーティングダイナミクス
3
2ch.net とは
2ch.netの投稿過程のモデル化
4
ニュース系掲示板(板)はスレッドに寿命(5日で消去など)
データ
2ch.netの投稿過程のモデル化
2009年3月から12月にかけて取得した2ch.netの10の板の書き込み時間[sec]、スレッドID(10桁)、親スレッドID(10桁)、
投稿者ID(2ch.netが割り当てたもの)
n=1,2,3,・・・N
データに登場した順番
s=1,2,3,・・・S
s回目の投稿
Id=1,2,3,・・・,ID データに登場した順番
t(s):s回目の投稿時刻(s=1を基準)
Id(s):s回目の投稿を行ったuser id
今回の解析対象はニュース系掲示板
5
2ch.netの投稿過程のモデル化
解析手法
1. ニュース系掲示板の投稿時系列データを時間軸に垂直に薄切り
2. 断面に現れるスレッドの分布と次の投稿の相関関係を有限記憶Sibuya壺モデルとして
モデル化
3. 有限記憶Sibuya壺モデルの定常分布(=EPSF,Pitman分布)と断面の分布の比較
結果
1. ニュース系掲示板の投稿時系列データの断面に有限記憶Sibuyaモデルの確率法則
と投稿数分布にEPSFが確認
2. 厚切りにすると投稿数分布はEPSFから乖離する
Cause Effect Relationship at Micro
Cause Effect Relationship at Macro
6
2ch.netの投稿過程のモデル化
なぜこんなことを研究するのか?
集団遺伝学・数理生物学的な興味
木村の中立説のアレル(型)分布からの検証
Ewens sampling Formula (ESF,Ewens分布) で「中立説」の検定
Hoppe’s urn model = Polya’s urn model + mutation (Θ)
(1)ランダムに選ばれた
玉が殖える
Pólya urn model
1/2*2/3=1/3
(2)選ばれる色はその色の
玉の数に比例
1/2
1/2*1/3+1/2*1/3=1/3
1/2
1/2*2/3=1/3
各色の玉の個数の分布:ベータ二項分布
G.Pólya, Sur quelques points de la th´eorie des probabilit´es, Ann. Inst. Henri Poincar´e,1,117(1931)
7
2ch.netの投稿過程のモデル化
Hoppe’s urn model (1984)
(1)ランダムに選ばれた玉が殖える
(2)選ばれる色はその色の玉の数に比例
(3)黒玉が選ばれる確率はΘ個の玉と同じ
(4)黒玉が選ばれると新色の玉が追加
K:色の種数、各色の玉の個数の分布
3=1+1+1
=2+1
=1+2
=2+1
=3
Ewens(1972) 分布:
2ch.netの投稿過程のモデル化
Shibuya’s urn model (2001)
(1)ランダムに選ばれた玉が殖える
(2)選ばれる色はその色の(玉の数-α)に比例
(3)黒玉が選ばれる確率はΘ+kαに比例
k:色の種数
(4)黒玉が選ばれると新色の玉が追加
r回試行後
Pitman分布(1995):
:j色の玉の数:j=1(赤),j=2(青),j=3(緑)
予稿の式(1)の訂正
9
2ch.netの投稿過程のモデル化
有限記憶 Shibuya’s urn model (r=3)
1
2
4
What’s new 1
3
2
3
4
:新色
4
=
1
4
=
2
4
=
3
Pitman sampling formula in Equilibrium and Non-equilibrium processes,
M.Hisakadoi and S.Mori, preprint.
K:色の種数、各色の玉の個数の定常分布 Pitman分布:
2ch.netの投稿過程のモデル化:
玉 t :t回目の投稿
玉の色
:スレッド番号
10
有限記憶 Shibuya’s urn model (r=11)
2ch.netの投稿過程のモデル化
1011
Urn
1003
1001
1000
19
1002
17
1004
11
1008
1010
1005
1006
1007
1009
16
18
10
5
既存スレッド
新スレッド
解析結果1:モデルの妥当性
What’s new 2
2ch.netの投稿過程のモデル化
Cause Effect Relationship at Micro
Cause Effect Relationship at Meso
Pitman分布EPSF)の初めての観測例
12
解析結果2:rの限界
2ch.netの投稿過程のモデル化
推定したPitman分布のKの期待値とデータから計算したKの平均値の比較
r=30が限界
East Asia News
Live News
r=50が限界
Business News
r=100が限界
Breaking News
Music News
13
Summary
2ch.netの投稿過程のモデル化
(1) Positings in 2ch.net Finite Memory Shibuya’s Urn  Pitman分布:
(2) Pitman sampling formulas
(3) Maximum value for r
References
Pitman sampling formula in Equilibrium and Non-equilibrium processes, M.Hisakadoi and S.Mori, preprint.
14
1.物理学の対象としての経済・社会現象
情報カスケード転移
ノーヒントでの回答
カンニングして回答
Cause Effect Relationship at Micro
カンニングしたときの正答率
Cause Effect Relationship at Macro
ノーヒントでの正答率
S.Mori,M.Hisakado and T.Taakahashi,Phys.Rev.E86(2012)026109 .
S.Mori and M.Hisakado, Phys.Rev.E92(2015)052112.
15
Pólya Urn
2ch.netの投稿過程のモデル化
G.Pólya, Sur quelques points de la th´eorie des probabilit´es, Ann. Inst. Henri Poincar´e,1,117(1931)
B. Hill, D. Lane and W. Sudderth, A strong law for some generalized urn processes, Ann.Prob.,8,214(1980).
カンニングでの正答率
Binary Stochastic Process
G.Pólya(1931)
16
ノーヒントでの正答率
S.Mori,M.Hisakado and T.Taakahashi,Phys.Rev.E86(2012)026109 .
S.Mori and M.Hisakado, Phys.Rev.E92(2015)052112.