Quantifying the evolutionary dynamics of language

論文紹介
Quantifying the evolutionary
dynamics of language
Erez Lieberman, Jean-Baptiste Michel, Joe Jackson,
Tina Tang & Martin A. Nowak
(Nature 449, Oct. 2007)
48-097602. グェン トアン ドゥク
Source

Title: Quantifying the evolutionary dynamics
of language

Authors: Erez Lieberman, Jean-Baptiste Michel, Joe Jackson,
Tina Tang & Martin A. Nowak


Havard University & MIT
Journal: Nature 449, 713-716 (11 Oct. 2007)
48-097602. グェン トアン ドゥク
2
動詞の過去(分詞)形 (past participle)

burn → burnt or burned
learn → learnt or learned
dream → dreamt or dreamed

しかし、



have → had
or haved
なぜそうなのか?
この論文で説明する!!!
48-097602. グェン トアン ドゥク
3
答えを先に言うと ...

burn, learn, dream は regularized (規則化) さ
れたから

Old English では burned はない!
48-097602. グェン トアン ドゥク
4
Language evolution (言語の進化)

Human language is based on grammatical rules


have → had, be → was/were
Rules compete with each other: as new rules rise to
prominence, old ones die away
burn → burnt
regularized
(evolution の表現)
進化
48-097602. グェン トアン ドゥク
burn → burned
5
これからの話

Regularization process の定量的測定

Why burn → burned, but have → haved?
2009 sting
2xxx
sting
t=?
stung

stinged
言語進化過程の定量的測定の一例

Quantifying the evolutionary dynamics of language!
48-097602. グェン トアン ドゥク
6
Verb regularization の定量測定

過去 1200 年の文献を調べ、verb の過去(分詞)
形を調べた
Old English
# Irregular verbs

Middle English Modern English
177
145
98
Although only 3% of modern verbs are irregular, the ten
most common verbs are all irregular !


be, have, do, go, say, can, will, see, take, get
Low frequency irregular verbs の消える速度が速い

あまり勉強されないから
48-097602. グェン
トアン ドゥク
7
Verb frequency

CELEX corpus (17.9 million words)

Verb v frequency: f(v)

Total frequency = Σf(vi)

Relative frequency:

ω(v) = f(v) / Σf(vi)
( 10-7 < ω(v) < 1 )
48-097602. グェン トアン ドゥク
8
Frequencyω vs. Speed of Regularization
(赤いverb は昔 irregular)
48-097602. グェン トアン ドゥク
9
Relative regularization rate vs. ω

# Irregular verbs – ω:


Relative regularization rate:


Unimodal (not Zipfian)
Comparing Modern English
with Middle English and Old
English
Regularization rate vs. ω:

log-log では傾き -0.5 の直線
I ( , t )
  1 / 2 I ( , t )
t
48-097602. グェン トアン ドゥク
10
Absolute regularization rate vs. ω
# Irregular verbs – 時間 t:

ωを固定すると、half-life time h を
計算できる
ω∈[10-6..10-5]: h = 300 years
ω∈[10-4..10-3]: h = 2000 years




Half-life time h vs. ω


log-log ではまた傾き -0.5 の直線
つまり、どのfitting method にも、
同じ結果が得られる
I ( , t )
  1 / 2 I ( , t )
t
a

I ( , t )  b e

t
48-097602. グェン トアン ドゥク
11
この式で何が分かるか
a

I ( , t )  b e

t
昔 (t = 0) 、Irregular verb も
Zipfian



log-log では傾き -0.75 の直線
将来: 2500年では 83 個の
irregular verb しかない!
48-097602. グェン トアン ドゥク
12
次に regularize される verb は何?

頻度の一番低いもの: wed (結婚)



ω = 4.2 uses per million verbs
wed/wed/wed → wed/wedded/wedded
なので、

Now is the last chance to be a ‘newly wed’. The married couples of the
future can only hope for ‘wedded’ bliss :-)
48-097602. グェン トアン ドゥク
13
まとめ

過去分詞の形を決めるルールが競争し、結局 ‘-ed’が勝った


Verb の regularization 速度は使用頻度の square root と
反比例


負けたルールは使用頻度が低いので忘れられたから
a verb that is 100 times less frequent regularizes 10 times as fast
この論文は言語進化の定量的測定の一例
48-097602. グェン トアン ドゥク
14