ジニ係数とパレート分布

ジニ係数とパレート分布∗
1 ジニ係数
ジニ係数とは イタリアの経済学者 Corrado Gini が1912年に発表した。計算は累積分布関数から求
め、公平さと不公平さの違いの程度を表すものと解釈され、0 と 1 の間の値となる。所得の例では変数値の
所得金額に対して、その所得金額以下の割合を縦軸に表していく。ジニ係数の値 0 とは、所得金額が公平
に配分されている状況を表す。すなわち変数値の金額に対して、割合の増加が直線になる。もう一つの極
端な係数値が 1 とは、ある人がすべての所得金額を占めており、その他の人々が所得金額ゼロとなる場合
である。このようにジニ係数が低い値であることは、社会の富の配分(所得金額の値)がほぼ平等に分けら
れていることを示し、数値が高いことは、全体の少数部分が高い富を占有していることとなる。Wikipedia
(Gini coefficient) を参照。また 100 倍してパーセント表示にしたものをジニ指数(Gini Index)をよぶ。
http://www.sustainablemiddleclass.com/Gini-Coefficient.html による近年のジニ指数の値比較:
Japan 24.9
United Kingdom 36.0
Sweden 25.0
Iran 43.0
Germany 28.3
United States 46.6
France 32.7
Argentina 52.2
Pakistan 33.0
Mexico 54.6
Canada 33.1
South Africa 57.8
Switzerland 33.1
Namibia 70.7
このようなジニ係数 (指数)の結果は、経済学での貧富の指標、公平さの変化を調べるために、社会変
化や政治活動のひとつとして公表されている。たとえば、発展国としてヨーロッパ諸国では係数値は 0.24
から 0.36 であるのに対して、アメリカ合衆国では 0.4 を超えている。つまりアメリカとは、貧富の差の
大きい国である。また政治哲学や政策の補填の意味でも、このジニ係数は役立つと考えられる。しかし大
きな国と小さな国で比較を行なうときには、当然誤解をもたらすことを注意しておかねばならない。世
界全体のジニ係数は、およそ 0.56 から 0.66 の間といわれている。Bob Sutcliffe (2007), Postscript to
the article ‘World inequality and globalization’ (Oxford Review of Economic Policy, Spring 2004),
(http://siteresources.worldbank.org/INTDECINEQ/Resources/PSBSutcliffe.pdf). Retrieved on 200712-13
出典および参考:wikipedia
∗
statA/nonpara/gini/gini.tex, parato2.wtc,Parate.eps, gini.wtc, gini2.wtc
1
2 ジニ係数の計算
計算式:
∫
1
G=1−2
L(x)dx =
1/2 −
0
∫1
L(x)dx
1/2
0
or
=1−2
∑
L(xi )(i.e.L(x) の面積)
i
ここで L(x) はローレンツ曲線で、
y
ジニ係数 G
y=x
45 度の直線
∫
1
L(x)dx
0
ローレンツ曲線
y = L(x)
x
0
1
つぎで定める:
(1) 離散型分布のとき;i = 1, 2, · · · , n
値
xi
x1
x2
···
xn
確率
pi = f (xi )
p1
p2
···
pn
累積確率
Fi
F1 = p1
F2 = p2 + F1
···
Fn = pn + Fn−1 = 1
Li
/
∑ Li+1 + Li
xj f (xj ) L = i
(Fi+1 − Fi )
2
∑n
ただし L = j=1 xj f (xj )
=
∑i
j=1
(i = 1, 2, · · · , n)
性質:L0 = 0 ≤ L1 ≤ L2 ≤ · · · ≤ Ln−1 ≤ Ln = 1 増加関数で、下にとつの形をし、0 から 1 まで変化する。
(2) 連続型分布のとき;−∞ < x < ∞
値
x
確率
f (x)
累積確率
F (x) =
∫
∫x
−∞
x
L(x) =
f (t)dt
−∞
∫
/
tf (t)dt L (0 ≤ x ≤ 1) ただし L =
性質:
(i) L(0) = 0 ≤ L(x) ≤ · · · ≤ L(y) ≤ L(1) = 1, 0 < x < y < 1
(ii) 0 < L(x) ≤ x, 0 < x < 1
2
∞
tf (t)dt
−∞
3 例題
例題:
10 人の所得金額を調べると、つぎのデータを得た。この集団におけるジニ係数を計算せよ。
所得
50
100
200
計
人数
4
4
2
10
(解)累積相対度数を計算すると、
n=3
i=1
i=2
i=3
所得×人数
50×4 = 200
100×4=400
200×2 =400
上記の相対値 (Li )
200/1000 = 0.2
400/1000 = 0.4
400/1000 =0.4
累積値
0.2
0.2+0.4= 0.6
0.2+0.4+0.4 =1.0
人数
4
4
2
合計 1000
10
相対累積値 (Fi )
4/10=0.4
0.4 + 4/10 =0.8 0.8+ 2/10=1.0
人数の累積相対値と所得計の累積相対値の組 (Fi , Li )i = 0, 1, 2, · · · , n ただし (F0 , L0 ) = (0, 0), (Fn , Ln ) =
(1, 1) が得られ、これがローレンツ曲線であり、この横軸 (Fi ) に対する縦軸 (Li ) の値について、折れ線グラ
フの面積を
∑
L(Fi )∆Fi =
i
n−1
∑
i=0
Li+1 + Li
(Fi+1 − Fi )
2
で求める。
L
(1, 1)
(0.8, 0.6)
(0.4, 0.2)
(0, 0)
F
0.2 + 0.0
0.6 + 0.2
1.0 + 0.6
上記の数字に当てはめると i L(Fi )∆Fi =
(0.4 − 0.0) +
(0.8 − 0.4) +
(1.0 −
2
2
∑ 2
0.8) = 0.04 + 0.16 + 0.16 = 0.36 がローレンツ曲線の積分に相当する。したがって G = 1 − 2 i L(Fi )∆Fi =
∑
1 − 2 × 0.36 = 0.28 (終わり)
4 パレート分布 (pareto)
代表的な”The long tail distribution”裾の長い分布、あるいは裾の重い分布といわれ、2つの形と尺度のパ
ラメータ、k, xm をもつ L 字型分布。裾が重いことから、80−20原理、すなわち集団の20%が分布全体
の80%を占めること重要な分布である。たとえば富の全体配分がわずかの人々に占められている社会状況を
3
確率 f (x)
3.5
3
裾の長い分布(裾の重い分布)
2.5
∫
2
∞
f (x)dx
a
1.5
裾の確率
1
0.5
2
4
3
5
a
図1
パレート分布 k = 1, 2, 3, xm = 1 の例と裾の長い分布
変数 x
反映している分布として解釈される。
確率変数 X がパラメータ k, xm のパレート分布とは確率密度関数
f (x) = k
xkm
, x > xm
xk+1
で与えられ、
(
)−k
x
(a) 裾部分の確率 P (X > x) =
, x > xm
xm
( x )k
∫x
m
(b) 分布関数 F (x) = P (X ≤ x) = xm f (t)dt = 1 −
x(
)2
k
k
xm
(c) 平均 EX =
xm (k > 1), 分散 V ar(X) =
,k > 2
k−1
k−2 k−1
で与えられる。
ローレンツ曲線
L(F ) : L(x) = 1 − (1 − x)1−1/k (0 ≤ x ≤ 1)
ジニ係数は G = 1 − 2
∫1
0
L(F )df =
1
となる。k が大きければ公平であるが、小さいときには、公平さ
2k − 1
が少ない。密度関数の形からも80−20原理がみることができる。
問 1. 10 人の所得金額を調べると、つぎのデータを得た。この集団におけるジニ係数を計算せよ。
データ(A):
所得
50
100
200
計
人数
5
3
2
10
所得
50
100
200
計
人数
4
3
3
10
データ(B):
問 2. パレート分布における平均と分散を計算せよ。さらにジニ係数も求めよ。
4