理论
基尼指数( Gini Index )是20世纪初经济学家基尼定义的指标,最为知名的应用是考察居民收入的差异情况。
居民收入的情况符合幂指函数( Power Law )分布,最直观(但非准确)的理解就是 80/20 原则,也就是 20%的人拥有了 80% 的人的财富。用公式表示就是
描述了是收入靠后 %x 的人所拥有的收入总和占所有人收入总和的比例 f(x) 的关系。
幂指函数还有很多非常牛逼的应用,比如如果将单词出现的频率按照由高到低排列,则每个单词出现的频率和它在热门排行榜中排名的常数次幂成反比。
由于一本《长尾理论》的出现,在互联网领域幂指分布也叫长尾分布,因为大概最热门的 20% 的商品占据了用户购买商品数的 80% 。我们将物品按照热门程度从低到高排列,那么下图中的曲线表示最不热门的 x% 物品的总流行度占系统的比例 y% 。这条曲线肯定是在 y=x曲线之下的,而且和 y=x 曲线相交在(0,0) 和 (1,1)。
计算
基尼系数的计算公式为
,也就是说,当收入很平均时,曲线接近于直线, A 的面积趋于0 ,基尼系统也趋于 0 。
下面推导公式:
关键是求 S(B) ,把B 分成从 1到 n 一共n 个小梯形,梯形的底为
和
,高为 1/n,而
为0 ,
为 1,则:
可得基尼系数为: