当前位置：首页 > news >正文

超越总收入差距：用Dagum基尼分解分析区域发展不平衡（Python实战）

news 2026/7/22 18:16:41

区域经济差距的显微镜：用Python实现Dagum基尼系数分解

当我们在讨论区域经济发展不平衡时，一个简单的基尼系数往往难以揭示问题的全貌。想象一下，你面前摆放着中国各省份的人均GDP数据，或者不同行业的薪资水平统计，传统基尼系数只能告诉你"差距有多大"，却无法回答"差距从何而来"这个更关键的问题。这正是Dagum基尼分解方法的价值所在——它像一台高倍显微镜，让我们能够观察收入差距的内在结构。

Dagum基尼分解将总体差距拆解为三个部分：组内差距(Gw)、组间差距(Gnb)和超变密度(Gt)。这种分解不仅具有数学美感，更蕴含着深刻的现实意义。比如，当我们分析东中西部区域发展差异时，Gw反映的是各省内部的贫富分化程度，Gnb展现的是东西部之间的鸿沟，而Gt则捕捉了那些"比上不足比下有余"的交叉影响。这种多维度的分析框架，为政策制定者提供了精准施策的理论依据。

1. Dagum基尼分解的核心原理

Dagum基尼分解方法由经济学家Camilo Dagum于1997年提出，它解决了传统基尼系数无法区分差距来源的根本局限。理解这一方法，需要把握三个关键概念：

组内差距(Gw)：衡量同一分组内部个体间的差异程度。例如，在分析各省人均GDP时，Gw反映的是每个省份内部城市间的发展不平衡。
组间差距(Gnb)：表征不同分组之间的平均差异。继续以省份为例，Gnb捕捉的是富裕省份和贫困省份之间的整体差距。
超变密度(Gt)：这个相对抽象的概念描述的是分组间交叉影响产生的差距。当两个分组的部分成员存在重叠（即某些"贫困"地区的城市比"富裕"地区的部分城市更发达）时，Gt就会显现其价值。

这三个分量满足一个优雅的等式：G = Gw + Gnb + Gt，其中G是传统基尼系数。这种分解不仅数学严谨，更具有直观的经济学解释力。

在计算层面，Dagum分解涉及几个关键步骤：

数据预处理：将原始数据按分组（如省份、行业等）整理，并计算各组的平均值
构建差异矩阵：计算所有可能的两两比较（组内和组间）的绝对差异
权重分配：根据各组的人口比例和经济权重调整各项差异的贡献度
分解计算：通过特定公式将总差异分解为Gw、Gnb和Gt三个部分

2. Python实现详解

让我们用Python构建一个完整的Dagum基尼分解工具。以下代码需要numpy库支持，建议使用Python 3.7及以上版本。

import numpy as np from itertools import product, combinations def dagum_gini_decomposition(data_dict): """ 执行Dagum基尼系数分解 参数: data_dict: 字典格式的输入数据，键为组别标识，值为该组的数据列表 返回: 包含Gw, Gnb, Gt及各项中间结果的字典 """ # 准备基础数据 groups = sorted(data_dict.keys()) n = sum(len(v) for v in data_dict.values()) y_total = np.concatenate(list(data_dict.values())) y_mean_total = np.mean(y_total) # 计算各组统计量 group_stats = {} for g in groups: y_g = np.array(data_dict[g]) group_stats[g] = { 'n': len(y_g), 'mean': np.mean(y_g), 'p': len(y_g)/n, 's': len(y_g)*np.mean(y_g)/(n*y_mean_total) } # 计算所有两两组合的G_jh和D_jh G_jh = {} D_jh = {} for j, h in product(groups, groups): y_j = np.array(data_dict[j]) y_h = np.array(data_dict[h]) diff = np.abs(np.subtract.outer(y_j, y_h)).mean() G_jh[(j,h)] = diff / (group_stats[j]['mean'] + group_stats[h]['mean']) # 计算D_jh mask = y_j[:,None] > y_h M_jh = np.where(mask, y_j[:,None] - y_h, 0).mean() N_jh = np.where(~mask, y_h - y_j[:,None], 0).mean() D_jh[(j,h)] = (M_jh - N_jh)/(M_jh + N_jh) if (M_jh + N_jh) > 0 else 0 # 计算总基尼系数 G = np.abs(np.subtract.outer(y_total, y_total)).mean() / (2 * y_mean_total) # 计算Gw Gw = sum(G_jh[(g,g)] * group_stats[g]['p'] * group_stats[g]['s'] for g in groups) # 计算Gnb和Gt Gnb, Gt = 0, 0 for j, h in combinations(groups, 2): pj, sj = group_stats[j]['p'], group_stats[j]['s'] ph, sh = group_stats[h]['p'], group_stats[h]['s'] contrib = G_jh[(j,h)] * (pj*sh + ph*sj) Gnb += contrib * D_jh[(j,h)] Gt += contrib * (1 - D_jh[(j,h)]) return { 'G_total': G, 'Gw': Gw, 'Gnb': Gnb, 'Gt': Gt, 'components_sum': Gw + Gnb + Gt, 'group_stats': group_stats, 'G_jh': G_jh, 'D_jh': D_jh }

提示：在实际应用中，建议对输入数据进行标准化处理，特别是当不同组别的量纲差异较大时。同时，对于小样本数据，可能需要考虑偏差校正。

这个实现包含了Dagum分解的所有关键要素。我们可以通过以下方式测试这个函数：

# 模拟数据示例 data = { '东部': [8.5, 9.2, 7.8, 10.1, 9.5], '中部': [5.3, 6.1, 4.9, 5.7, 6.0], '西部': [3.8, 4.2, 3.5, 4.0, 3.9] } result = dagum_gini_decomposition(data) print(f"总基尼系数: {result['G_total']:.4f}") print(f"组内差距(Gw): {result['Gw']:.4f} ({result['Gw']/result['G_total']:.1%})") print(f"组间差距(Gnb): {result['Gnb']:.4f} ({result['Gnb']/result['G_total']:.1%})") print(f"超变密度(Gt): {result['Gt']:.4f} ({result['Gt']/result['G_total']:.1%})")

3. 结果解读与政策含义

理解Dagum分解结果的关键在于三个分量的相对比例。让我们通过一个假设的区域经济分析案例来说明：

假设我们对2022年东中西部省份的人均GDP进行了Dagum基尼分解，得到如下结果：

分量	数值	占总基尼系数比例
Gw	0.12	30%
Gnb	0.20	50%
Gt	0.08	20%

这个结果可以解读为：

**组内差距(Gw)**占30%，说明各省份内部的城市间发展差异不容忽视。这意味着即使在同一区域内，也需要关注省内均衡发展。
**组间差距(Gnb)**高达50%，表明东中西部之间的发展鸿沟是整体不平等的最大来源。这提示区域协调发展战略的重要性。
**超变密度(Gt)**占20%，反映出存在相当一部分"西部省份的发达城市超过东部欠发达城市"的情况。这种交叉影响可能为精准帮扶政策提供切入点。

在实际政策制定中，这种分解可以帮助决策者：

识别主要矛盾：如果Gnb占主导，应重点加强区域间协调；如果Gw较大，则需关注省内均衡
评估政策效果：比较不同年份的分解结果，观察各项差距的变化趋势
精准施策：针对不同来源的差距设计差异化政策工具

4. 进阶应用与注意事项

Dagum基尼分解的应用场景远不止于区域经济分析。以下是一些值得探索的方向：

行业薪资差距分析：分解不同行业间的工资差异，识别是行业内部还是行业间的差距占主导
电商平台品类分析：研究各商品类目的销售额差异来源，为运营策略提供依据
教育资源配置：分析各地区教育投入的不平等结构，指导资源优化分配

在实际应用中，有几个关键点需要注意：

数据质量要求：
- 样本量应足够大，特别是每个分组内的数据点不宜过少
- 极端值可能对结果产生较大影响，需进行适当处理
- 分组标准应具有经济或社会意义，避免随意分组
方法局限性：
- 对数据分布形态有一定敏感性
- 当组间重叠度很高时，Gt的解释需要更加谨慎
- 不能直接反映差距的动态变化过程
可视化技巧：

import matplotlib.pyplot as plt # 绘制分解结果饼图 labels = ['组内差距(Gw)', '组间差距(Gnb)', '超变密度(Gt)'] sizes = [result['Gw'], result['Gnb'], result['Gt']] colors = ['#ff9999','#66b3ff','#99ff99'] fig, ax = plt.subplots() ax.pie(sizes, labels=labels, colors=colors, autopct='%1.1f%%', startangle=90) ax.axis('equal') # 保持圆形 plt.title('Dagum基尼系数分解结果') plt.show()

对于希望深入研究的分析者，还可以考虑以下扩展方向：