当前位置：首页 > news >正文

避坑指南：用Python做DEA效率分析时，为什么你的SBM模型结果总不对？

news 2026/7/17 9:44:42

Python DEA效率分析实战：SBM模型结果异常的7个关键排查点

当你在深夜盯着屏幕上那个匪夷所思的SBM模型效率值——也许是某个决策单元的效率突破了理论上限，或者所有结果都诡异地向1靠拢——这种时刻往往让人怀疑人生。本文将带你直击Python实现SBM模型时最常见的七个"暗礁"，这些错误足以让严谨的学术分析变成数字游戏。

1. 数据预处理：被忽视的第一道防线

数据标准化处理不当是SBM模型结果异常的首要元凶。许多研究者直接套用论文中的代码，却忽略了数据尺度对线性规划求解的致命影响。

典型症状：效率值超过10或出现负值，特别是当投入产出指标量纲差异较大时。我曾分析过一组制造业数据，当电力消耗（单位：万千瓦时）与员工人数（单位：人）直接输入模型时，最优解完全被大数值指标主导。

正确的标准化方法应当考虑：

from sklearn.preprocessing import MinMaxScaler def normalize_data(data): scaler = MinMaxScaler(feature_range=(0.1, 1)) # 避免零值 return scaler.fit_transform(data) # 示例：分别标准化投入和产出 normalized_inputs = normalize_data(raw_inputs) normalized_outputs = normalize_data(raw_outputs)

注意：非期望产出需要反向处理。例如污染物排放量应该先取倒数再标准化，否则会得到完全相反的政策含义。

2. 非期望产出方向设置：魔鬼在细节中

90%的SBM模型错误源于对非期望产出方向的错误设定。这个看似简单的选择实际上决定了效率前沿的构建逻辑。

关键区分：

产出类型	数学含义	实际意义	模型处理方式
期望产出	越大越好	产值、利润等	直接纳入产出矩阵
非期望产出	越小越好	污染排放、资源消耗等	取负数或倒数后标准化

在代码实现中，常见的错误模式是：

# 错误示范：未区分期望/非期望产出 outputs = np.column_stack([good_outputs, bad_outputs]) # 正确做法：非期望产出取负 outputs = np.column_stack([good_outputs, -1 * bad_outputs])

3. 规模报酬假设：CRS与VRS的选择困境

规模报酬假设(CRS/VRS)的选择不仅影响效率值大小，更可能改变决策单元的排序。这个看似理论性的选择实际上有明确的实践判断标准：

**CRS(规模报酬不变)**适用场景：
- 所有决策单元处于最优规模
- 分析纯技术效率
- 样本量较小时(default选择)
**VRS(规模报酬可变)**适用场景：
- 存在规模不经济
- 需要分解规模效率
- 决策单元规模差异显著时

Python实现中容易忽略的细节：

# 在linprog中添加VRS约束 if not crs: A_ub = np.vstack([A_ub, np.ones((1, num_units))]) # 添加凸性约束 b_ub = np.append(b_ub, 1)

实战建议：先用CRS运行，如果效率值普遍偏低(如<0.6)，再尝试VRS并比较两者的效率分布。

4. 松弛变量处理：SBM模型的灵魂所在

传统DEA模型与SBM的核心区别就在于松弛变量的处理方式。许多实现虽然冠名"SBM"，实际上仍在使用径向模型的计算逻辑。

关键差异对比：

径向模型(Radial DEA)：按比例调整投入产出
SBM模型：独立处理每个松弛变量

正确的Python实现应当包含：

# SBM目标函数构建示例 c = np.zeros(num_inputs + num_outputs) c[:num_inputs] = 1/num_inputs # 投入松弛权重 c[num_inputs:] = -1/num_outputs # 产出松弛权重 # 构建约束矩阵时需包含松弛变量 A_eq = np.block([[inputs, -np.eye(num_inputs)], [outputs, np.zeros((num_outputs, num_inputs))]])

5. 超效率计算的陷阱：当效率值突破1时

超效率SBM模型允许效率值>1，但这个特性也带来了特殊的数值问题。最常见的两类错误：

数学无解：当某个DMU位于生产可能集外部时，线性规划可能无可行解。稳健的实现应该包含：

try: res = linprog(c, A_ub=A_ub, b_ub=b_ub, bounds=(0, None)) if not res.success: efficiency = float('inf') # 标记极端有效单元 except: efficiency = np.nan # 记录计算失败

排序失真：超效率值对数据噪声极其敏感。建议同时计算传统SBM效率作为验证，两者排名应保持基本一致。

6. 面板数据分析：时间维度的特殊考量

当处理多期数据时，90%的研究者会犯两个致命错误：

混合所有时期数据：导致前沿面膨胀，效率值虚高
逐年独立计算：失去跨期可比性

正确的面板数据SBM实现策略：

# 全局前沿面法示例 global_frontier = { 'inputs': np.vstack([inputs_2018, inputs_2019, inputs_2020]), 'outputs': np.vstack([outputs_2018, outputs_2019, outputs_2020]) } # 计算某年效率时，约束条件包含所有年份数据 A_ub = np.vstack([ global_frontier['outputs'].T, -global_frontier['inputs'].T ])

7. 模型验证：从"能跑"到"可信"的三重检验

最后也是最重要的步骤，却最常被省略。三个必备的验证环节：

极端值测试：构造一个理论上应该无效的DMU(如所有投入翻倍而产出不变)，验证其效率是否显著下降
敏感性分析：随机扰动10%的输入数据，观察效率值变化幅度(应<15%)
前沿面可视化：对关键投入产出指标做二维散点图，人工检查有效DMU是否确实位于前沿面上

# 敏感性分析示例 perturbed_efficiencies = [] for _ in range(100): noise = 1 + np.random.uniform(-0.1, 0.1, size=inputs.shape) perturbed_eff = super_efficiency_dea(inputs*noise, outputs) perturbed_efficiencies.append(perturbed_eff) # 计算效率值标准差 eff_stability = np.std(perturbed_efficiencies, axis=0)

当所有这些检查点都通过后，你终于可以相信那些效率值不是Python随机数生成器的产物。记住，DEA本质上是一种数学规划方法，而SBM模型更是将这种复杂性推向极致——它不会因为你的学术热情就自动产生合理结果。每一次异常数字背后，都藏着至少一个违背模型基本假设的操作细节。

查看全文

http://www.jsqmd.com/news/924503/