机器学习与可解释AI如何揭示董事会性别多样性对碳排放的非线性影响
1. 研究背景与核心问题拆解
在ESG投资从“加分项”转变为“必答题”的今天,无论是机构投资者、企业管理者还是政策制定者,都面临一个共同的拷问:那些写在报告里的治理结构,比如董事会里有几位女性董事,到底能不能实实在在地转化为更优的环境绩效,比如更低的碳排放?这个问题看似简单,背后却是一团复杂的迷雾。传统研究大多依赖线性回归模型,试图在“董事会女性比例”和“碳排放得分”之间画一条直线,但结果常常相互矛盾——有的研究说显著正相关,有的说无关,甚至还有U型关系的说法。这种不一致性,很大程度上是因为现实世界并非线性,且不同行业的企业,其生产模式、监管压力、技术路径天差地别,用“一刀切”的模型去套,自然难以服众。
我过去在分析企业ESG数据时,就深受其扰。你会发现,一家化工巨头和一家软件公司,其碳排放的驱动因素和治理结构的影响方式完全不同。把这两类公司混在一起回归,就像把苹果和橘子一起榨汁,然后争论甜度是来自苹果还是橘子,意义不大。这正是“行业异质性”问题的核心。此外,董事会性别多样性(BGD)到底是如何影响排放绩效(EP)的?是直接施加影响,还是通过某些中间桥梁,比如推动企业进行更多的环境创新(EI)?这个“黑箱”机制,传统的中介效应检验在复杂数据面前也常常力不从心。
因此,本次研究的核心思路,就是引入两套“组合拳”来穿透这团迷雾。第一套拳是机器学习(ML),特别是像XGBoost这类树模型。它不预设线性关系,能自动捕捉变量间复杂的非线性交互作用,就像给数据配了一副高精度眼镜,能看清之前被模糊掉的细节。我们用ML来构建高精度的预测模型,找出关键影响因素。第二套拳是可解释人工智能(XAI),尤其是SHAP值分析。ML模型常被诟病为“黑箱”,XAI就是打开这个黑箱的钥匙。通过SHAP值,我们可以量化每个特征(如女性董事比例、研发投入)对最终预测结果(排放绩效)的贡献度及其方向,从而清晰、定量地解读“为什么”。
我们的研究路径非常明确:首先,利用ML模型在全样本中识别影响排放绩效的关键因素,并验证董事会性别多样性的整体重要性。然后,运用XAI工具深入剖析这种影响在不同行业间的差异(行业异质性)。最后,通过传统的计量经济学方法(如路径分析),在控制行业等因素后,检验“环境创新”是否扮演了中介角色。这套“ML+XAI+传统计量”的混合方法,旨在兼顾预测精度、机制解释和统计推断的稳健性,为这个老问题提供新证据。
2. 数据准备、处理与机器学习模型构建
2.1 数据来源与核心变量定义
这项研究的数据基石来源于LSEG Workspace(原Refinitiv)数据库,这是全球金融和企业研究领域公认的高质量数据源之一。我们的样本涵盖了超过3000家上市公司,横跨近60个GICS行业,时间跨度约十年,构成了一个非平衡面板数据集。选择这个数据库,是因为其ESG和公司治理数据经过严格的人工审核与标准化处理,横向可比性强,远优于企业自行发布的、格式各异的报告。
核心变量的构建是实证研究的生命线,这里需要明确几个关键操作:
- 被解释变量:排放绩效(EP)。我们没有简单使用绝对碳排放量,因为一个万人大厂的排放量必然高于一个小作坊,这没有可比性。这里采用的是LSEG计算的碳排放强度得分,它是一个相对值,通常基于单位营收或单位产出的碳排放效率,并经过行业调整。得分越高,代表排放绩效越好(即排放强度越低)。这种标准化处理使得跨行业比较成为可能。
- 核心解释变量:董事会性别多样性(BGD)。最常用的度量是女性董事在董事会总人数中所占的百分比。但这里有一个学术上经常讨论的“临界质量”理论(通常认为女性比例达到30%左右时,其影响力会发生质变)。因此,在后续的异质性分析或非线性检验中,我们可能不仅看比例,还会引入虚拟变量(如是否达到30%)来捕捉这种非线性效应。
- 中介变量:环境创新(EI)。衡量企业环境创新并非易事。本研究很可能采用了LSEG的“环境创新”分数,该分数综合了企业在环保技术研发、绿色产品设计、清洁工艺改进等方面的专利活动、研发投入和公开披露。使用滞后一期(t-1)的环境创新数据去预测当期的排放绩效,是因果推断中的常见做法,可以一定程度上缓解反向因果的困扰(即不是排放绩效好导致了创新多,而是过去的创新影响了现在的绩效)。
- 控制变量群:为了隔离其他因素的影响,我们引入了一套全面的控制变量,包括:
- 公司治理层面:董事会规模、董事会平均任期、CEO是否兼任董事长(CEO Duality)、董事会薪酬。
- 公司财务与风险层面:公司规模(总资产对数)、杠杆率、流动性、托宾Q值(市场估值)、债务成本、市场风险(Beta值)。
- ESG层面:ESG争议事件分数(负面事件越少,分数越高)。这是一个重要的控制变量,因为负面新闻可能同时影响公司治理评价和排放表现。
注意:在实操中,对于财务变量如总资产、营收等,通常进行对数化处理以缓解异方差性;对于比例变量如杠杆率、流动性等,需检查是否存在极端值并进行缩尾处理。
2.2 缺失值处理:务实的选择
面对真实世界的数据,缺失值是无法回避的难题。我们的数据中,缺失率最高的变量是“债务成本”(27.58%)和“环境创新”(20.49%)。如何处理?删失样本(Listwise Deletion)会损失大量数据,引入样本选择偏差。插补零或均值在某些场景下会严重扭曲分布。
本研究采用了中位数插补法。这听起来不够“高级”,但在高维机器学习预测任务中,这往往是一个稳健且有效的选择。原因在于:1)树模型(如我们将使用的XGBoost)对单调变换不敏感。中位数插补虽然可能略微改变变量的分布,但保留了其秩次关系,而树模型正是基于特征值的排序进行分裂的,因此影响相对较小。2)透明且可复现。比起复杂的多重插补(MICE)或KNN插补,中位数插补规则简单,任何研究者都可以精确复现。3)文献支持。近年来的金融机器学习研究(如Chen and McCoy, 2024)发现,在预测任务中,简单插补与复杂插补方法的性能差异并不显著。
当然,我们并非盲目插补。通过Little‘s MCAR检验,我们拒绝了数据“完全随机缺失”的假设,说明缺失是有模式的。但进一步比较“有缺失”和“无缺失”两组公司在关键变量(如债务成本、环境创新)上的均值,发现并无系统性差异(p值不显著)。这给了我们一些信心,认为中位数插补不会引入严重的偏差。一个重要的实操心得是:对于缺失率高的变量,在解释其影响时需要格外谨慎,结论的稳健性可能需要通过其他方式(如工具变量、子样本分析)进行交叉验证。
2.3 机器学习模型选型与调优:为什么是XGBoost?
在众多机器学习算法中,我们选择了XGBoost(极端梯度提升树)作为主力模型。这并非追逐热点,而是��于其与本研究问题的完美契合度:
- 处理非线性与交互作用:董事会特征、财务指标、行业属性对排放绩效的影响绝非简单的加减乘除。XGBoost通过集成大量决策树,能自动捕捉变量间复杂的非线性关系和交互效应(例如,女性董事比例与高杠杆率公司结合会产生何种独特影响)。
- 防止过拟合能力强:XGBoost内置了正则化项(L1/L2),并在每轮迭代中通过梯度信息收缩新树的学习率,这使其在保持高精度的同时,对训练数据的噪声不那么敏感,泛化性能更好。
- 处理混合数据类型:我们的数据包含连续变量(如资产、比例)、离散变量(如行业分类)。XGBoost能天然地处理这种混合类型,无需像神经网络那样进行繁琐的编码或归一化。
- 计算效率与可扩展性:面对数千家公司多年的面板数据,XGBoost的并行计算设计使其训练速度远快于传统的随机森林或神经网络,便于我们进行大量的超参数调优和稳健性检验。
模型调优是关键步骤。我们不会使用默认参数。一个标准的调优流程包括:
- 参数网格:对
max_depth(树深度)、learning_rate(学习率)、n_estimators(树的数量)、subsample(样本采样比例)、colsample_bytree(特征采样比例)等核心参数构建搜索网格。 - 交叉验证:采用面板数据友好的时间序列交叉验证,例如用前t年的数据训练,预测t+1年的数据,滚动进行。这比随机K折交叉验证更能模拟现实预测场景,防止数据穿越。
- 评估指标:回归问题主要看均方根误差(RMSE)和R平方(R²)。我们更关注样本外预测的R²,因为它衡量了模型对未知数据的解释能力。
通过系统性的网格搜索与交叉验证,我们最终锁定一组使样本外预测性能最优的超参数组合。这个过程虽然计算量大,但能确保模型捕捉到的是真实规律而非数据噪音。
3. 全局影响分析:董事会性别多样性真的有用吗?
在完成数据清洗和模型调优后,我们首先在全样本层面运行XGBoost模型,以预测企业的排放绩效。模型的表现(R²)告诉我们其整体预测力,但更重要的是接下来的可解释性分析。
3.1 SHAP值:打开机器学习黑箱的钥匙
SHAP(Shapley Additive exPlanations)值基于合作博弈论,为每个样本的每个特征分配一个贡献值。它的核心优势在于满足一致性:如果一个特征在模型A中比在模型B中更重要,那么它的SHAP值在A中也一定更大。这为我们提供了稳定、可比的重要性度量。
通过计算所有样本的SHAP值,我们可以做两件事:
- 全局特征重要性:将每个特征在所有样本上的SHAP绝对值取平均,得到该特征的全局重要性排序。这直接告诉我们,在机器学习模型眼中,哪些因素是驱动排放绩效最关键的变量。
- 特征影响方向分析:观察每个特征的SHAP值(x轴)与其原始特征值(y轴)的散点图。这张图蕴含了丰富信息:
- 趋势:散点图呈现的整体趋势(向上、向下、非线性)揭示了该特征与目标变量之间被模型识别出的真实关系。
- 分布:点的分散程度反映了交互作用的存在。如果相同特征值对应了不同的SHAP值,说明该特征的影响依赖于其他特征(即存在交互效应)。
3.2 核心发现解读
根据类似研究的典型结果(并结合附录中的回归结果进行推断),我们可能会观察到以下模式:
- 董事会性别多样性(BGD)的全局重要性:在SHAP全局重要性排名中,BGD很可能位居前列,但通常不会超过公司规模、所属行业、ESG争议等“巨无霸”变量。这符合直觉:治理结构的影响是重要的,但不会大过业务本质和重大负面事件。
- BGD的影响模式:SHAP依赖图很可能显示一种非线性关系。当女性董事比例较低时(例如低于20%),其SHAP值可能在零附近波动,甚至为负,表明影响不显著或微弱。一旦超过某个阈值(如30%-40%),SHAP值开始呈现稳定的正向增长。这为“临界质量”理论提供了来自机器学习模型的证据。它意味着,仅仅有一两位女性董事(象征性多元化)可能不足以改变董事会决策动态;只有当女性声音达到一定强度,才能实质性地影响战略方向,例如将环保创新纳入核心议程。
- 与其他变量的交互:SHAP图可能揭示,BGD的高SHAP值(正面影响)更多地出现在高ESG争议分数(即低争议)的公司,或特定行业(如技术、消费必需品)中。这说明,性别多样性的环境效应,依赖于公司已有的社会责任声誉和所处的行业环境。
实操心得:警惕“SHAP绝对值”的误导。一个特征SHAP绝对值大,只说明它影响大,但不一定是通过我们关心的路径。例如,“行业”代码的SHAP值可能极高,但这只是反映了不同行业排放基准的不同。我们需要结合经济学理论,在控制行业固定效应后,再审视BGD的“净影响”。这就是为什么后续需要结合面板回归进行更严谨的推断。
4. 行业异质性深度挖掘:一刀切行不通
附录中的Table A3 Panel B&C已经强烈提示了行业异质性的存在。机器学习模型,特别是基于树的模型,天生擅长捕捉这种异质性。我们通过以下步骤进行深入挖掘:
4.1 行业分组与模型对比
一种策略是分行业训练模型。例如,对“化工”、“公用事业”、“高科技”等排放模式和治理结构差异巨大的行业,分别训练XGBoost模型。然后对比:
- BGD在各行业模型中的特征重要性排名:在环保压力大的行业(如化工、能源),BGD的重要性排名可能显著高于轻资产行业(如软件、媒体)。
- BGD的SHAP依赖图形态:不同行业中,BGD与EP关系的形状(线性、S型、阈值型)和阈值点可能完全不同。例如,在监管严格的公用事业部门,可能很早就出现正向影响;而在创新驱动的生物技术行业,影响可能更为复杂。
4.2 交互效应分析与解读
另一种更高效的方法是利用全局模型(全样本训练的模型)的SHAP交互值。SHAP可以计算出任意两个特征之间的交互效应贡献。我们可以重点考察“BGD”与“行业分类(编码后)”的交互SHAP值。
如何解读?如果某个特定行业(如“电子设备、仪器及元件”,代码对应一个高交互SHAP值)与BGD的交互值为正且很大,那就意味着,在这个行业里,董事会性别多样性对提升排放绩效的边际效应特别强。附录Table A3 Panel B中,该行业的系数为负且绝对值巨大(-179.44),可能反映了该行业本身极高的排放基准或技术挑战,但当与BGD结合时(Panel C的交互项为正且巨大,1.873),产生了强烈的正向调节作用。这暗示,在这个高复杂度的制造业中,多元化的董事会视角对于驾驭绿色技术转型至关重要。
行业异质性的根源可能在于:
- 监管压力与公众关注度:高污染行业(化工、能源)面临更强的外部压力,多元化的董事会可能更善于回应这些压力,从而加速绿色转型。
- 技术机遇与创新路径依赖:高科技行业(生物技术、软件)本身处于快速创新中,女性董事带来的协作与包容性文化,可能更有利于整合跨领域的环保技术创新。
- 资本密集度与转型成本:重资产行业(工业、公用事业)绿色转型成本高昂,决策更谨慎。多元化的董事会可能带来更全面的风险评估和长期视角,支持更具雄心的减排投资。
5. 机制检验:环境创新是那座桥吗?
机器学习揭示了“是什么”(BGD与EP相关)和“在何种情况下更强”(行业异质性),而传统计量经济学方法则更适合检验“为什么”,即中介机制。我们采用路径分析(Path Analysis)或结构方程模型(SEM)来检验“环境创新(EI)”的中介作用。
5.1 模型设定与步骤
我们建立以下中介效应模型,并最好使用滞后变量以增强因果推断:
- 路径A(BGD → L_EI):检验t期的董事会性别多样性是否影响t期的环境创新(或更严谨地,影响t+1期的EI)。
- 路径B(L_EI → EP):检验t期的环境创新是否影响t+1期的排放绩效。
- 直接效应(BGD → EP):在控制L_EI及其他变量后,BGD对EP的直接影响。
- 间接效应:路径A与路径B的乘积。
- 总效应:直接效应 + 间接效应。
5.2 结果解读与挑战
附录中的Table A2展示了一个可能的结果示例。我们看到:
- 路径A(BGD → L_EI):系数为负(-0.0257)且不显著(p=0.711)。这初步表明,在本样本和模型设定下,董事会性别多样性并未显著促进(或抑制)下一期的环境创新。
- 路径B(L_EI → EP):系数为正(0.1024)且高度显著(p=0.000)。这说明环境创新确实能显著提升未来的排放绩效,符合理论预期。
- 间接效应:由于路径A不显著,间接效应自然不显著(-0.0026, p=0.712)。
- 直接效应与总效应:BGD对EP的直接效应(0.2873)和总效应显著为正。
这个结果引出了一个重要的讨论点:中介效应不成立怎么办?这并不意味着研究失败,反而可能指向更复杂的机制:
- 测量误差:“环境创新”的代理变量(如专利数量、研发投入)可能无法完全捕捉那些隐性的、过程性的、非技术的环保管理创新,而这些可能正是多元化董事会所推动的。
- 调节效应而非中介效应:BGD可能不直接“导致”更多EI,而是强化了EI对EP的积极作用(即调节效应)。例如,在性别多元的董事会监督下,环保研发项目的执行效率更高、资源浪费更少。
- 其他并行中介:BGD可能通过其他未被检验的路径影响EP,例如提升董事会监督效率,从而减少环境违规;改善利益相关者沟通,从而获得更多绿色融资;增强风险厌恶,从而提前规避高碳投资。这些都需要未来研究进一步探索。
注意事项:进行中介分析时,必须严格控制行业、年份等固定效应,以排除遗漏变量偏差。同时,应考虑使用Bootstrap法(如5000次重复抽样)来检验间接效应的显著性,因为它比Sobel检验更稳健,尤其适用于非正态分布的数据。
6. 稳健性检验与内生性讨论
任何实证研究的结论都必须经过稳健性检验的锤炼。对于本研究,我们至少应从以下几个维度进行检验:
6.1 机器学习相关检验
- 模型稳健性:除了XGBoost,是否使用随机森林(Random Forest)、LightGBM甚至神经网络得到类似的特征重要性排序和SHAP模式?如果结论一致,则信心大增。
- 数据稳健性:
- 子样本分析:仅使用数据完整的样本(不插补)重新训练模型,观察BGD的重要性是否发生变化。
- 不同插补方法:尝试使用多重插补(MICE)或KNN插补,对比结果。
- 时间窗口:将样本期划分为早期和晚期,检验关系是否随时间稳定。
6.2 计量经济学相关检验
- 内生性处理:董事会性别多样性可能存在内生性(例如,排放绩效好的公司更倾向于任命女性董事)。尽管使用面板固定效应模型可以控制不随时间变化的公司特质,但为解决随时间变化的内生性,可尝试:
- 工具变量法(IV):寻找一个与BGD相关但不直接影响EP的工具变量,如同地区同行业其他公司的平均女性董事比例(同伴效应),或与性别平等相关的国家/地区政策变化。
- 动态面板GMM:将EP的滞后项纳入模型,控制部分动态内生性。
- 替代变量度量:
- BGD:使用虚拟变量(如女性比例是否>30%)、Blau指数或Shannon指数来衡量多样性。
- EP:使用绝对碳排放量(取对数)、碳强度(碳排放/营收)等其他度量。
- EI:使用绿色专利数量、环保研发投入占比等。
- 控制变量扩展:加入更多控制变量,如机构投资者持股比例(可能影响治理和环保)、管理层环保激励、国家层面的环保政策强度等。
7. 研究启示、局限与未来方向
7.1 对实践者的启示
- 对投资者而言:本研究表明,将董事会性别多样性作为ESG筛选因子具有合理性,但其环境效益因行业而异。投资者在构建绿色投资组合时,应进行更精细的行业分析。在高排放、高监管的行业,推动董事会性别多元化可能带来更显著的环境绩效改善和长期投资价值。
- 对企业而言:达到“临界质量”是关键。企业不应满足于象征性地任命一两位女性董事,而应致力于构建一个性别比例更为均衡(如达到30%或以上)的董事会,以充分发挥多元化认知资源在应对环境挑战、推动绿色创新方面的战略价值。
- 对政策制定者而言:支持诸如欧盟《董事会性别平衡指令》之类的强制性或“不遵守就解释”的多元化政策,具有实证依据。政策设计可考虑行业差异性,对转型压力大的行业给予更多指导或激励。
7.2 研究局限与未来方向
- 机制黑箱仍未完全打开:本研究虽检验了环境创新的中介作用未获支持,但未能完全揭示BGD影响EP的具体传导渠道。未来研究可结合问卷调查、案例分析等质性方法,深入董事会决策过程,探究女性董事究竟通过哪些具体议题、讨论方式和监督行为来影响环境战略。
- 多样性的多维性:本研究聚焦性别多样性。未来的研究可以探索年龄、国籍、专业背景等多维度多样性的交互影响,甚至研究董事会内“ faultlines ”(断层线)对环境决策的复杂作用。
- 动态与非线性:BGD与EP的关系可能是动态演化的。采用纵向研究设计或时间序列机器学习模型,可以追踪一家公司董事会构成变化后,其环境绩效如何随时间演变,并识别出效果显现的滞后期。
- 结合更丰富的非结构化数据:利用自然语言处理(NLP)分析董事会会议纪要、公司可持续发展报告,提取关于环保议题讨论的频度、深度和情感倾向,将其作为新的中介或调节变量,可以更直接地测量董事会的“绿色关注度”。
我个人在从事类似公司治理与ESG的交叉研究时,最深的一点体会是:数据驱动的方法(如ML+XAI)为我们提供了前所未有的、洞察复杂关系的“显微镜”,但它不能替代严谨的理论思考。机器学习告诉我们“哪里有关系”和“关系长什么样”,而理论告诉我们“为什么可能有关系”。将两者结合,先让数据揭示��式,再用理论去解释和验证这些模式,是推动这一领域从相关关系走向因果关系的关键。例如,本次研究中SHAP揭示的非线性“临界质量”效应,就是一个需要结合组织行为学中的“群体动力”理论来深入阐释的典型现象。忽略任何一方,都容易要么陷入数据挖掘的陷阱,要么困在理论空谈的象牙塔里。
