当前位置：首页 > news >正文

比对智能体，偏置群体：多智能体系统中的偏置放大测量

news 2026/6/16 2:56:29

摘要

尽管多智能体系统正越来越多地部署于复杂工作流中，但其涌现特性——尤其是偏见的累积机制——仍鲜为人知。由于现实世界中的多智能体系统过于复杂而难以全面分析，评估其伦理鲁棒性首先需要剥离其基础运行机制。

本文开展了一项基线实证研究，探究基本的多智能体系统拓扑结构与反馈回路如何影响偏见。与多智能体协作自然稀释偏见的假设相反，我们提出，结构化的工作流会充当回音室，将微小的随机性偏见放大为系统性的极化。为验证这一假设，我们提出了Discrim-Eval-Open，这是一个开放式基准测试，通过强制在人口统计群体之间进行比较性判断，绕过单个模型的表面中立性。

通过分析偏见在不同结构中的级联效应，我们发现，架构的复杂程度往往加剧而非缓解偏见。我们观察到，即使在孤立智能体保持中立的情况下，系统层面的偏见仍会放大；此外，我们还发现了一种“触发脆弱性”——注入完全客观的中性文本会急剧加速极化进程。通过剥离高级的群体智能复杂性，研究基础运行机制，我们建立了一个关键基线：结构复杂性并不保证伦理鲁棒性。

引言

当前人工智能图景正受到两大变革性趋势的塑造。首先，单个大语言模型及自动化基座已在复杂推理和自主问题求解方面展现出前所未有的能力。其次，我们正见证着从部署这些孤立模型向构建协作式多智能体系统的范式转变。通过利用角色分工和任务分解，多智能体系统框架整合了单个智能体的优势，以执行极其复杂、长周期的工作流。这种协作的力量极为强大，例如互联的智能体团队能够自主从头编写超过十万行代码的庞大代码库。通过将智能体组织成这些协作拓扑结构，我们可以将原始的模型能力转化为显著的实践价值。

然而，随着多智能体系统越来越多地用于编排这些高风险任务，一个关键脆弱性也随之显现。尽管通过密集的对齐工作，在缓解单个模型的社会偏见和错误方面已取得了显著进展，但在网络化多智能体系统中，不确定性、错误和潜在偏见如何累积或消减，仍然很大程度上未被探索。在单智能体环境中，模型在静态基准测试上可能表现出表面上的中立性。但在多智能体系统中，智能体在结构化的交互图中运行，一个智能体的输出——通常被赋予特定的角色人格或功能角色——会作为另一个智能体的真实依据。一个虽然充满希望但尚未验证的假设是：通过引入多样的视角和结构化的通信协议，多智能体系统或许能自然抵消偏见的放大效应。我们持相反观点：这些复杂的拓扑结构充当了共振腔，微小的随机性偏见通过系统的反馈回路被广播并放大，导致类似于意见极化的级联效应。

为了系统性地探究多智能体系统架构究竟是真正缓解了偏见，还是内在地加剧了这种偏见放大，我们提出了Discrim-Eval-Open。该基准测试旨在规避现代大语言模型的表现性中立，采用三选项开放式格式，强制在包括性别、年龄和种族在内的敏感属性之间进行比较性判断。通过避免模型默认选择安全、中间答案的二元格式，Discrim-Eval-Open 提供了一个高灵敏度的测试平台。此外，我们不依赖标准的分类错误率，而是将偏见视为在智能体链条中级联的分布偏移。为了量化这一点，我们提出了一套聚焦于概率输出极端程度的新指标，包括基尼系数、方差和熵，以精确衡量在不同系统深度下的意见极化程度和偏见持续性。

我们的系统性评估探索了多智能体系统内部的多个架构杠杆。首先，我们通过分配多样化的人格（如医生、律师）和功能角色（如分析师、反思者）来检验智能体专业化，以测试不同的视角是否能抑制放大效应。其次，我们通过设计复杂的交互图（串联、并行和全连接结构）来评估通信拓扑结构，并评估系统深度的影响。我们的研究结果揭示了一个发人深省的现实：那些旨在增强多智能体系统性能的架构复杂性，往往成为偏见放大的催化剂。在所有测试的配置中，偏见都持续累积，多智能体系统表现出系统性的偏好（例如偏好较年轻年龄组、女性和黑人群体），即使单个基础模型名义上是中立的。此外，我们识别出一个关键的“触发脆弱性”：向系统中注入完全客观的中性文本——模拟标准的检索增强生成增强框架——会触发剧烈的极化，暴露出系统级鲁棒性的极端脆弱性。

查看全文

http://www.jsqmd.com/news/640907/