摘要
多智能体通信协作以解决复杂问题,但通信框架存在安全问题。
Large Language Model-based Multi-Agent Sys-
tems (LLM-MAS) have revolutionized com-
plex problem-solving capability by enabling
sophisticated agent collaboration through
message-based communications. While the
communication framework is crucial for agent
coordination, it also introduces a critical yet
unexplored security vulnerability.
本文引入 AiTM ,通过拦截agent间的信息达到破坏整个智能体协作系统。通过在多种智能体编排框架下(不同的通信结构)与现实中的应用场景下实施攻击,以此说明现有通信框架鲁棒性不足,存在安全问题。
AiTM demonstrates how an
adversary can compromise entire multi-agent
systems by only manipulating the messages
passing between agents.
Our comprehensive evaluation across various frameworks,
communication structures, and real-world ap-
plications demonstrates that LLM-MAS is vul-
nerable to communication-based attacks, high-
lighting the need for robust security measures
in multi-agent systems.
引言
由单一agent过渡到多agent,通过说明多agent通信在多agent协作中的作用,引出通信框架安全的重要性。
存疑:
过去有人探索了第一个agent作为恶意agent,输入信息被恶意agent处理,指出本文将探索中间人攻击的agent前所未有

在去中心化的场景下(一个agent部署在单独的服务器上),agent间的通信易于被窃听(09,24俩篇文章),故本文不提及具体的窃听步骤。
本文提出的方法不修改Agent本身,只是拦截agent间信息。
当前方法的难点:
1.只能通过拦截操作信息本身,达到目的
2.由于(多agent协同中)每个agent都有自身的角色和能力,这就限制了对篡改信息的形式和内容。
For example, in a software development system, if
an agent is designed solely to analyze user require-
ments, it cannot inject malicious code into the final
product.
为何需要根据当前信息、上一条指令、目标来给出当前指令呢? 不转发,乱发不行么?
For
instance, assume the victim agent is participating in
a debate with another agent, the adversarial agent
can continuously assess the conversation’s dynam-
ics and adapt its instructions to direct the debate’s
outcome toward the malicious output
是不是因为对抗攻击的意图是让目标产生目的性的输出(就是让目标得出我们想要的结果),所以才不能乱发,不发?
传统的针对图像分类的对抗攻击中,通过施加像素加法形成对抗样本,对抗样本的制作过程中我们正是根据目标结果(我们想让分类模型预测当前对抗样本产生的标签结果)来不断优化扰动,最终形成一个对抗样本。输入该对抗样本到目标模型,目标模型输出错误预测(我们已知的,想要的标签)
