当前位置: 首页 > news >正文

上海AI Lab:轻量级智能体安全对齐框架

📖标题:AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
🌐来源:arXiv, 2605.29801v1

🛎️文章简介
🔸研究问题:如何解决开放世界AI智能体面临的新型安全风险及现有对齐框架部署成本高的问题?
🔸主要贡献:论文提出了轻量可扩展的AgentDoG 1.5框架,仅用千条样本训练小模型即实现媲美前沿大模型的安全防护效果。

📝重点思路
🔸更新三维安全分类体系,针对Codex和OpenClaw场景扩展风险源、失败模式及现实危害标签,构建ATBench基准家族以支持细粒度诊断。
🔸设计分类引导的数据引擎,利用影响力函数净化数据,筛选出约1k条高价值样本,结合思维链增强与软平衡策略构建高质量训练集。
🔸采用SFT与GDPO强化学习两阶段训练,通过多维奖励解耦优化,使0.8B至8B参数量的轻量模型具备精准的安全判断与归因能力。
🔸构建有限状态模拟环境替代Docker容器,将RL训练资源开销降低两个数量级,支持单机万级并发,并利用模型过滤SFT数据及提供RL奖励信号。
🔸部署无训练在线护栏系统,在智能体回复前进行轨迹级审计,实时拦截跨步骤累积风险,兼顾低延迟与高安全性。

🔎分析总结
🔸AgentDoG 1.5-4B在R-Judge和ATBench上准确率分别达92.2%和72.4%,性能对标GPT-5.4等闭源模型,显著优于LlamaGuard等传统护栏。
🔸细粒度诊断能力突出,平均诊断得分55.2%,远超通用大模型,证明专用轨迹级监督比单纯扩大模型规模更有效。
🔸在SFT阶段使用AgentDoG过滤数据,可将危害评分从57.49降至20.32,同时保持函数调用能力;联合SFT与RL训练进一步提升了安全与效用的平衡。
🔸作为在线护栏时,4B模型将OpenClaw的不安全交付率从56.25%降至18.75%,且首字延迟低于0.3秒,验证了实际部署的可行性。
🔸轻量化环境在万级并发下内存占用稳定在2.5GB以内,证明了该框架在资源受限条件下的极高可扩展性。

💡个人观点
论文打破了“安全对齐依赖大模型”的固有认知,通过精细化的数据提纯与结构化诊断任务,将复杂的安全推理能力成功蒸馏至极小参数模型。

http://www.jsqmd.com/news/980423/

相关文章:

  • 微信公众号文章批量下载工具
  • 2026好用视频去水印工具推荐:热门视频水印去除利器实测
  • 计算机毕业设计之基于Hadoop的招聘网站数据分析系统的设计与实现
  • C语言学生管理系统双版本:数组静态存储+链表动态管理,带完整交互菜单与文件读写
  • 云南系统窗定制厂家实测排行:5家靠谱品牌盘点 - 奔跑123
  • 精选延吉6家正宗现压荞麦冷面,都是本地人认可、冰碴牛骨汤、现压现煮。 - 讲清楚了
  • MAA明日方舟助手:一键解放双手的智能自动辅助工具完全指南
  • 如何提升产学研合作项目的落地成功率?
  • 终极解密指南:5分钟解锁网易云音乐NCM格式,实现音乐自由播放
  • 私密文件共享工具怎么选?主流 4 大阵营对比与企业级避坑指南
  • 协议映射实战:用Python构建无损彩虹通道
  • 杰林码JLM音频SDK:含ARM/x86/RISC-V多架构库的C语言音频编解码工具包
  • 5个能算清ROI的企业级AI Agent落地实践
  • 别只知道写代码了!这个“小本本”能换钱、加分、省税,90%的程序员都忽略了
  • selenium自动化脚本基础语句
  • 2026年北京钻石回收怎么选?朝阳区头部商家综合对比,避开品牌溢价陷阱 - 薛定谔的梨花猫
  • 文件共享服务器 文件夹权限设置
  • GTA5线上小助手:免费开源工具,彻底改变你的洛圣都体验
  • 深度解析 PE瓶:核心特性、应用场景与优质生产厂家实践 - 速递信息
  • AI入门三阶路径:从调用到构建的90天实操指南
  • ROS2 编译与运行基本流程:colcon build、source 与 ros2 run 一文搞懂
  • C# WinForms直连S7-1200实操包:含S7.Net.dll、可运行工程与DB读写完整代码
  • 2026 终极攻防变局:深度拆解 MITRE ATTCK ER8 企业安全评估路线图与微观技术实战
  • ncmdump终极指南:快速免费解密网易云音乐NCM格式,实现跨平台音乐自由
  • 机器学习生产化:从Notebook到高可用AI系统的工程实践
  • 硬盘文件系统:FAT32、NTFS与exFAT
  • 用系统时间一键生成梅花易数三卦的Python小工具
  • 石家庄市海尔空调维修师傅电话|各区金牌师傅,靠谱选欧米到家 - 欧米到家
  • N皇后遗传算法实战:从Matlab到Python的工程化落地
  • Pandas多维聚合生产实践:从groupby到高管看板的工程化落地