当前位置: 首页 > news >正文

CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty

一、文章主要内容

本文针对现有大语言模型(LLM)智能体基准测试集中于理想场景下的任务完成率,却忽视真实应用中可靠性的问题,提出了面向车载语音助手领域的基准测试框架CAR-bench。该框架以多轮交互、工具使用、领域政策约束为核心,模拟真实车载环境的复杂性,系统评估LLM智能体的一致性、不确定性处理能力和能力边界认知。

CAR-bench包含六大核心组件:LLM模拟用户(带有人格属性和任务指令)、19项领域政策、58个跨导航、车辆控制等六大领域的互联工具、动态状态变量、固定上下文变量及多维度数据库(涵盖48个欧洲城市、130K兴趣点、170万路线等数据)。测试任务分为三类:基础任务(100项,验证任务完成与政策合规)、幻觉任务(90项,测试工具/信息缺失时的边界认知)、歧义消除任务(50项,评估通过内部信息收集或用户澄清解决模糊请求的能力)。

实验结果显示,即使最先进的推理型LLM也存在显著性能差距:所有模型的任务潜在能力(Pass@3)与稳定可靠性(Pass3)脱节,GPT-5在歧义消除任务中Pass@3达68%但Pass3仅36%;任务难度呈现基础任务>幻觉任务>歧义消除任务的梯度,无模型在歧义消除任务中Pass^3超过50%;思考型模型整体表现优于非思考型模型,但仍受困于“完成请求优先于遵守政策”的固有张力,常见过早行动、政策违规、信息捏造等错误。

二、创新点

  1. 场景与框架创新:首个聚焦车载助手这一安全关键领域的动态基准,整合多轮对话、政策约束、互联工具和动态环境数据,填补了真实场景下LLM智能体可靠性评估的空白。
  2. <
http://www.jsqmd.com/news/484768/

相关文章:

  • 【AI游戏】Unity Barracuda神经网络推理
  • FAITHEVAL: CAN YOUR LANGUAGE MODEL STAYFAITHFUL TO CONTEXT, EVEN IF “THE MOON ISMADE OF MARSHMALLO
  • 企业AI智能体进入“人机协作”新阶段:数字员工与人类员工的“混合劳动力”时代
  • 2026年工业GEO/抖音运营营销服务商推荐指南 - 资讯焦点
  • 2025_NIPS_SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
  • Python爬虫实战:构建高可用静态网页爬虫 - 以 Quotes 网站数据采集为例!
  • 【AI游戏】Unity ChatGPT对话集成
  • 如何通过正规平台高效完成沃尔玛购物卡回收和变现? - 团团收购物卡回收
  • 企业 AI 智能体:从 Demo 到规模化落地的技术架构与工程实践
  • Python爬虫实战:基于 Python 的多版本文档差异自动化追踪系统!
  • 2026无锡AI优化公司/抖音运营推荐榜 精准触达核心人群 - 资讯焦点
  • 【LLM进阶-Agent】5. Plan Execute Agent 介绍
  • 2026年敦煌口碑好的旅行社排名,天佑国际旅行社旅游服务靠谱吗 - mypinpai
  • C#常用类库-详解JetBrains.Annotations
  • Go 提案解读:heap/v2 —— 泛型堆终于来了!
  • 华南诚信物流劳务派遣分包机构推荐榜 - 优质品牌商家
  • 2026无锡GEO优化/ai优化服务商推荐榜精准触达工业客群 - 资讯焦点
  • C++面对对象
  • 【即梦AI提示词】生图提示词推荐
  • 探讨标远精工加工中心详细介绍,其价格多少钱合适 - 工业推荐榜
  • SecGPT-14B开源可部署:云起无垠发布首个专注网络安全的14B大模型
  • OpenClaw橙皮书
  • 2026特殊场合轻奢高跟鞋优质品牌推荐 - 资讯焦点
  • ZooKeeper集群搭建
  • AC2100 OpenWrt 多账号单线多拨实战指南
  • 2026铝镁锰屋面板图纸深化设计机构推荐,看哪家口碑好? - 工业设备
  • 鸿蒙开发实战:5分钟搞定系统级位置模拟器(附完整代码)
  • 机器学习和深度学习基础
  • 【紧急预警】MCP v2.8.1+本地连接器存在未公开的Connection Pool饥饿漏洞(CVE-2024-MCP-003已确认,补丁将于72小时后失效)
  • 不想花冤枉钱?选降AI工具看这一篇就够了 - 我要发一区