当前位置：首页 > news >正文

CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty

news 2026/7/5 5:36:16

一、文章主要内容

本文针对现有大语言模型（LLM）智能体基准测试集中于理想场景下的任务完成率，却忽视真实应用中可靠性的问题，提出了面向车载语音助手领域的基准测试框架CAR-bench。该框架以多轮交互、工具使用、领域政策约束为核心，模拟真实车载环境的复杂性，系统评估LLM智能体的一致性、不确定性处理能力和能力边界认知。

CAR-bench包含六大核心组件：LLM模拟用户（带有人格属性和任务指令）、19项领域政策、58个跨导航、车辆控制等六大领域的互联工具、动态状态变量、固定上下文变量及多维度数据库（涵盖48个欧洲城市、130K兴趣点、170万路线等数据）。测试任务分为三类：基础任务（100项，验证任务完成与政策合规）、幻觉任务（90项，测试工具/信息缺失时的边界认知）、歧义消除任务（50项，评估通过内部信息收集或用户澄清解决模糊请求的能力）。

实验结果显示，即使最先进的推理型LLM也存在显著性能差距：所有模型的任务潜在能力（Pass@3）与稳定可靠性（Pass^{3）脱节，GPT-5在歧义消除任务中Pass@3达68%但Pass}3仅36%；任务难度呈现基础任务>幻觉任务>歧义消除任务的梯度，无模型在歧义消除任务中Pass^3超过50%；思考型模型整体表现优于非思考型模型，但仍受困于“完成请求优先于遵守政策”的固有张力，常见过早行动、政策违规、信息捏造等错误。

二、创新点

场景与框架创新：首个聚焦车载助手这一安全关键领域的动态基准，整合多轮对话、政策约束、互联工具和动态环境数据，填补了真实场景下LLM智能体可靠性评估的空白。
<

http://www.jsqmd.com/news/484768/

相关文章：

【AI游戏】Unity Barracuda神经网络推理

FAITHEVAL: CAN YOUR LANGUAGE MODEL STAYFAITHFUL TO CONTEXT, EVEN IF “THE MOON ISMADE OF MARSHMALLO

企业AI智能体进入“人机协作”新阶段：数字员工与人类员工的“混合劳动力”时代

2026年工业GEO/抖音运营营销服务商推荐指南 - 资讯焦点

2025_NIPS_SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

Python爬虫实战：构建高可用静态网页爬虫 - 以 Quotes 网站数据采集为例！

【AI游戏】Unity ChatGPT对话集成

如何通过正规平台高效完成沃尔玛购物卡回收和变现？ - 团团收购物卡回收

企业 AI 智能体：从 Demo 到规模化落地的技术架构与工程实践

Python爬虫实战：基于 Python 的多版本文档差异自动化追踪系统！

2026无锡AI优化公司/抖音运营推荐榜精准触达核心人群 - 资讯焦点

【LLM进阶-Agent】5. Plan Execute Agent 介绍

2026年敦煌口碑好的旅行社排名，天佑国际旅行社旅游服务靠谱吗 - mypinpai

C#常用类库-详解JetBrains.Annotations

Go 提案解读：heap/v2 —— 泛型堆终于来了！

华南诚信物流劳务派遣分包机构推荐榜 - 优质品牌商家

2026无锡GEO优化/ai优化服务商推荐榜精准触达工业客群 - 资讯焦点

C++面对对象

【即梦AI提示词】生图提示词推荐

探讨标远精工加工中心详细介绍，其价格多少钱合适 - 工业推荐榜

SecGPT-14B开源可部署：云起无垠发布首个专注网络安全的14B大模型

OpenClaw橙皮书

2026特殊场合轻奢高跟鞋优质品牌推荐 - 资讯焦点

ZooKeeper集群搭建

AC2100 OpenWrt 多账号单线多拨实战指南

2026铝镁锰屋面板图纸深化设计机构推荐，看哪家口碑好？ - 工业设备

鸿蒙开发实战：5分钟搞定系统级位置模拟器（附完整代码）

机器学习和深度学习基础

【紧急预警】MCP v2.8.1+本地连接器存在未公开的Connection Pool饥饿漏洞（CVE-2024-MCP-003已确认，补丁将于72小时后失效）

不想花冤枉钱？选降AI工具看这一篇就够了 - 我要发一区