当前位置: 首页 > news >正文

实验揭示:大语言模型委托工作不可靠,前沿模型平均损坏 25% 文档内容

计算机科学 > 计算与语言

arXiv:2604.15597(计算机科学)
[2026 年 4 月 17 日提交]

标题:委托大语言模型会损坏你的文档

作者:菲利普·拉班、托比亚斯·施纳贝尔、詹妮弗·内维尔
查看由菲利普·拉班、托比亚斯·施纳贝尔和詹妮弗·内维尔撰写的论文《委托大语言模型会损坏你的文档》的 PDF 版本。
查看 PDF HTML(实验版)

摘要

大语言模型(LLMs)有望颠覆知识工作,委托工作作为一种新的交互范式应运而生(例如氛围编程)。委托工作需要信任,即期望大语言模型能忠实地执行任务,不会在文档中引入错误。
我们引入了 DELEGATE - 52 来研究人工智能系统在委托工作流程中的就绪程度。DELEGATE - 52 模拟了需要对文档进行深度编辑的长委托工作流程,涵盖 52 个专业领域,如编码、晶体学和音乐记谱等。
我们对 19 个大语言模型进行的大规模实验表明,当前的模型在委托过程中会损坏文档:即使是前沿模型(Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4)在长工作流程结束时平均也会损坏 25% 的文档内容,其他模型的表现更差。
额外的实验显示,使用智能代理工具并不能提高在 DELEGATE - 52 上的性能,而且文档大小、交互时长或干扰文件的存在会加剧文档损坏的严重程度。
我们的分析表明,当前的大语言模型作为委托工具并不可靠:它们会引入稀疏但严重的错误,悄无声息地损坏文档,且在长时间交互中问题会不断加剧。

主题

| 计算与语言 (cs.CL);人机交互 (cs.HC) |
| --- |

引用方式

| [arXiv:2604.15597] [cs.CL] |
| (或针对此版本使用 [arXiv:2604.15597v1] [cs.CL]) |
| |
聚焦了解更多
arXiv 通过 DataCite 分配的 DOI

提交历史

来自:菲利普·拉班 [查看邮箱]
[v1]2026 年 4 月 17 日星期五 00:33:32 UTC(9,982 KB)

全文链接

查看由菲利普·拉班、托比亚斯·施纳贝尔和詹妮弗·内维尔撰写的论文《委托大语言模型会损坏你的文档》的 PDF 版本。
* 查看 PDF
* HTML(实验版)
* TeX 源代码
查看许可

当前浏览上下文

cs.CL
< 上一篇 | 下一篇 >
最新文章 | 近期文章 | 2026 年 4 月
切换浏览方式:
计算机科学
人机交互

参考文献与引用

* NASA ADS
* 谷歌学术
* 语义学者
导出 BibTeX 引用 加载中...

BibTeX 格式引用

×
加载中...

数据提供方:

书签

文献工具

### 文献与引用工具
文献浏览器切换
文献浏览器 _(什么是文献浏览器?)_
关联论文切换
关联论文 _(什么是关联论文?)_
Litmaps 切换
Litmaps _(什么是 Litmaps?)_
scite.ai 切换
scite 智能引用 _(什么是智能引用?)_

代码、数据、媒体

### 与本文相关的代码、数据和媒体
alphaXiv 切换
alphaXiv _(什么是 alphaXiv?)_
代码链接切换
CatalyzeX 论文代码查找器 _(什么是 CatalyzeX?)_
DagsHub 切换
DagsHub _(什么是 DagsHub?)_
GotitPub 切换
Gotit.pub _(什么是 GotitPub?)_
Huggingface 切换
Hugging Face _(什么是 Huggingface?)_
ScienceCast 切换
ScienceCast _(什么是 ScienceCast?)_

演示

### 演示
Replicate 切换
Replicate _(什么是 Replicate?)_
Spaces 切换
Hugging Face Spaces _(什么是 Spaces?)_
Spaces 切换
TXYZ.AI _(什么是 TXYZ.AI?)_

相关论文

### 推荐器和搜索工具
影响力花图链接
影响力花图 _(什么是影响力花图?)_
CORE 推荐器切换
CORE 推荐器 _(什么是 CORE?)_
* 作者
* 会议
* 机构
* 主题

关于 arXivLabs

### arXivLabs:与社区合作伙伴开展的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和共享新的 arXiv 功能。
与 arXivLabs 合作的个人和组织都认同并接受我们的开放、社区、卓越和用户数据隐私价值观。arXiv 致力于这些价值观,只与遵守这些价值观的合作伙伴合作。
你是否有能为 arXiv 社区增值的项目想法?了解更多关于 arXivLabs 的信息
本文的哪些作者是认可者? | 禁用 MathJax (什么是 MathJax?)
* 关于
* 帮助
* 联系 arXiv 点击此处联系 arXiv
* 订阅 arXiv 邮件 点击此处订阅
* 版权
* 隐私政策
* 网络无障碍协助
* arXiv 运行状态

http://www.jsqmd.com/news/788405/

相关文章:

  • qmcdump终极指南:5分钟快速解密QQ音乐加密格式的完整解决方案
  • Dell G15散热控制终极指南:3分钟告别AWCC卡顿与臃肿
  • 【12.MyBatis源码剖析与架构实战】MyBatis与设计模式-10. 责任链模式
  • 从零构建角色定制应用:技术架构、核心难点与实现方案
  • 影刀RPA企业级店群自动化架构:多浏览器并发与核心业务防泄密实战
  • FunClip视频剪辑终极指南:3分钟快速上手AI智能剪辑
  • CANN/cann-recipes-train:基于verl框架和代码沙盒环境的代码强化学习实践
  • 声明式CLI交互工具cli-jaw:构建优雅命令行界面的新范式
  • 【毕业设计项目】大数据文献综述管理系统:Hadoop/Spark 选题库、参考文献、LaTeX 提交与评分统计
  • 3个实战场景:用Windows Cleaner专业解决Windows系统空间管理难题
  • LlamaPen:基于Web的Ollama图形化界面,实现本地大模型高效交互
  • Parsec VDD虚拟显示器深度解析:从架构设计到性能调优的完整指南
  • QMCDecode:3步解锁QQ音乐加密格式,让音乐文件重获自由
  • 为OpenClaw AI工作流注入安全审计能力:trust-openclaw实战指南
  • 基于FPGA硬件加速的ANN体温检测系统:从算法到芯片的完整实现
  • 3步解锁Zotero插件市场:一站式插件管理终极指南
  • OBS多路推流插件:一键同步多平台直播的专业解决方案
  • 3步解决百度网盘限速难题:baidu-wangpan-parse工具实战指南
  • Dell G15终极散热控制指南:3分钟掌握开源神器TCC完整教程
  • GTA5线上小助手:完全免费的洛圣都游戏体验增强工具完整指南
  • 开源技能网关Skills Gateway:微服务架构下的团队技能管理与评估平台实践
  • Webpack插件实现浏览器日志实时转发至终端,提升前端调试效率
  • 查看用量分析报告优化个人开发者的月度大模型预算
  • 微信网页版无法访问?开源插件wechat-need-web帮你轻松解决
  • 像素-空间精准映射,重构真孪生底层架构——全栈自研技术赋能,打造实景孪生标杆方案
  • 如何通过GTA5OnlineTools提升GTA5线上模式开发效率与游戏体验
  • 终极指南:如何绕过百度网盘限速,实现2MB/s高速下载 [特殊字符]
  • 告别插件管理烦恼:Zotero插件市场让你的学术研究效率提升300%
  • 如何告别黄牛票:大麦网Python自动化抢票脚本完整指南
  • Cursor AI 编辑器规则集实战:提升代码规范与团队协作效率