当前位置：首页 > news >正文

实验揭示：大语言模型委托工作不可靠，前沿模型平均损坏 25% 文档内容

news 2026/7/5 14:36:57

计算机科学 > 计算与语言

arXiv:2604.15597（计算机科学）
[2026 年 4 月 17 日提交]

标题：委托大语言模型会损坏你的文档

作者：菲利普·拉班、托比亚斯·施纳贝尔、詹妮弗·内维尔
查看由菲利普·拉班、托比亚斯·施纳贝尔和詹妮弗·内维尔撰写的论文《委托大语言模型会损坏你的文档》的 PDF 版本。
查看 PDF HTML（实验版）

摘要

大语言模型（LLMs）有望颠覆知识工作，委托工作作为一种新的交互范式应运而生（例如氛围编程）。委托工作需要信任，即期望大语言模型能忠实地执行任务，不会在文档中引入错误。
我们引入了 DELEGATE - 52 来研究人工智能系统在委托工作流程中的就绪程度。DELEGATE - 52 模拟了需要对文档进行深度编辑的长委托工作流程，涵盖 52 个专业领域，如编码、晶体学和音乐记谱等。
我们对 19 个大语言模型进行的大规模实验表明，当前的模型在委托过程中会损坏文档：即使是前沿模型（Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4）在长工作流程结束时平均也会损坏 25% 的文档内容，其他模型的表现更差。
额外的实验显示，使用智能代理工具并不能提高在 DELEGATE - 52 上的性能，而且文档大小、交互时长或干扰文件的存在会加剧文档损坏的严重程度。
我们的分析表明，当前的大语言模型作为委托工具并不可靠：它们会引入稀疏但严重的错误，悄无声息地损坏文档，且在长时间交互中问题会不断加剧。

主题

| 计算与语言 (cs.CL)；人机交互 (cs.HC) |
| --- |

引用方式

提交历史

来自：菲利普·拉班 [查看邮箱]
[v1]2026 年 4 月 17 日星期五 00:33:32 UTC（9,982 KB）

全文链接

查看由菲利普·拉班、托比亚斯·施纳贝尔和詹妮弗·内维尔撰写的论文《委托大语言模型会损坏你的文档》的 PDF 版本。
* 查看 PDF
* HTML（实验版）
* TeX 源代码
查看许可

当前浏览上下文

cs.CL
< 上一篇 | 下一篇 >
最新文章 | 近期文章 | 2026 年 4 月
切换浏览方式：
计算机科学
人机交互

参考文献与引用

* NASA ADS
* 谷歌学术
* 语义学者
导出 BibTeX 引用加载中...

BibTeX 格式引用

×
加载中...

数据提供方：

书签

文献工具

### 文献与引用工具
文献浏览器切换
文献浏览器 _(什么是文献浏览器？)_
关联论文切换
关联论文 _(什么是关联论文？)_
Litmaps 切换
Litmaps _(什么是 Litmaps？)_
scite.ai 切换
scite 智能引用 _(什么是智能引用？)_

代码、数据、媒体

### 与本文相关的代码、数据和媒体
alphaXiv 切换
alphaXiv _(什么是 alphaXiv？)_
代码链接切换
CatalyzeX 论文代码查找器 _(什么是 CatalyzeX？)_
DagsHub 切换
DagsHub _(什么是 DagsHub？)_
GotitPub 切换
Gotit.pub _(什么是 GotitPub？)_
Huggingface 切换
Hugging Face _(什么是 Huggingface？)_
ScienceCast 切换
ScienceCast _(什么是 ScienceCast？)_

演示

### 演示
Replicate 切换
Replicate _(什么是 Replicate？)_
Spaces 切换
Hugging Face Spaces _(什么是 Spaces？)_
Spaces 切换
TXYZ.AI _(什么是 TXYZ.AI？)_

关于 arXivLabs

### arXivLabs：与社区合作伙伴开展的实验项目
arXivLabs 是一个框架，允许合作伙伴直接在我们的网站上开发和共享新的 arXiv 功能。
与 arXivLabs 合作的个人和组织都认同并接受我们的开放、社区、卓越和用户数据隐私价值观。arXiv 致力于这些价值观，只与遵守这些价值观的合作伙伴合作。
你是否有能为 arXiv 社区增值的项目想法？了解更多关于 arXivLabs 的信息。
本文的哪些作者是认可者？ | 禁用 MathJax (什么是 MathJax？)
* 关于
* 帮助
* 联系 arXiv 点击此处联系 arXiv
* 订阅 arXiv 邮件点击此处订阅
* 版权
* 隐私政策
* 网络无障碍协助
* arXiv 运行状态

查看全文

http://www.jsqmd.com/news/788405/