实验揭示:大语言模型委托工作不可靠,前沿模型平均损坏 25% 文档内容
计算机科学 > 计算与语言
arXiv:2604.15597(计算机科学)
[2026 年 4 月 17 日提交]
标题:委托大语言模型会损坏你的文档
作者:菲利普·拉班、托比亚斯·施纳贝尔、詹妮弗·内维尔
查看由菲利普·拉班、托比亚斯·施纳贝尔和詹妮弗·内维尔撰写的论文《委托大语言模型会损坏你的文档》的 PDF 版本。
查看 PDF HTML(实验版)
摘要
大语言模型(LLMs)有望颠覆知识工作,委托工作作为一种新的交互范式应运而生(例如氛围编程)。委托工作需要信任,即期望大语言模型能忠实地执行任务,不会在文档中引入错误。
我们引入了 DELEGATE - 52 来研究人工智能系统在委托工作流程中的就绪程度。DELEGATE - 52 模拟了需要对文档进行深度编辑的长委托工作流程,涵盖 52 个专业领域,如编码、晶体学和音乐记谱等。
我们对 19 个大语言模型进行的大规模实验表明,当前的模型在委托过程中会损坏文档:即使是前沿模型(Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4)在长工作流程结束时平均也会损坏 25% 的文档内容,其他模型的表现更差。
额外的实验显示,使用智能代理工具并不能提高在 DELEGATE - 52 上的性能,而且文档大小、交互时长或干扰文件的存在会加剧文档损坏的严重程度。
我们的分析表明,当前的大语言模型作为委托工具并不可靠:它们会引入稀疏但严重的错误,悄无声息地损坏文档,且在长时间交互中问题会不断加剧。
主题
| 计算与语言 (cs.CL);人机交互 (cs.HC) |
| --- |
引用方式
| [arXiv:2604.15597] [cs.CL] |
| (或针对此版本使用 [arXiv:2604.15597v1] [cs.CL]) |
| |
聚焦了解更多
arXiv 通过 DataCite 分配的 DOI
提交历史
来自:菲利普·拉班 [查看邮箱]
[v1]2026 年 4 月 17 日星期五 00:33:32 UTC(9,982 KB)
全文链接
查看由菲利普·拉班、托比亚斯·施纳贝尔和詹妮弗·内维尔撰写的论文《委托大语言模型会损坏你的文档》的 PDF 版本。
* 查看 PDF
* HTML(实验版)
* TeX 源代码
查看许可
当前浏览上下文
cs.CL
< 上一篇 | 下一篇 >
最新文章 | 近期文章 | 2026 年 4 月
切换浏览方式:
计算机科学
人机交互
参考文献与引用
* NASA ADS
* 谷歌学术
* 语义学者
导出 BibTeX 引用 加载中...
BibTeX 格式引用
×
加载中...
数据提供方:
书签
文献工具
### 文献与引用工具
文献浏览器切换
文献浏览器 _(什么是文献浏览器?)_
关联论文切换
关联论文 _(什么是关联论文?)_
Litmaps 切换
Litmaps _(什么是 Litmaps?)_
scite.ai 切换
scite 智能引用 _(什么是智能引用?)_
代码、数据、媒体
### 与本文相关的代码、数据和媒体
alphaXiv 切换
alphaXiv _(什么是 alphaXiv?)_
代码链接切换
CatalyzeX 论文代码查找器 _(什么是 CatalyzeX?)_
DagsHub 切换
DagsHub _(什么是 DagsHub?)_
GotitPub 切换
Gotit.pub _(什么是 GotitPub?)_
Huggingface 切换
Hugging Face _(什么是 Huggingface?)_
ScienceCast 切换
ScienceCast _(什么是 ScienceCast?)_
演示
### 演示
Replicate 切换
Replicate _(什么是 Replicate?)_
Spaces 切换
Hugging Face Spaces _(什么是 Spaces?)_
Spaces 切换
TXYZ.AI _(什么是 TXYZ.AI?)_
相关论文
### 推荐器和搜索工具
影响力花图链接
影响力花图 _(什么是影响力花图?)_
CORE 推荐器切换
CORE 推荐器 _(什么是 CORE?)_
* 作者
* 会议
* 机构
* 主题
关于 arXivLabs
### arXivLabs:与社区合作伙伴开展的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和共享新的 arXiv 功能。
与 arXivLabs 合作的个人和组织都认同并接受我们的开放、社区、卓越和用户数据隐私价值观。arXiv 致力于这些价值观,只与遵守这些价值观的合作伙伴合作。
你是否有能为 arXiv 社区增值的项目想法?了解更多关于 arXivLabs 的信息。
本文的哪些作者是认可者? | 禁用 MathJax (什么是 MathJax?)
* 关于
* 帮助
* 联系 arXiv 点击此处联系 arXiv
* 订阅 arXiv 邮件 点击此处订阅
* 版权
* 隐私政策
* 网络无障碍协助
* arXiv 运行状态
