当前位置：首页 > news >正文

微软研究：大语言模型编辑工作文档易出错，平均退化率达 50%！

news 2026/7/2 19:40:31

大语言模型编辑文档易出错

三位微软研究人员的最新研究表明，大语言模型（LLM）在编辑工作文档时会引入大量错误。对 19 种大语言模型（LLM）完成和执行复杂多步骤任务能力的测试显示，这些模型不仅容易出错，而且在很多情况下并不可靠。这些研究结果包含在一篇预印本论文《当你委托大语言模型时，它们会损坏你的文档》中，该论文由微软研究人员菲利普·拉班（Philippe Laban）、托比亚斯·施纳贝尔（Tobias Schnabel）和詹妮弗·内维尔（Jennifer Neville）撰写，基于他们创建的一个名为 DELEGATE - 52 的基准测试，该测试使他们能够模拟知识工作者可能面临的工作流程。这篇论文目前正在审核中。

他们表示，这个基准测试涵盖了 52 个专业领域的 310 个工作环境，包括编码、晶体学、族谱学和乐谱记法等。每个环境包含总长度约 1.5 万个标记的真实文档，以及用户可能要求大语言模型执行的 5 到 10 个复杂编辑任务。他们在论文摘要中指出：“我们的分析表明，当前的大语言模型是不可靠的委托对象：它们会引入稀疏但严重的错误，这些错误会悄无声息地损坏文档，并且在长时间交互中不断累积。”他们认为这些错误非常严重。“研究结果显示，当前的大语言模型在编辑工作文档时会引入大量错误，前沿模型（Gemini 3.1 Pro、Claude 4.6 Opus 和 GPT 5.4）在 20 次委托交互后平均会丢失 25% 的文档内容，所有模型的平均退化率达到 50%。”

基准测试获认可

信息技术研究集团（Info - Tech Research Group）首席研究总监布莱恩·杰克逊（Brian Jackson）认为这些研究结果非常有趣。他说：“在不同工作领域对一系列大语言模型进行测试能带来很多有用的见解。我认为这种基准测试对那些希望利用智能体 AI 自动化特定工作流程并了解其能力极限的企业开发者会有帮助。”然而，他也表示：“我们不能因为这些基础模型在 20 次编辑后导致文档质量下降，就得出它们不能用于自动化某些领域工作的结论。这只是意味着以它们目前的构造，还无法完成所有工作。”但杰克逊指出：“在对输出准确性要求极高的企业环境中，不能采取这种方式。应该设计更完善的自动化流程，设置更强的防护措施以防止错误。可以通过使用多个扮演不同角色的智能体来实现，比如一个负责编辑，另一个负责检查错误并进行修正。”

灰狗研究公司（Greyhound Research）首席分析师桑奇特·维尔·戈吉亚（Sanchit Vir Gogia）表示：“应该将微软的这篇论文视为对委托式 AI 的严重警告，而不是宣称企业 AI 失败。这种区别很重要。这篇论文仍是预印本，需要谨慎对待，但它提出的核心问题正是首席信息官（CIO）应该思考的：AI 能否在多次委托过程中保持复杂工作的完整性？”他认为这项研究比他所说的“常见的 AI 基准测试闹剧”更有价值，因为它测试的是工作成果，而不仅仅是看巧妙的一次性回答。“它采用可逆编辑任务、特定领域评估器和往返方法，来检验文档在多次编辑后是否能保持完整。但在很多情况下，文档并不能保持完整。”戈吉亚解释说，“这不仅仅是幻觉问题，更是工件完整性的问题。”

AI 尚不可完全信赖

他补充说，研究的主要发现“令人不安：即使是最强的模型在长工作流程结束时也会损坏约四分之一的文档内容，所有测试模型的平均退化率约为 50%。论文还发现，模型的性能在不同领域差异很大。Python 是唯一大多数模型都‘就绪’的领域，最好的模型也仅在 52 个领域中的 11 个达到了这一标准。”戈吉亚表示，AI 失败不是因为它不会写作，而是因为它还无法保持文档的完整性。他指出，这项研究特别有用，因为它展示了错误是如何累积的。更大的文档会导致更差的结果，更长的交互会导致更差的结果，干扰文件也会导致更差的结果。短期测试会美化系统表现，而更长的工作流程则会暴露其问题。这与企业环境非常契合，在企业中，工作复杂、文件陈旧、上下文信息嘈杂，最重要的文档往往并非最简单的。

他说，坦诚的结论不是应该将 AI 排除在企业工作流程之外，而是委托式 AI 目前还不足以值得信赖，不能让它独自处理重要工件。戈吉亚警告说，当 AI 编辑重要文档，如合同、账本、政策、代码库、董事会文件或合规记录时，企业仍需对可能造成的损害负责。

缓解措施

为了防止这种损害，杰克逊建议企业可以对模型进行额外的训练和微调，使其更好地适应特定的工作流程：“这些基础模型擅长完成很多不同的任务，但在出色完成一项特定任务方面表现欠佳。因此，希望实现这一目标的企业可能需要利用自己的数据对模型进行训练来改进它们。”例如，“（微软论文）指出，有一种多智能体设置反而导致了更多的退化，所以检测退化的方法必须精心设计才能有效。”他说，“一些企业平台采用的另一种方法是通过数学验证来确定性地验证输出的准确性。因此，了解哪些领域对单个大语言模型来说更难自动化是很有用的，开发者可以计划在流程中增加更多验证步骤。”他还表示：“根据模型的不同，比如它是完全开源的还是专有的，在定制程度上会有更多的灵活性。因此，企业开发者可以参考这些研究结果，选择最擅长自动化他们所需领域的大语言模型，然后对其进行额外训练以掌握流程。”

人类角色转变

戈吉亚认为，这篇论文还揭示了比“AI 仍然需要人类”更确切的信息。“它表明 AI 使人类的角色从生产转变为监督、验证和承担责任。这与许多董事会讨论中所宣扬的运营模式截然不同。”他说，“人类不会消失，只是工作内容发生了变化。这对那些希望削减员工数量的企业来说是个难题。最能发现 AI 错误的人往往正是企业希望替换、裁减或重新调配的人。如果从工作流程中移除过多的领域专业知识，企业也就失去了那些能察觉 AI 悄悄破坏工作的人。”戈吉亚表示，专业知识变得更加重要，而非更不重要：“论文强化了这一点，因为更强的模型不仅会删除内容，还常常会损坏内容。较弱的模型在明显丢失材料时更容易被发现。前沿模型则更棘手，因为内容虽然仍存在，但已变得错误、扭曲或被微妙改变。这需要专业的审查，而不是随意的检查。”

查看全文

http://www.jsqmd.com/news/815756/