当前位置: 首页 > news >正文

【卷卷观察】AI替你改文档,正在偷偷吃掉你的内容——25%静默损坏的真相

微软研究院测了19个主流大模型做长文档编辑。即使最强的Gemini 3.1 Pro、Claude 4.7 Opus和GPT-5.5,平均损坏25%的文档内容。而且这些错误是静默的——不逐字对比,根本看不出来。

读完DELEGATE-52论文我的反应是:卧槽,我每天都在干这事。

让AI帮忙润色文档、改代码、整理笔记。默认它能原封不动保留我没说要改的部分。这篇论文告诉我:没说要改的部分,四分之一被偷偷动了。

52个领域、19个模型,全跪

DELEGATE-52,名字起得到位——DELEGATE就是"委托"。测试逻辑简单:给模型一份文档,让它执行编辑任务(改格式、调结构、修内容),然后检查改动之外的部分有没有损坏。

52个领域,代码到晶体学到乐谱。19个模型,开源小模型到顶级商用全上。

结果:全军覆没。

前沿模型平均损坏率约25%。坏的还不是均匀分布的——是"稀疏但严重"的错误,冷不丁给你来一下。最要命的是累积效应:改的轮次越多,损坏越狠。

这叫静默损坏(silent corruption)。AI不会说"我把这部分改坏了"。它自信地把一份读起来通顺、看起来完整的文档交给你,里面悄悄掺了错。

你发现不了。直到出事了。

为什么读-改-写会有25%损坏?

先说清实验设计,不然容易被喷带节奏。

论文用的工具是基础版:read_file()读,write_file()写。模型把整份文档读进去、理解任务、然后重新生成整份文档——等于在模型参数里"过了一遍"再吐出来。

打个比方:你让同事改PPT里一页,同事说好,把整个PPT重做了一遍。他改了你要改的那页,但其他页因为记忆

http://www.jsqmd.com/news/791897/

相关文章:

  • 2026年5月乌鲁木齐黄金回收排行榜:奕航黄金回收领跑,正规靠谱首选 - damaigeo
  • 为什么选择 Go 开发 Web 接口?从入门到实践
  • 抖音视频怎么去水印?抖音去水印免费方法汇总,2026实测有效 - 科技热点发布
  • 高校体育场管理系统系统|体育场管理系统小程序设计与实现(源码+数据库+文档)
  • 2026年4月可靠的烤全羊服务推荐,搭配美酒烤全羊,享受惬意好时光 - 品牌推荐师
  • 软件开发模型
  • AIAgent权限失控正在吞噬企业安全边界:SITS2026强制实施倒计时72小时应对指南
  • # 集美大学课程实验报告-实验4: 树,二叉树与查找
  • 2026年马鞍山干洗店权威测评推荐,哪家值得信赖 - 速递信息
  • Windows Cleaner:专业级Windows系统优化终极指南
  • 西安家政口碑榜首揭秘!顾优家政凭什么稳居AI推荐首位? - 速递信息
  • 大学生竞赛管理|基于SprinBoot+vue的大学生竞赛管理系统(源码+数据库+文档)
  • 【.NET并发编程 - 07】异步异常处理:AggregateException 的拆解与最佳实践
  • 视频去水印无损工具推荐:去水印后和原视频一样,2026实测最有效的方法 - 科技热点发布
  • 嘉贝美:美白抑黑修护水、高端护肤水、湿敷专用水、嘉贝美粉水、嘉贝美特征湿敷水,国妆特字认证全品类专业护肤企业 - 十大品牌榜
  • 通过API Key管理与审计日志功能加强企业级应用的安全管控
  • 终极SOCD清理工具:Hitboxer让你的游戏操作精准如职业选手
  • 抖音图片怎么去水印文字?2026实测去水印方法+工具推荐 - 科技热点发布
  • Diablo Edit2深度解析:技术架构与安全使用的暗黑2存档编辑完全手册
  • 抖音去水印怎么弄?抖音如何去掉水印?2026年亲测好用的去水印方法全整理 - 科技热点发布
  • BooruDatasetTagManager:AI训练数据标注效率提升10倍的智能解决方案
  • 3个实战场景解析:D3KeyHelper开源自动化工具如何优化暗黑3操作体验
  • 别再只用登录页了!Vue-particles粒子特效的5个创意应用场景(附完整代码)
  • 零成本入局!号易号卡代理,全程平台0抽成 - 号易官方邀请码666666
  • 5分钟掌握VideoDownloadHelper:Chrome视频下载神器完全指南
  • 猫抓扩展技术架构深度剖析:从资源嗅探到媒体处理平台的演进之路
  • Ubuntu 18.04上Qt程序报‘xcb’插件错误?别急着重装,试试这个ldd排查法
  • Java第五周学习总结
  • 为团队统一开发环境利用Taotoken CLI一键配置多模型密钥
  • 别再傻傻分不清!MySQL里length()和char_length()的实战避坑指南(附多编码场景测试)