当前位置：首页 > news >正文

你怎么知道AI真的做对了？我花了三个月才想明白这个问题

news 2026/4/16 3:23:20

你怎么知道AI真的做对了？我花了三个月才想明白这个问题

用AI写代码这件事，最让人上头的不是它能写多快，而是它总能用一种“我绝对没问题”的语气给你输出结果。然后你看着那个结果，心里开始打鼓：这玩意儿到底对不对？

我经历过三个阶段。第一阶段是“盲目信任期”——看到代码跑通了就觉得牛逼；第二阶段是“疑神疑期”——每行代码都要人工过一遍，比不用AI还累；第三阶段是现在的“工程化验证期”——建立了一套判断AI到底做没做对的方法。今天就把这套东西摊开来聊聊。

别被“跑通了”骗了

先讲一个真实翻车案例。上个月我用Claude Code重构一个数据处理脚本，原脚本处理一万条记录要45秒，AI信誓旦旦说优化后只要3秒。我跑了一下，确实3秒出结果，数据量也对。正要合并代码的时候，多留了个心眼——抽查了10条原始数据和结果的对应关系。

结果发现一个恐怖的事情：AI把数据去重逻辑写错了。它用了一个“看起来更高效”的哈希方法，但哈希碰撞导致原本不重复的200多条记录被错误合并了。程序跑通了，没有报错，甚至性能数据漂亮得不行。但结果是错的。

这就是第一个要命的问题：AI擅长让你相信它做对了，因为它的输出格式永远是自信满满的。它不会像人类程序员那样说“我不确定这个边界条件有没有覆盖到”。模型没有“不确定”这个情绪，它只会给你最可能的token序列，而这个序列恰好长得很像正确答案。

那怎么办？我的血泪教训是：永远不要用“有没有报错”来判断正确性。报错至少说明它错了，不报错反而更危险。

我的三层验证体系

踩了足够多的坑之后，我给自己定了一套规矩，任何AI生成的重要代码都必须经过这三层过滤。

第一层：单元测试的对抗性改写。

常规做法是让AI写单元测试，然后跑通。这不够。我现在会让AI“故意破坏”自己的代码——比如“请在这个函数里插入一个逻辑错误，不要告诉我插在哪里”。然后我运行测试，看能不能抓到。如果抓不到，说

查看全文

http://www.jsqmd.com/news/648045/

2026年比较好的一次性盘子批量采购厂家推荐 - 行业平台推荐

UE5开发必看：5种防止UObject被GC回收的实用技巧（附代码示例）

开源数据大屏AJ-Report：从零搭建到酷炫展示的全流程指南

源码解读：拿下顶会最佳论文的重建式VLA，是如何实现的！

iMetaMed | 王诗翔/罗鹏/李剑峰/曾健明—Bizard 平台：加速与提升生物医学数据可视化

叶片泵的结构设计及造型（论文+CAD图纸+三维图+动画仿真……）

嵌入式系统设计实践

Leaflet图层顺序实战：如何用setZIndex和bringToFront控制地图元素层级（附常见问题）

有孩家庭接送场景混动车型实证测评：座舱健康与续航便捷性核心指标对比研究

多模态导航应用全栈拆解，从视觉-语音-IMU融合建模到端侧推理压缩实战

终极指南：5分钟快速掌握B站视频转文字开源工具bili2text

GLM-4.1V-9B-Base实操手册：如何构造鲁棒提问避免‘无法回答’类失败响应

视频转PPT终极指南：3分钟实现智能内容提取

用骗孩子压岁钱的故事，来解释AI 技术

如何在 Laravel 中正确保存嵌套动态表单数据（主服务 + 子服务）

光储融合监控系统：构建新能源电站智能运维新范式

科沃斯 Deebot X12 扫地机器人上市，1499 美元解锁顽固污渍清洁新体验

探索JavaScript中的生命游戏：细胞自动机的实现

2026年培训机构广告灯箱源头厂商实力分享，亮欣灯箱为何成为教育机构首选解决方案

从相亲到同居：用“Perfect Negotiation”模式重构你的WebRTC信令代码，告别SDP冲突噩梦

Codex 前端实战：AI 能画出设计稿，也能写代码，但如何让它不再“像 AI 做的”？

学习资料连接

【Rust日报】farben: 用标记式语法设置终端色彩和样式

终极Windows安卓应用安装指南：如何快速批量安装APK文件

动手学深度学习——使用注意力机制的 Seq2Seq 代码

智慧树刷课插件终极指南：5分钟实现自动化学习，效率提升300%

AI Agent进化基础教程（非常详细）：从聊天机器人到自主工作系统，看这一篇就够了！

Python的__enter__异常保证

可编程直流电源选型指南：为什么IT8511A+成为电子测试实验室的标配设备？

【GitHub项目推荐--InkOS：把 AI 写小说变成“全自动流水线”】