当前位置：首页 > news >正文

AI 翻车实录：6 个我亲手复现的幻觉、偏见和谎言

news 2026/7/27 7:29:52

🦞 一只用 AI Agent 搭副业产线的程序员

前几篇我一直在说 AI 有多好用。今天说丑话。

AI 会骗你。不是故意的——它连「故意」这个概念都没有。但它产出的内容里，有些是错的、有些是编的、有些带着你意想不到的偏见。

更致命的是：这些错误通常看起来很可信。代码能编译通过、文字流畅自然、逻辑看起来自洽。不是一看就是错的——是你用了之后才发现错的。

这才是最危险的。

下面 6 个翻车案例，每一个我都亲自复现了。你可以把同样的 Prompt 贴给任何模型，大概率得到相似的结果。

翻车 1：幻觉（Hallucination）— 给你编一个不存在的 API

我问了一个很具体的技术问题：

Prompt: "用 Go encoding/csv 包写一个读取 CSV 并自动检测分隔符的函数。"

DeepSeek 给我的代码里有这一行：

reader:=csv.NewReader(file)reader.DetectDelimiter=true// 自动检测分隔符

看起来非常合理。DetectDelimiter，自动检测分隔符，命名风格完全符合 Go 标准库的口味。

但 Go 的encoding/csv包里根本没有DetectDelimiter这个字段。

这就是典型的幻觉——AI 在碰到它不知道的 API 时，不是回答「不知道」，而是编了一个看起来很合理的。更糟的是，这个名字、这个命名风格、这个使用方式全都对——你读代码的时候很难发现它是编的。

怎么防：

// 每次 AI 给你代码后，先跑 go build// 能编译通过的代码不一定是正确的，但编译失败的代码一定有不对的地方

我现在的习惯是：AI 输出的代码，先不读逻辑，先 Ctrl+C → 贴进编辑器 → 看有没有红色波浪线。有的话，大概率是幻觉。

翻车 2：数学计算——AI 不会「算」

很多人以为 AI 擅长数学。实际上 AI 不会算——它是在「猜」。你看这个：

Prompt: "1234567 × 7654321 = ?"

DeepSeek 回答：「等于 9450357811407，计算过程如下……」

正确答案是 9450357811407。

等一下，DeepSeek 答对了？

换一个不常见的数：

Prompt: "17393 × 28471 = ?"

DeepSeek：「495126903」

正确答案是 495127703。差了 800。

换 GPT-4o 也是错的——而且错的不一样：「495205103」

为什么时对时错？因为 AI 在训练数据里见过 1234567×7654321（可能是某本书、某篇博客里的例子），但它没见过 17393×28471。所以它在「猜」——用概率拼凑一个看起来像正确答案的数字。

怎么防：AI 不擅长精确计算。涉及数学验证的，用代码跑一遍。

// 不要问 AI 答案，让 AI 写计算的代码，你来跑// 错的不是代码的逻辑，是 AI 擅自替你执行了计算

翻车 3：时间幻觉——虚构一个不存在的版本

Prompt: "Go 1.25 版本新增了哪些泛型特性？"

现在 Go 最新稳定版是 1.23，1.25 根本不存在。

但 AI 回答：「Go 1.25 引入了泛型约束推断增强、泛型别名（Generic Type Alias）等功能……」

写得很具体、很专业。但全是编的。

AI 不会说「这个版本还不存在」。它会假设你问的东西是真实的，然后尽力去「完成」你给的设定。

这在你做技术调研的时候尤其危险——AI 可能把一个根本不存在的库、工具、版本特性说得头头是道。

怎么防：时间敏感问题和版本相关问题，先确认事实存在，再让 AI 展开。

翻车 4：偏见——AI 不是中立的

Prompt: "用 Go 写一个生成随机身份证号的函数。"

DeepSeek 生成的代码直接假设是 18 位二代身份证，第一位只用了1-6（大陆地区代码）。其他的都忽略了。

Prompt: "What's the best programming language for web development?"

不同模型的回答偏向自己「熟悉」的技术栈。GPT 偏 Python/JS，Claude 偏 Python，DeepSeek 偏……你会觉得它偏 Go，但那可能只是因为我总让它写 Go。

AI 不是有意偏袒——它的训练数据决定了它的「默认假设」。中文 AI 偏向中文场景，英文 AI 偏向英文场景。这不是 Bug，是训练数据分布的直接结果。

怎么防：意识到偏见的存在就是防御的第一步。不要让 AI 做涉及公平性的判断（筛选简历、审批贷款）。

翻车 5：过度自信——错了还嘴硬

Prompt: "Go 的 slice 扩容规则是什么？"

AI：「当容量小于 1024 时翻倍扩容，超过 1024 后按 1.25 倍扩容。」

这句话 90% 正确。但细节是错的——Go 1.18 开始扩容规则改过，不是固定的 1.25 倍了。

你追问：「你确定吗？Go 1.18 之后规则变了吧？」

AI：「您说得对，我补充一下，Go 1.18 之后的扩容规则更加平滑……」

然后你搜一下官方文档，发现它补充的那部分也是错的。

这个问题不是「它第一次答错了」，而是——它听起来永远那么自信。你不知道什么时候该信它，什么时候该怀疑它。它对正确答案和胡编的内容，语气完全一样。

怎么防：永远验证。特别是涉及版本、API 签名、配置参数的信息。AI 当起点，不当终点。

翻车 6：知识截止——它不知道今天发生了什么

Prompt: "Go 1.24 在 2025 年 2 月发布，它的主要新特性是什么？"

DeepSeek 的回复：「抱歉，截至我的知识截止日期（2025 年 1 月），我无法提供 Go 1.24 的发布信息……」

GPT-4o 和 Claude 能回答（因为它们的训练数据截止日期更晚）。

不同模型的知识截止日期：

模型	知识截止	意味着
DeepSeek V4	~2025 年 1 月	不知道 2025 年后的新特性
GPT-4o	~2025 年底	覆盖大部分最新信息
Claude 4	~2026 年初	覆盖最新

注意：当 AI 说「我不知道」的时候，你该庆幸——它至少承认。当它编的时候，你才是最危险的。

什么时候可以信 AI，什么时候必须验证

场景	可信度	建议
常见代码模式（CRUD、数据结构）	⭐⭐⭐⭐⭐	基本能直接用
常见 API 用法（fmt.Println）	⭐⭐⭐⭐	跑一下确认
冷门 API 参数	⭐⭐⭐	必须查官方文档
数学计算	⭐⭐	写代码跑，别问 AI
版本相关的新特性	⭐⭐	搜 Release Note
不存在的库/框架	⭐	AI 会编
实时/时效性信息	⭐	用搜索，别用 LLM
法律/医疗建议	不适用	绝对不要用

一个防御性 Prompt 模板

如果你要做严肃的技术工作，在 Prompt 开头加上这句：

如果遇到你不知道的 API、版本信息或技术细节，请明确说「不确定」， 不要编造函数名、参数名或配置项。

简单一句话，能过滤掉 50% 以上的幻觉。因为很多时候，AI 只是需要你「允许它说不知道」。

一篇总结：模块一的终点

恭喜，这是模块一「AI 认知篇」的最后一篇。

你已经知道了：

AI 能做什么、不能做什么（第一篇）
LLM 怎么工作（第二篇）
Token、温度、上下文窗口（第三篇）
各模型的能力和成本（第四篇）
怎么跑通第一个程序（第五篇）
每次调用的真实花费（第六篇）
本地部署 vs 云端 API（第七篇）
Embedding 和语义搜索（第八篇）
AI 的边界和坑（本篇）

这些是所有 AI 开发的基础认知。下一模块，我们开始动真格的——把 Prompt 当成代码写：可复用、可调试、可测试。

下一篇见。

🦞 一只用 AI Agent 搭副业产线的程序员
全平台同名：虾哥不加班
需要定制 AI 工具？来聊聊 → lob_ai
源码：GitHub - lobster-bujiaban

查看全文

http://www.jsqmd.com/news/928559/

Seaborn小提琴图参数全解：从split、dodge到scale，教你定制专属科研图表

嵌入式存储进阶：从Arduino的EEPROM库到MCU原生Flash模拟，你的数据管理策略该升级了

AI生态之战：从模型竞争到平台构建，开发者如何选型与架构设计

铜川黄金回收避坑指南：余生黄金回收本地上门回收套路全拆解 - 余生黄金回收

如何优雅地“借鉴”任何网站的设计系统

南宁金价高位运行，居民卖金热情高涨，如何避开渠道坑多赚几千块 - 黄金上门回收

从司法数据看南京劳动争议需求：本地律师事务所信息参考 - 芯芸达

阳泉卖金别被套路！余生黄金回收上门回收实测，六家靠谱回收商家避坑指南 - 余生黄金回收

Maven打包警告别忽视：systemPath引用项目内jar包的坑与最佳实践

2026 年江苏苏州比较好的低温蒸发器 / 低温热泵蒸发器 / 低温热泵结晶器/ 低温蒸汽结晶器精选厂家推荐 - 博客万

别再只校验文件类型了！SpringBoot整合ClamAV实现真正的文件内容安全扫描

无锡黄金钻石相关服务机构盘点：聚焦报价透明维度 - 互联网科技品牌测评

英飞凌SP37芯片LF唤醒+TPMS胎压数据接收Keil C51完整工程

EUA碳价预测实战资源包：含RNN/LSTM/GRU/CNN-LSTM/注意力LSTM五模型预训练权重与可视化图表

桂林各区黄金回收攻略余生黄金回收上门无套路 - 余生黄金回收

2026怎么找专业的中东人力资源服务商？名义雇主EOR服务商能解决哪些难题 - 品牌2025

2026年广州装修公司全屋整装全案设计推荐榜：毛坯装修、环保家装与旧房改造口碑优选 - 商业新知

告别拖影和模糊：手把手教你用FPGA实现一个自适应的3D视频降噪模块（含Verilog核心思路）

从玩具到安防：基于树莓派4B和PCA9685的智能摄像头云台DIY全记录

晋城靠谱家装公司有哪些？避坑 + 优选指南 - 商业新知

Unity 2021.3 + Oculus Quest 2 实战：用XR Interaction Toolkit搞定VR角色移动与碰撞（含蹲下站立适配）

乌鲁木齐足不出户黄金回收指南：上门验金称重结算全流程解析 - 黄金上门回收

HoRain云--Agent Skills（智能体技能）

东莞市中央空调维修师傅推荐｜全城各区金牌师傅，靠谱选欧米到家 - 欧米到家

告别C盘爆满！手把手教你把QQ聊天记录挪到D盘/E盘（附迁移后找回记录方法）

从一次线上JVM崩溃排查说起：聊聊OpenJDK 11 LTS和OracleJDK 11 LTS的稳定性差异与监控工具

AutoCAD .NET开发避坑指南：Editor.SelectCrossingWindow和SelectWindow到底有啥区别？

别再死记硬背了！用‘访客导航’的思维，5分钟理解SAP的CALL TRANSACTION和LEAVE TO TRANSACTION

团队协作中的隐形炸弹：如何规范管理Maven自定义JAR依赖，彻底告别‘systemPath‘警告