当前位置: 首页 > news >正文

AI 翻车实录:6 个我亲手复现的幻觉、偏见和谎言

🦞 一只用 AI Agent 搭副业产线的程序员


前几篇我一直在说 AI 有多好用。今天说丑话。

AI 会骗你。不是故意的——它连「故意」这个概念都没有。但它产出的内容里,有些是错的、有些是编的、有些带着你意想不到的偏见。

更致命的是:这些错误通常看起来很可信。代码能编译通过、文字流畅自然、逻辑看起来自洽。不是一看就是错的——是你用了之后才发现错的。

这才是最危险的。

下面 6 个翻车案例,每一个我都亲自复现了。你可以把同样的 Prompt 贴给任何模型,大概率得到相似的结果。


翻车 1:幻觉(Hallucination)— 给你编一个不存在的 API

我问了一个很具体的技术问题:

Prompt: "用 Go encoding/csv 包写一个读取 CSV 并自动检测分隔符的函数。"

DeepSeek 给我的代码里有这一行:

reader:=csv.NewReader(file)reader.DetectDelimiter=true// 自动检测分隔符

看起来非常合理。DetectDelimiter,自动检测分隔符,命名风格完全符合 Go 标准库的口味。

但 Go 的encoding/csv包里根本没有DetectDelimiter这个字段。

这就是典型的幻觉——AI 在碰到它不知道的 API 时,不是回答「不知道」,而是编了一个看起来很合理的。更糟的是,这个名字、这个命名风格、这个使用方式全都对——你读代码的时候很难发现它是编的。

怎么防:

// 每次 AI 给你代码后,先跑 go build// 能编译通过的代码不一定是正确的,但编译失败的代码一定有不对的地方

我现在的习惯是:AI 输出的代码,先不读逻辑,先 Ctrl+C → 贴进编辑器 → 看有没有红色波浪线。有的话,大概率是幻觉。


翻车 2:数学计算——AI 不会「算」

很多人以为 AI 擅长数学。实际上 AI 不会算——它是在「猜」。你看这个:

Prompt: "1234567 × 7654321 = ?"

DeepSeek 回答:「等于 9450357811407,计算过程如下……」

正确答案是 9450357811407。

等一下,DeepSeek 答对了?

换一个不常见的数:

Prompt: "17393 × 28471 = ?"

DeepSeek:「495126903」

正确答案是 495127703。差了 800。

换 GPT-4o 也是错的——而且错的不一样:「495205103」

为什么时对时错?因为 AI 在训练数据里见过 1234567×7654321(可能是某本书、某篇博客里的例子),但它没见过 17393×28471。所以它在「猜」——用概率拼凑一个看起来像正确答案的数字。

怎么防:AI 不擅长精确计算。涉及数学验证的,用代码跑一遍。

// 不要问 AI 答案,让 AI 写计算的代码,你来跑// 错的不是代码的逻辑,是 AI 擅自替你执行了计算

翻车 3:时间幻觉——虚构一个不存在的版本

Prompt: "Go 1.25 版本新增了哪些泛型特性?"

现在 Go 最新稳定版是 1.23,1.25 根本不存在。

但 AI 回答:「Go 1.25 引入了泛型约束推断增强、泛型别名(Generic Type Alias)等功能……」

写得很具体、很专业。但全是编的。

AI 不会说「这个版本还不存在」。它会假设你问的东西是真实的,然后尽力去「完成」你给的设定。

这在你做技术调研的时候尤其危险——AI 可能把一个根本不存在的库、工具、版本特性说得头头是道。

怎么防:时间敏感问题和版本相关问题,先确认事实存在,再让 AI 展开。


翻车 4:偏见——AI 不是中立的

Prompt: "用 Go 写一个生成随机身份证号的函数。"

DeepSeek 生成的代码直接假设是 18 位二代身份证,第一位只用了1-6(大陆地区代码)。其他的都忽略了。

Prompt: "What's the best programming language for web development?"

不同模型的回答偏向自己「熟悉」的技术栈。GPT 偏 Python/JS,Claude 偏 Python,DeepSeek 偏……你会觉得它偏 Go,但那可能只是因为我总让它写 Go。

AI 不是有意偏袒——它的训练数据决定了它的「默认假设」。中文 AI 偏向中文场景,英文 AI 偏向英文场景。这不是 Bug,是训练数据分布的直接结果。

怎么防:意识到偏见的存在就是防御的第一步。不要让 AI 做涉及公平性的判断(筛选简历、审批贷款)。


翻车 5:过度自信——错了还嘴硬

Prompt: "Go 的 slice 扩容规则是什么?"

AI:「当容量小于 1024 时翻倍扩容,超过 1024 后按 1.25 倍扩容。」

这句话 90% 正确。但细节是错的——Go 1.18 开始扩容规则改过,不是固定的 1.25 倍了。

你追问:「你确定吗?Go 1.18 之后规则变了吧?」

AI:「您说得对,我补充一下,Go 1.18 之后的扩容规则更加平滑……」

然后你搜一下官方文档,发现它补充的那部分也是错的。

这个问题不是「它第一次答错了」,而是——它听起来永远那么自信。你不知道什么时候该信它,什么时候该怀疑它。它对正确答案和胡编的内容,语气完全一样。

怎么防:永远验证。特别是涉及版本、API 签名、配置参数的信息。AI 当起点,不当终点。


翻车 6:知识截止——它不知道今天发生了什么

Prompt: "Go 1.24 在 2025 年 2 月发布,它的主要新特性是什么?"

DeepSeek 的回复:「抱歉,截至我的知识截止日期(2025 年 1 月),我无法提供 Go 1.24 的发布信息……」

GPT-4o 和 Claude 能回答(因为它们的训练数据截止日期更晚)。

不同模型的知识截止日期:

模型知识截止意味着
DeepSeek V4~2025 年 1 月不知道 2025 年后的新特性
GPT-4o~2025 年底覆盖大部分最新信息
Claude 4~2026 年初覆盖最新

注意:当 AI 说「我不知道」的时候,你该庆幸——它至少承认。当它编的时候,你才是最危险的。


什么时候可以信 AI,什么时候必须验证

场景可信度建议
常见代码模式(CRUD、数据结构)⭐⭐⭐⭐⭐基本能直接用
常见 API 用法(fmt.Println)⭐⭐⭐⭐跑一下确认
冷门 API 参数⭐⭐⭐必须查官方文档
数学计算⭐⭐写代码跑,别问 AI
版本相关的新特性⭐⭐搜 Release Note
不存在的库/框架AI 会编
实时/时效性信息用搜索,别用 LLM
法律/医疗建议不适用绝对不要用

一个防御性 Prompt 模板

如果你要做严肃的技术工作,在 Prompt 开头加上这句:

如果遇到你不知道的 API、版本信息或技术细节,请明确说「不确定」, 不要编造函数名、参数名或配置项。

简单一句话,能过滤掉 50% 以上的幻觉。因为很多时候,AI 只是需要你「允许它说不知道」。


一篇总结:模块一的终点

恭喜,这是模块一「AI 认知篇」的最后一篇。

你已经知道了:

  • AI 能做什么、不能做什么(第一篇)
  • LLM 怎么工作(第二篇)
  • Token、温度、上下文窗口(第三篇)
  • 各模型的能力和成本(第四篇)
  • 怎么跑通第一个程序(第五篇)
  • 每次调用的真实花费(第六篇)
  • 本地部署 vs 云端 API(第七篇)
  • Embedding 和语义搜索(第八篇)
  • AI 的边界和坑(本篇)

这些是所有 AI 开发的基础认知。下一模块,我们开始动真格的——把 Prompt 当成代码写:可复用、可调试、可测试。

下一篇见。


🦞 一只用 AI Agent 搭副业产线的程序员

全平台同名:虾哥不加班
需要定制 AI 工具?来聊聊 → lob_ai

源码:GitHub - lobster-bujiaban

http://www.jsqmd.com/news/928559/

相关文章:

  • Seaborn小提琴图参数全解:从split、dodge到scale,教你定制专属科研图表
  • 嵌入式存储进阶:从Arduino的EEPROM库到MCU原生Flash模拟,你的数据管理策略该升级了
  • AI生态之战:从模型竞争到平台构建,开发者如何选型与架构设计
  • 铜川黄金回收避坑指南:余生黄金回收本地上门回收套路全拆解 - 余生黄金回收
  • 如何优雅地“借鉴”任何网站的设计系统
  • 南宁金价高位运行,居民卖金热情高涨,如何避开渠道坑多赚几千块 - 黄金上门回收
  • 从司法数据看南京劳动争议需求:本地律师事务所信息参考 - 芯芸达
  • 阳泉卖金别被套路!余生黄金回收上门回收实测,六家靠谱回收商家避坑指南 - 余生黄金回收
  • Maven打包警告别忽视:systemPath引用项目内jar包的坑与最佳实践
  • 2026 年江苏苏州比较好的低温蒸发器 / 低温热泵蒸发器 / 低温热泵结晶器/ 低温蒸汽结晶器精选厂家推荐 - 博客万
  • 别再只校验文件类型了!SpringBoot整合ClamAV实现真正的文件内容安全扫描
  • 无锡黄金钻石相关服务机构盘点:聚焦报价透明维度 - 互联网科技品牌测评
  • 英飞凌SP37芯片LF唤醒+TPMS胎压数据接收Keil C51完整工程
  • EUA碳价预测实战资源包:含RNN/LSTM/GRU/CNN-LSTM/注意力LSTM五模型预训练权重与可视化图表
  • 桂林各区黄金回收攻略 余生黄金回收上门无套路 - 余生黄金回收
  • 2026怎么找专业的中东人力资源服务商?名义雇主EOR服务商能解决哪些难题 - 品牌2025
  • 2026年广州装修公司全屋整装全案设计推荐榜:毛坯装修、环保家装与旧房改造口碑优选 - 商业新知
  • 告别拖影和模糊:手把手教你用FPGA实现一个自适应的3D视频降噪模块(含Verilog核心思路)
  • 从玩具到安防:基于树莓派4B和PCA9685的智能摄像头云台DIY全记录
  • 晋城靠谱家装公司有哪些?避坑 + 优选指南 - 商业新知
  • Unity 2021.3 + Oculus Quest 2 实战:用XR Interaction Toolkit搞定VR角色移动与碰撞(含蹲下站立适配)
  • 乌鲁木齐足不出户黄金回收指南:上门验金称重结算全流程解析 - 黄金上门回收
  • HoRain云--Agent Skills(智能体技能)
  • 东莞市中央空调维修师傅推荐|全城各区金牌师傅,靠谱选欧米到家 - 欧米到家
  • 告别C盘爆满!手把手教你把QQ聊天记录挪到D盘/E盘(附迁移后找回记录方法)
  • 从一次线上JVM崩溃排查说起:聊聊OpenJDK 11 LTS和OracleJDK 11 LTS的稳定性差异与监控工具
  • AutoCAD .NET开发避坑指南:Editor.SelectCrossingWindow和SelectWindow到底有啥区别?
  • 别再死记硬背了!用‘访客导航’的思维,5分钟理解SAP的CALL TRANSACTION和LEAVE TO TRANSACTION
  • 团队协作中的隐形炸弹:如何规范管理Maven自定义JAR依赖,彻底告别‘systemPath‘警告
  • 2026黄山除甲醛公司推荐:黄山甲醛检测、除甲醛治理、室内空气检测、CMA 检测优选指南 - 专注室内空气检测治理