当前位置：首页 > news >正文

Redis作者发声：中国大模型崛起，不该被简单扣上“蒸馏抄袭”的帽子

news 2026/6/17 0:22:37

文章目录

- Redis 大神亲自下场：说中国模型靠"蒸馏"美国？这锅我们不背
- antirez 是谁？他说的话值几个钱？
- API 蒸馏？你当是熬中药呢？
- 软蒸馏 vs 硬蒸馏：一个抄思路，一个抄答案
- - 软蒸馏（白盒）
  - 硬蒸馏（黑盒）
- DeepSeek 是蒸出来的？你蒸一个我看看
- 那中国模型到底靠什么？
- "聪明的蒸" vs "粗暴的蒸"
- 所以，别再用"蒸馏"当遮羞布了

P.S. 目前国内还是很缺AI人才的，希望更多人能真正加入到AI行业，共同促进行业进步，增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow，教程通俗易懂，高中生都能看懂，还有各种段子风趣幽默，从深度学习基础原理到各领域实战应用都有讲解，我22年的AI积累全在里面了。注意，教程仅限真正想入门AI的朋友，否则看看零散的博文就够了。

Redis 大神亲自下场：说中国模型靠"蒸馏"美国？这锅我们不背

最近 AI 圈有个段子，说中国大模型之所以强，是因为偷偷拿 GPT 和 Claude 的 API 做"蒸馏"。

这逻辑就相当于：你邻居考了清华，你把他作业本借来抄了一遍，然后你也考上了清华。你觉得清华招生办是瞎的吗？

更离谱的是，这话居然是从一些"美国实验室"嘴里说出来的。我干了 22 年 AI，第一次见有人把"营销话术"包装成"机器学习原理"的，这手艺不去卖保健品可惜了。

antirez 是谁？他说的话值几个钱？

先介绍一下这位老哥。Salvatore Sanfilippo，江湖人称 antirez，Redis 的作者。就是那个你面试必被问、工作中天天用、出了 bug 你骂娘的数据库的作者。

这人在技术圈的地位，大概相当于相声界的郭德纲——你说他不懂行，那你先写个 Redis 出来我看看？

antirez 最近连发好几条推文，核心就一句话：说中国模型靠 API 蒸馏美国模型才变强的，要么是不懂机器学习，要么是在给自家实验室打广告。

我翻译一下：你们这说法，在数学上属于科幻小说范畴。

API 蒸馏？你当是熬中药呢？

好，咱们先搞清楚什么叫"蒸馏"。

很多人理解的蒸馏：我调用 GPT-4 的 API，让它生成一堆答案，然后把这些答案喂给我的小模型，小模型就学会了。就像熬中药，把精华熬出来。

antirez 说：你熬个锤子。真正的蒸馏，需要拿到老师模型的"完整概率分布"——也就是 logits，还有思维链的内部轨迹。这些东西 API 根本不给你。

他打了个比方：API 蒸馏就像你在一个复杂曲面上看到几个点，就想复刻整个曲面。这在数学上接近科幻。

我换个更接地气的说法：你去看了一场周杰伦的演唱会，录了几段视频，然后回家宣称自己会写歌了。你录的那点东西，连人家和弦走向都听不全，你还想复刻《七里香》？

API 给你的就是最终文本，相当于周杰伦唱完了，告诉你"这首歌叫《七里香》"。然后呢？旋律呢？编曲呢？和声呢？你啥都没有，就学会了一个歌名。

软蒸馏 vs 硬蒸馏：一个抄思路，一个抄答案

这里必须科普一下，很多人把两种完全不同的技术混为一谈，都叫"蒸馏"，这就跟把"茅台"和"茅台镇"混为一谈一样。

软蒸馏（白盒）

软蒸馏需要白盒访问，老师不仅给答案，还给完整的思考过程和信心指数：“这道题我选 A 的概率是 85%，选 B 是 10%，选 C 是 5%，因为……”

学生学到的是"暗知识"——老师为什么犹豫，为什么排除其他选项。这就像学霸不仅给你看答案，还给你看他的草稿纸。

问题是：GPT-4 的草稿纸，你看得见吗？API 给你看吗？不给。所以软蒸馏在闭源 API 上，根本玩不了。

硬蒸馏（黑盒）

硬蒸馏就是只拿老师生成的最终文本，当成标准答案来训练自己的模型。Alpaca 和 Vicuna 就是这么干的。

这相当于学霸把作业写完了，你拿过来抄。你能抄对答案，但你不知道他是怎么想的。考试换个题型，你立马抓瞎。

antirez 的原话是：硬蒸馏最多只能"调整风格"或者"填补非常小的知识缺口"。想靠这个造出 frontier-level 的通用能力？做梦。

我补充一句：硬蒸馏刷榜单可以，实战该拉胯还是拉胯。就像你背了 100 道真题，考试正好考到原题，你得了高分。但换个新题，你的真实水平就暴露了。

**划重点：**软蒸馏 = 抄思路（需要看草稿纸）→ API 做不到；硬蒸馏 = 抄答案（只看最终答案）→ 能做但效果有限，造不出真·大模型。

DeepSeek 是蒸出来的？你蒸一个我看看

有人说：那 DeepSeek 怎么解释？它不也是靠蒸馏吗？

antirez 直接甩脸：DeepSeek 把预训练、SFT、RL 的全流程细节都公开了，结果甚至能被复现。你宁愿相信"飞猴传说"，也不相信可复现的公开结果？

我干了 22 年，见过太多"神秘东方力量"的叙事。但 DeepSeek 的论文是公开的，代码是开源的，训练细节是透明的。你要说这都是"蒸"出来的，那你先把论文里的数学推导蒸出来给我看看？

更何况，很多中国前沿模型已经开源了，欧洲那么多实验室拿着完整模型去蒸馏，也没见谁蒸馏出一个对齐水平的模型来。

这就像你把茅台酒的配方公开了，全世界酒厂照着做，也没几家能酿出茅台。工艺是工艺，手艺是手艺，不是给你配方你就能行的。

那中国模型到底靠什么？

antirez 很诚实，他不否认中国模型目前和美国有差距。但他认为，真正的差距不是"技术抄袭"，而是算力获取限制。

这就说到点子上了。你让一个学生做奥数题，他脑子很好使，但你只给他一支铅笔和一张草稿纸，对面学生有计算器、电脑、还有三个助教。你让他怎么赢？

中国模型的问题不是"没本事"，是"没算力"。H100 被禁运，A100 受限，大家拿着阉割版的显卡搞研发，这相当于让博尔特穿着拖鞋跑百米。

但即便如此，DeepSeek 们还是在拖鞋里跑出了世界记录。你说这是靠"蒸馏"？那美国实验室怎么不蒸馏一个出来？他们不是有最先进的芯片吗？

**灵魂拷问：**如果 API 蒸馏真这么管用，那美国实验室自己为什么不蒸馏一个比 GPT-4 更强的模型出来？他们不是有 API 吗？他们不是有芯片吗？

“聪明的蒸” vs “粗暴的蒸”

当然，硬蒸馏不是完全没用。姚顺宇大佬就说过，关键看你怎么蒸。

粗暴的蒸：拿 GPT-4 当数据打印机，疯狂生成 token，一股脑塞进自己模型里。大佬评价：“商业上不道德，治理上很愚蠢。”

这就像你去米其林餐厅吃饭，不学习人家的烹饪理念，而是把人家厨房里的剩菜打包回家，热一热就当自己做的。你吃得再饱，也变不成米其林大厨。

聪明的蒸：把强模型当辅助工具和评价者，有策略地融入训练系统。比如用 teacher 做 reward model、做多智能体协作生成数据、真实数据和合成数据混合、迭代式自我改进。

这就像你去米其林餐厅，不是偷剩菜，而是请主厨当你的顾问。他告诉你哪里火候过了，哪里盐放多了，你慢慢练出自己的手艺。

但即便是"聪明的蒸"，也只是训练 pipeline 里的一环。真正强大的底层能力，来自万亿 token 级别的预训练，来自巨大的算力投入，来自研究团队对数据工程和训练策略的深刻理解。

蒸馏是锦上添花，不是无中生有。你不能靠蒸馏蒸出一个爱因斯坦，你只能蒸馏出一个"说话像爱因斯坦的鹦鹉"。

所以，别再用"蒸馏"当遮羞布了

antirez 这番话，其实是给整个 AI 圈提了个醒："蒸馏"这个词已经被严重滥用和误解了。

很多人一听到中国模型强，第一反应就是"肯定是抄的"，这跟当年看到中国高铁快就说"肯定是偷德国技术"一样，属于一种思维懒惰。

你承认别人有真本事，就这么难吗？

中国模型确实有差距，主要在算力上。但把人家的进步简单归因于"蒸馏"，既违反机器学习的基本原理，也低估了构建强模型的真实难度。

这就像你看人家跑马拉松跑了第一名，你不说人家训练刻苦，非说人家吃了兴奋剂。问题是，兴奋剂检测是阴性的，人家的训练日志是公开的，你倒是拿出证据来啊？

antirez 最后留了一个灵魂拷问：你说模型从 Y 来源学到了 X 能力，那请出示信息路径。预训练？需要数万亿 token。蒸馏？API 给不了你 logits。那你告诉我，这能力是怎么"蒸"出来的？

答不上来？那就别瞎说了。

**最后说两句：**干了 22 年 AI，我见过太多"神秘化"和"妖魔化"。技术就是技术，有就是有，没有就是没有。API 蒸馏做不出 DeepSeek，就像抄作业抄不出诺贝尔奖。中国模型的进步，靠的是真金白银的投入、实打实的工程能力、以及在算力受限下的极限创新。这锅，"蒸馏"不背。

查看全文

http://www.jsqmd.com/news/1026496/

2026年李沧区专业的管道疏通公司联系电话参考 - 品牌排行榜

Claude Code：智能编程助手的实战应用指南

2026年和寮镇靠谱的驾校，扎根和寮镇中山大道便民学车网点：顺达驾校招生处打通乡镇驾培便民通道，服务全镇农户务工人员高效持证 - 资讯快报

2026年上海劳动合同纠纷顾问推荐怎么选？看这五点关键不踩雷 - 本地品牌推荐

2026北京婚姻律师推荐：专业团队助力家庭纠纷解决 - 品牌排行榜

有序分类数据建模：Binary、Binomial与Beta分布选择指南

多语言模型数据失衡？用指数平滑精准提权小语种

长上下文窗口的极限挑战：百万级Token推理优化

5大社交平台数据采集实战：MediaCrawler如何破解反爬难题？

从零到一：Python开发者如何用Django REST Framework打造企业级API

2026市面上质量好的非膨胀型防火涂料厂商排行 - 品牌排行榜

SH9自指螺旋拓扑框架：黑洞信息佯谬的拓扑完整解答（世毫九实验室原创研究）

软件定义汽车架构解析：S32-CoreRide平台如何破解SDV集成挑战

Freescale RMan应用：基于DPAA的RapidIO与以太网硬件加速数据转发

QorIQ嵌入式平台LXC容器配置实战：从内核到网络与资源隔离

043、Zephyr RTOS内核基础：线程优先级与调度

从MPC107勘误表看硬件设计避坑：PLL配置、电平转换与调试接口实战

2026年工业冷却塔选型指南：主流品牌与技术趋势深度解析 - 优质品牌商家

黄岛街道专业的空调不制热维修公司哪家好 - 品牌排行榜

2026实验室气路改造工程优质厂商甄选：从资质到交付的全维度评测指南 - 优质品牌商家

Meta AI人才战略与开源实践解析

推荐电脑清理软件：2026高性价比款盘点 - 资讯快报

如何快速掌握MediaInfo：终极媒体文件分析工具完全指南

3个实用技巧：如何用PyPortfolioOpt的Black-Litterman模型告别投资组合优化的烦恼

功能强大的PC应用市场推荐 3个核心优势解析 - 资讯快报

AI 设计风格迁移：当算法学会“看懂“美感，设计工作流的变革与边界

2026年新发布：安徽优秀的球场围网批发厂家如何选择与推荐 - 品牌鉴赏官2026

怎么选择靠谱的淮安代理记账公司？淮安企业老板避坑全攻略 - 淮安财税咨询

2026年中盘点：山东地区值得信赖的字母板直销厂家可靠选择 - 品牌鉴赏官2026

图片压缩到指定大小怎么操作？盘点免费好用的工具，秒转工具箱实测推荐 - 效率工具研究所