Redis作者发声:中国大模型崛起,不该被简单扣上“蒸馏抄袭”的帽子
文章目录
- Redis 大神亲自下场:说中国模型靠"蒸馏"美国?这锅我们不背
- antirez 是谁?他说的话值几个钱?
- API 蒸馏?你当是熬中药呢?
- 软蒸馏 vs 硬蒸馏:一个抄思路,一个抄答案
- 软蒸馏(白盒)
- 硬蒸馏(黑盒)
- DeepSeek 是蒸出来的?你蒸一个我看看
- 那中国模型到底靠什么?
- "聪明的蒸" vs "粗暴的蒸"
- 所以,别再用"蒸馏"当遮羞布了
P.S. 目前国内还是很缺AI人才的,希望更多人能真正加入到AI行业,共同促进行业进步,增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow,教程通俗易懂,高中生都能看懂,还有各种段子风趣幽默,从深度学习基础原理到各领域实战应用都有讲解,我22年的AI积累全在里面了。注意,教程仅限真正想入门AI的朋友,否则看看零散的博文就够了。
Redis 大神亲自下场:说中国模型靠"蒸馏"美国?这锅我们不背
最近 AI 圈有个段子,说中国大模型之所以强,是因为偷偷拿 GPT 和 Claude 的 API 做"蒸馏"。
这逻辑就相当于:你邻居考了清华,你把他作业本借来抄了一遍,然后你也考上了清华。你觉得清华招生办是瞎的吗?
更离谱的是,这话居然是从一些"美国实验室"嘴里说出来的。我干了 22 年 AI,第一次见有人把"营销话术"包装成"机器学习原理"的,这手艺不去卖保健品可惜了。
antirez 是谁?他说的话值几个钱?
先介绍一下这位老哥。Salvatore Sanfilippo,江湖人称 antirez,Redis 的作者。就是那个你面试必被问、工作中天天用、出了 bug 你骂娘的数据库的作者。
这人在技术圈的地位,大概相当于相声界的郭德纲——你说他不懂行,那你先写个 Redis 出来我看看?
antirez 最近连发好几条推文,核心就一句话:说中国模型靠 API 蒸馏美国模型才变强的,要么是不懂机器学习,要么是在给自家实验室打广告。
我翻译一下:你们这说法,在数学上属于科幻小说范畴。
API 蒸馏?你当是熬中药呢?
好,咱们先搞清楚什么叫"蒸馏"。
很多人理解的蒸馏:我调用 GPT-4 的 API,让它生成一堆答案,然后把这些答案喂给我的小模型,小模型就学会了。就像熬中药,把精华熬出来。
antirez 说:你熬个锤子。真正的蒸馏,需要拿到老师模型的"完整概率分布"——也就是 logits,还有思维链的内部轨迹。这些东西 API 根本不给你。
他打了个比方:API 蒸馏就像你在一个复杂曲面上看到几个点,就想复刻整个曲面。这在数学上接近科幻。
我换个更接地气的说法:你去看了一场周杰伦的演唱会,录了几段视频,然后回家宣称自己会写歌了。你录的那点东西,连人家和弦走向都听不全,你还想复刻《七里香》?
API 给你的就是最终文本,相当于周杰伦唱完了,告诉你"这首歌叫《七里香》"。然后呢?旋律呢?编曲呢?和声呢?你啥都没有,就学会了一个歌名。
软蒸馏 vs 硬蒸馏:一个抄思路,一个抄答案
这里必须科普一下,很多人把两种完全不同的技术混为一谈,都叫"蒸馏",这就跟把"茅台"和"茅台镇"混为一谈一样。
软蒸馏(白盒)
软蒸馏需要白盒访问,老师不仅给答案,还给完整的思考过程和信心指数:“这道题我选 A 的概率是 85%,选 B 是 10%,选 C 是 5%,因为……”
学生学到的是"暗知识"——老师为什么犹豫,为什么排除其他选项。这就像学霸不仅给你看答案,还给你看他的草稿纸。
问题是:GPT-4 的草稿纸,你看得见吗?API 给你看吗?不给。所以软蒸馏在闭源 API 上,根本玩不了。
硬蒸馏(黑盒)
硬蒸馏就是只拿老师生成的最终文本,当成标准答案来训练自己的模型。Alpaca 和 Vicuna 就是这么干的。
这相当于学霸把作业写完了,你拿过来抄。你能抄对答案,但你不知道他是怎么想的。考试换个题型,你立马抓瞎。
antirez 的原话是:硬蒸馏最多只能"调整风格"或者"填补非常小的知识缺口"。想靠这个造出 frontier-level 的通用能力?做梦。
我补充一句:硬蒸馏刷榜单可以,实战该拉胯还是拉胯。就像你背了 100 道真题,考试正好考到原题,你得了高分。但换个新题,你的真实水平就暴露了。
**划重点:**软蒸馏 = 抄思路(需要看草稿纸)→ API 做不到;硬蒸馏 = 抄答案(只看最终答案)→ 能做但效果有限,造不出真·大模型。
DeepSeek 是蒸出来的?你蒸一个我看看
有人说:那 DeepSeek 怎么解释?它不也是靠蒸馏吗?
antirez 直接甩脸:DeepSeek 把预训练、SFT、RL 的全流程细节都公开了,结果甚至能被复现。你宁愿相信"飞猴传说",也不相信可复现的公开结果?
我干了 22 年,见过太多"神秘东方力量"的叙事。但 DeepSeek 的论文是公开的,代码是开源的,训练细节是透明的。你要说这都是"蒸"出来的,那你先把论文里的数学推导蒸出来给我看看?
更何况,很多中国前沿模型已经开源了,欧洲那么多实验室拿着完整模型去蒸馏,也没见谁蒸馏出一个对齐水平的模型来。
这就像你把茅台酒的配方公开了,全世界酒厂照着做,也没几家能酿出茅台。工艺是工艺,手艺是手艺,不是给你配方你就能行的。
那中国模型到底靠什么?
antirez 很诚实,他不否认中国模型目前和美国有差距。但他认为,真正的差距不是"技术抄袭",而是算力获取限制。
这就说到点子上了。你让一个学生做奥数题,他脑子很好使,但你只给他一支铅笔和一张草稿纸,对面学生有计算器、电脑、还有三个助教。你让他怎么赢?
中国模型的问题不是"没本事",是"没算力"。H100 被禁运,A100 受限,大家拿着阉割版的显卡搞研发,这相当于让博尔特穿着拖鞋跑百米。
但即便如此,DeepSeek 们还是在拖鞋里跑出了世界记录。你说这是靠"蒸馏"?那美国实验室怎么不蒸馏一个出来?他们不是有最先进的芯片吗?
**灵魂拷问:**如果 API 蒸馏真这么管用,那美国实验室自己为什么不蒸馏一个比 GPT-4 更强的模型出来?他们不是有 API 吗?他们不是有芯片吗?
“聪明的蒸” vs “粗暴的蒸”
当然,硬蒸馏不是完全没用。姚顺宇大佬就说过,关键看你怎么蒸。
粗暴的蒸:拿 GPT-4 当数据打印机,疯狂生成 token,一股脑塞进自己模型里。大佬评价:“商业上不道德,治理上很愚蠢。”
这就像你去米其林餐厅吃饭,不学习人家的烹饪理念,而是把人家厨房里的剩菜打包回家,热一热就当自己做的。你吃得再饱,也变不成米其林大厨。
聪明的蒸:把强模型当辅助工具和评价者,有策略地融入训练系统。比如用 teacher 做 reward model、做多智能体协作生成数据、真实数据和合成数据混合、迭代式自我改进。
这就像你去米其林餐厅,不是偷剩菜,而是请主厨当你的顾问。他告诉你哪里火候过了,哪里盐放多了,你慢慢练出自己的手艺。
但即便是"聪明的蒸",也只是训练 pipeline 里的一环。真正强大的底层能力,来自万亿 token 级别的预训练,来自巨大的算力投入,来自研究团队对数据工程和训练策略的深刻理解。
蒸馏是锦上添花,不是无中生有。你不能靠蒸馏蒸出一个爱因斯坦,你只能蒸馏出一个"说话像爱因斯坦的鹦鹉"。
所以,别再用"蒸馏"当遮羞布了
antirez 这番话,其实是给整个 AI 圈提了个醒:"蒸馏"这个词已经被严重滥用和误解了。
很多人一听到中国模型强,第一反应就是"肯定是抄的",这跟当年看到中国高铁快就说"肯定是偷德国技术"一样,属于一种思维懒惰。
你承认别人有真本事,就这么难吗?
中国模型确实有差距,主要在算力上。但把人家的进步简单归因于"蒸馏",既违反机器学习的基本原理,也低估了构建强模型的真实难度。
这就像你看人家跑马拉松跑了第一名,你不说人家训练刻苦,非说人家吃了兴奋剂。问题是,兴奋剂检测是阴性的,人家的训练日志是公开的,你倒是拿出证据来啊?
antirez 最后留了一个灵魂拷问:你说模型从 Y 来源学到了 X 能力,那请出示信息路径。预训练?需要数万亿 token。蒸馏?API 给不了你 logits。那你告诉我,这能力是怎么"蒸"出来的?
答不上来?那就别瞎说了。
**最后说两句:**干了 22 年 AI,我见过太多"神秘化"和"妖魔化"。技术就是技术,有就是有,没有就是没有。API 蒸馏做不出 DeepSeek,就像抄作业抄不出诺贝尔奖。中国模型的进步,靠的是真金白银的投入、实打实的工程能力、以及在算力受限下的极限创新。这锅,"蒸馏"不背。
P.S. 目前国内还是很缺AI人才的,希望更多人能真正加入到AI行业,共同促进行业进步,增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow,教程通俗易懂,高中生都能看懂,还有各种段子风趣幽默,从深度学习基础原理到各领域实战应用都有讲解,我22年的AI积累全在里面了。注意,教程仅限真正想入门AI的朋友,否则看看零散的博文就够了。
