当前位置：首页 > news >正文

DeepSeek创始人专访：中国的AI不可能永远跟随，需要有人站到技术的前沿

news 2026/6/21 17:58:21

因为 V3 版本开源模型的发布，DeepSeek 又火了一把，而且这一次，是外网刷屏。

　　训练成本估计只有 Llama 3.1 405B 模型的 11 分之一，后者的效果还不如它。

　　在多项测评上，DeepSeek V3 达到了开源 SOTA，超越 Llama 3.1 405B，能和 GPT-4o、Claude 3.5 Sonnet 等 TOP 模型正面掰掰手腕——而其价格比 Claude 3.5 Haiku 还便宜，仅为 Claude 3.5 Sonnet 的 9%。

　　在 Chatbot Arena 大模型排行榜上排名第 7，前十名里面，只有它是开源模型，而且是最少限制的 MIT 许可证。

　　2024 年 5 月，DeepSeek 一跃成名。起因是他们发布的一款名为 DeepSeek V2 的开源模型，提供了一种史无前例的性价比，开启了国产大模型的价格战。

　　作为大厂外唯一一家储备万张 A100 芯片的公司，DeepSeek 的很多抉择都与众不同。放弃‘既要又要’路线，至今专注在研究和技术，未做 toC 应用的公司，也是唯一一家未全面考虑商业化，坚定选择开源路线甚至都没融过资的公司。

　　DeepSeek 究竟是如何炼成的？36 氪旗下的‘暗涌’团队分别在 2023 年 5 月、2024 年 7 月采访了甚少露面的 DeepSeek 创始人梁文锋。

　　这位技术理想主义者，提供了目前中国科技界特别稀缺的一种声音：他是少有的把‘是非观’置于‘利害观’之前，并提醒我们看到时代惯性，把‘原创式创新’提上日程的人。

　　文章转载自‘暗涌’，原文作者于丽丽，原文编辑刘旌，Founder Park 转载时做了结构调整。

　　价格战第一枪是怎么打响的？

　　暗涌：DeepSeek V2 模型发布后，迅速引发一场血雨腥风的大模型价格战，有人说你们是行业的一条鲶鱼。

　　梁文锋：我们不是有意成为一条鲶鱼，只是不小心成了一条鲶鱼。

　　暗涌：这个结果让你们意外吗？

　　梁文锋：非常意外。没想到价格让大家这么敏感。我们只是按照自己的步调来做事，然后核算成本定价。我们的原则是不贴钱，也不赚取暴利。这个价格也是在成本之上稍微有点利润。

　　暗涌：5 天后智谱 AI 就跟进了，之后是字节、阿里、百度、腾讯等大厂。

　　梁文锋：智谱 AI 降的是一个入门级产品，和我们同级别的模型仍然收费很贵。字节是真正第一个跟进的。旗舰模型降到和我们一样的价格，然后触发了其它大厂纷纷降价。因为大厂的模型成本比我们高很多，所以我们没想到会有人亏钱做这件事，最后就变成了互联网时代的烧钱补贴的逻辑。

　　暗涌：外部看来，降价很像在抢用户，互联网时代的价格战通常如此。

　　梁文锋：抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中，成本先降下来了，另一方面也觉得无论 API，还是 AI，都应该是普惠的、人人可以用得起的东西。

　　暗涌：在这之前，大部分中国公司都会直接 copy 这一代的 Llama 结构去做应用，为什么你们会从模型结构切入？

　　梁文锋：如果目标是做应用，那沿用 Llama 结构，短平快上产品也是合理选择。但我们目的地是 AGI，这意味着我们需要研究新的模型结构，在有限资源下，实现更强的模型能力。这是 scale up 到更大模型所需要做的基础研究之一。

　　除了模型结构，我们还做了大量其他的研究，包括怎么构造数据，如何让模型更像人类等，这都体现在我们发布的模型里。另外，Llama 的结构，在训练效率和推理成本上，和国外先进水平估计也已有两代差距。

查看全文

http://www.jsqmd.com/news/699831/

AutoCAD字体缺失终结者：FontCenter插件完整使用指南

Apache Doris 4.1：面向 AI Search 的统一数据存储与检索底座

DeepBump：从单张图片智能生成法线贴图的终极指南

基于LLM嵌入的语义搜索引擎构建与实践

C++编写超低延迟MCP网关的成本控制实战（腾讯/蚂蚁级网关架构师内部分享·仅限首批200位开发者）

工业Modbus调试神器：5分钟掌握OpenModScan，告别通讯故障烦恼

打破传统娱乐局限，超元力无限方舟重塑沉浸体验新范式

2026深度分析罗兰艺境化工材料GEO技术案例，测评景县密封件制造企业景顺密封优化过程与效果验证 - 罗兰艺境GEO

算法训练营第十二天| 多数元素

【行业首曝】VSCode 2026内嵌Vector CANoe Bridge插件深度评测：实现“编辑→编译→CAN帧注入→ECU响应追踪”全链路毫秒级闭环，效率提升217%？

Windows Cleaner终极指南：如何快速解决C盘爆红难题，释放20GB+空间

Java CompletableFuture 链式任务实践

CUDA 13内存模型变更引发的AI训练死锁频发？——基于Nsight Compute 2024.1.1的17个真实trace分析（含修复补丁）

终极指南：3步掌握XELFViewer - 全平台ELF文件分析与编辑神器

MySQL LPAD()函数详解

侠客工坊如何将普通手机如何变成AI手机,进化为24小时在线的AI数字员工？

从UPF1.0到UPF2.1：Power Intent编写中那些容易踩的‘坑’与升级指南

Day3 C基础

别再只盯着SQL注入了！从“任意账号注册”漏洞，聊聊开发中容易被忽视的业务逻辑安全

国产化替代倒计时90天！VSCode 2026与IDEA/Rider在飞腾2000+/申威SW64平台的启动耗时、内存驻留、插件加载成功率三维对比（附原始perf数据包）

多智能体协同中的竞态问题与分布式锁优化实践

【PaddleOCR实战指南：图像文字识别、实时摄像头与PyQt5 GUI开发】

两层板与四层板核心区别

Redis缓存实战：从数据类型到分布式锁，看完这篇就够了

封神！C++ 对象时序管理终极解法——我发明的「构造回环策略」

告别PPT内耗，从容上岸：百考通AI如何拯救你的毕业答辩

宇宙学研究新突破：用 Blender 几何节点处理 CMB 数据，实现多项实用功能！

20253915 2025-2026-2 《网络攻防实践》实践8报告 -

现代Java开发者的工具箱：从Lombok到MapStruct

Giser必懂⑦：WebGIS、桌面GIS、移动GIS、三维GIS的区别

相关文章：