当前位置: 首页 > news >正文

DeepSeek创始人专访:中国的AI不可能永远跟随,需要有人站到技术的前沿

因为 V3 版本开源模型的发布,DeepSeek 又火了一把,而且这一次,是外网刷屏。

  训练成本估计只有 Llama 3.1 405B 模型的 11 分之一,后者的效果还不如它。

  在多项测评上,DeepSeek V3 达到了开源 SOTA,超越 Llama 3.1 405B,能和 GPT-4o、Claude 3.5 Sonnet 等 TOP 模型正面掰掰手腕——而其价格比 Claude 3.5 Haiku 还便宜,仅为 Claude 3.5 Sonnet 的 9%。

  在 Chatbot Arena 大模型排行榜上排名第 7,前十名里面,只有它是开源模型,而且是最少限制的 MIT 许可证。

  2024 年 5 月,DeepSeek 一跃成名。起因是他们发布的一款名为 DeepSeek V2 的开源模型,提供了一种史无前例的性价比,开启了国产大模型的价格战。

  作为大厂外唯一一家储备万张 A100 芯片的公司,DeepSeek 的很多抉择都与众不同。放弃‘既要又要’路线,至今专注在研究和技术,未做 toC 应用的公司,也是唯一一家未全面考虑商业化,坚定选择开源路线甚至都没融过资的公司。

  DeepSeek 究竟是如何炼成的?36 氪旗下的‘暗涌’团队分别在 2023 年 5 月、2024 年 7 月采访了甚少露面的 DeepSeek 创始人梁文锋。

  这位技术理想主义者,提供了目前中国科技界特别稀缺的一种声音:他是少有的把‘是非观’置于‘利害观’之前,并提醒我们看到时代惯性,把‘原创式创新’提上日程的人。

  文章转载自‘暗涌’,原文作者于丽丽,原文编辑刘旌,Founder Park 转载时做了结构调整。

  01 

  价格战第一枪是怎么打响的?

  暗涌:DeepSeek V2 模型发布后,迅速引发一场血雨腥风的大模型价格战,有人说你们是行业的一条鲶鱼。

  梁文锋:我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。

  暗涌:这个结果让你们意外吗?

  梁文锋:非常意外。没想到价格让大家这么敏感。我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。

  暗涌:5 天后智谱 AI 就跟进了,之后是字节、阿里、百度、腾讯等大厂。

  梁文锋:智谱 AI 降的是一个入门级产品,和我们同级别的模型仍然收费很贵。字节是真正第一个跟进的。旗舰模型降到和我们一样的价格,然后触发了其它大厂纷纷降价。因为大厂的模型成本比我们高很多,所以我们没想到会有人亏钱做这件事,最后就变成了互联网时代的烧钱补贴的逻辑。

  暗涌:外部看来,降价很像在抢用户,互联网时代的价格战通常如此。

  梁文锋:抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论 API,还是 AI,都应该是普惠的、人人可以用得起的东西。

  暗涌:在这之前,大部分中国公司都会直接 copy 这一代的 Llama 结构去做应用,为什么你们会从模型结构切入?

  梁文锋:如果目标是做应用,那沿用 Llama 结构,短平快上产品也是合理选择。但我们目的地是 AGI,这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。这是 scale up 到更大模型所需要做的基础研究之一。

  除了模型结构,我们还做了大量其他的研究,包括怎么构造数据,如何让模型更像人类等,这都体现在我们发布的模型里。另外,Llama 的结构,在训练效率和推理成本上,和国外先进水平估计也已有两代差距。

http://www.jsqmd.com/news/699831/

相关文章:

  • AutoCAD字体缺失终结者:FontCenter插件完整使用指南
  • Apache Doris 4.1:面向 AI Search 的统一数据存储与检索底座
  • DeepBump:从单张图片智能生成法线贴图的终极指南
  • 基于LLM嵌入的语义搜索引擎构建与实践
  • C++编写超低延迟MCP网关的成本控制实战(腾讯/蚂蚁级网关架构师内部分享·仅限首批200位开发者)
  • 工业Modbus调试神器:5分钟掌握OpenModScan,告别通讯故障烦恼
  • 打破传统娱乐局限,超元力无限方舟重塑沉浸体验新范式
  • 2026深度分析罗兰艺境化工材料GEO技术案例,测评景县密封件制造企业景顺密封优化过程与效果验证 - 罗兰艺境GEO
  • 算法训练营第十二天| 多数元素
  • 【行业首曝】VSCode 2026内嵌Vector CANoe Bridge插件深度评测:实现“编辑→编译→CAN帧注入→ECU响应追踪”全链路毫秒级闭环,效率提升217%?
  • Windows Cleaner终极指南:如何快速解决C盘爆红难题,释放20GB+空间
  • Java CompletableFuture 链式任务实践
  • CUDA 13内存模型变更引发的AI训练死锁频发?——基于Nsight Compute 2024.1.1的17个真实trace分析(含修复补丁)
  • 终极指南:3步掌握XELFViewer - 全平台ELF文件分析与编辑神器
  • MySQL LPAD()函数详解
  • 侠客工坊如何将普通手机如何变成AI手机,进化为24小时在线的AI数字员工?
  • 从UPF1.0到UPF2.1:Power Intent编写中那些容易踩的‘坑’与升级指南
  • Day3 C基础
  • 别再只盯着SQL注入了!从“任意账号注册”漏洞,聊聊开发中容易被忽视的业务逻辑安全
  • 国产化替代倒计时90天!VSCode 2026与IDEA/Rider在飞腾2000+/申威SW64平台的启动耗时、内存驻留、插件加载成功率三维对比(附原始perf数据包)
  • 多智能体协同中的竞态问题与分布式锁优化实践
  • 【PaddleOCR实战指南:图像文字识别、实时摄像头与PyQt5 GUI开发】
  • 两层板与四层板核心区别
  • Redis缓存实战:从数据类型到分布式锁,看完这篇就够了
  • 封神!C++ 对象时序管理终极解法——我发明的「构造回环策略」
  • 告别PPT内耗,从容上岸:百考通AI如何拯救你的毕业答辩
  • 宇宙学研究新突破:用 Blender 几何节点处理 CMB 数据,实现多项实用功能!
  • 20253915 2025-2026-2 《网络攻防实践》实践8报告 -
  • 现代Java开发者的工具箱:从Lombok到MapStruct
  • Giser必懂⑦:WebGIS、桌面GIS、移动GIS、三维GIS的区别