DeepSeek V4:低成本高能力,推动AI应用变革与国产算力发展
【DeepSeek V4:工程优化的新路径】
解读DeepSeek V4的技术报告,成为近期AI行业的热门活动。在工程优化维度上,V4走出了与以往不同的道路。过去大家信奉“Scaling Law的暴力美学”,靠堆算力和参数提升模型性能,而V4定义了“模型训练的克制美学”,通过一系列组合优化和重构,包括注意力机制(让模型学会“抓重点”)、MoE架构(混合专家模型)、后训练和推理系统工程,取得了显著成果。它将V4 - Pro处理百万Token长上下文时所需算力压低到上一代V3.2的27%,KV缓存压缩到原来的10%。
【应用层影响:潜力与挑战并存】
评价一个模型不能只看纸面参数,为此邀请了近10名开发者、应用创业者和投资人进行体验和测试。得出的反直觉结论是,DeepSeek对应用层的影响或许比模型层更大。虽然V4在工程优化上表现出色,但发展轨迹滞后前沿闭源模型3至6个月,拉长推理和Agent能力长板的同时牺牲了部分准确性,对于注重稳定、精确的商业世界,它还不能直接落地,需要在harness层面补足工具调用稳定性和幻觉率等问题。
【亮点:高能力低成本】
在代码和软件工程评测中,V4 - Pro展现出当前开源模型的最高水平,与顶尖闭源模型几乎不相上下。PingCAP联合创始人兼CTO黄东旭将Hermes工作流迁移到DeepSeek V4后,发现其效果比想象中好,语言能力更符合中文母语者习惯,成本只有头部模型的四分之一不到。而且它成本低、开放开源,让人更有安全感。在编程能力方面,在几千到一万行代码规模,V4 one - shot的成功率较高,能与其他模型的Agent协同,还能完成简单任务。零一万物技术与产品中心副总裁赵斌强认为,DeepSeek V4是ToB场景下性价比最优的基础模型选择,其模型架构底层创新,在100万Token上下文窗口下保持高质量推理能力,且公开了技术细节;还完成了华为昇腾910B/950的适配,推动国产全栈解决方案发展。Pine AI首席科学家李博杰惊叹于DeepSeek把一系列架构创新在1.6T规模上跑通,底层训练技术积累深厚。联想集团副总裁宋春雨指出,DeepSeek证明了“AI性价比”可成为结构性优势,其降本策略使“平民化超长上下文”成为AI应用新基准。涌跃智能创始人兼CEO陈炜鹏表示,DeepSeek V4标志着国内大模型进入“参与Agent时代系统竞争”阶段。
【遗憾:落地还需“脚手架”】
DeepSeek官方和各评估平台指出V4 - Pro存在明显弱点。李博杰指出,V4 - Pro工具调用能力和通用世界知识基本追平前沿模型次一档版本,但工具调用稳定性和幻觉率是硬伤,需在Agent Harness层面补足;V4 - Flash是垂直微调的“甜点”,性能追上前一代万亿级开源模型。Coding Agent创业者Chillin认为,在Coding Agent场景下,DeepSeek V4相当于Claude一年多前的水平,落地需要额外配置脚手架。陈炜鹏认为,DeepSeek V4在执行复杂长程任务的稳定性和任务完成率上与海外最强闭源模型有差距,模型竞争进入新阶段,整体系统能力才是拉开差距的关键。宋春雨指出,V4未发布原生多模态版本稍显遗憾,但可能是为攻克算力底座问题的阶段性取舍。赵斌强认为,从ToC角度看,产品化打磨不够。
【影响:AI成本与应用变革】
涌跃智能创始人兼CEO陈炜鹏指出,AI并非简单变便宜,全球旗舰模型调用成本上升,中层、开源和可自部署模型变便宜,未来应用公司需建立模型调度系统。DeepSeek V4丰富了模型供给层,让应用编排更灵活,未来AI应用壁垒在于构建可靠、低成本、可规模化的生产系统。李博杰表示,在垂直微调市场,V4 - Flash将系统性替换千问、Llama等200 - 300B档基座,华为昇腾950 SuperNode推理生态起步,冲击英伟达芯片溢价,Agent长上下文场景将出现本土推理替换,闭源前沿厂商不会因V4降价。赵斌强认为,DeepSeek V4为ToB AI应用的成本控制提供了竞争力解法,其开源姿态为企业选型提供确定性,零一万物将评估其在企业核心场景的表现并考虑替换原有模型。V4发布后,行业将出现国产全技术栈解决方案发展、开源大模型倒逼闭源降价、Harness能力成新分水岭等变化。宋春雨认为,V4使百万级上下文成应用层“标配”,行业竞争转向“卷应用与数据”,国产算力产业链迎来投资机遇。某双币基金投资人表示,希望基模Portfio顺利上市,DeepSeek融资会吸收大量资金,今年应用层融资困难。Chillin认为,开源虽好,但解决规模和数据问题困难,也证明了Scaling Law的极限。
【实用指南:适合与不适合场景】
DeepSeek V4适合编程与代码学习,能可靠理解上下文、生成高质量代码和调试;适合中文及中日韩内容创作;适合超长文本阅读与分析。但不适合搜索与查证客观事实,其在事实性知识回忆测试中表现弱且易产生幻觉;不适合处理图片或文档排版,它是纯文本模型;不适合纯英文的高级创意写作,英文输出行文生硬。使用时,对于Pro版本可给予充分思考空间,容忍其偶尔的啰嗦。
