当前位置: 首页 > news >正文

智谱GLM-5.1高速版400tokens/s×DeepSeek 700亿融资:国产AI的速度与规模

摘要

核心结论:2026年5月22日,中国AI行业同时发生两件大事。其一:智谱发布GLM-5.1高速版API(GLM-5.1-highspeed),输出速度高达400 tokens/s,刷新全球大模型厂商API推理速度上限,打破"快等于小"的行业惯例。其二:DeepSeek确认700亿元人民币融资进入最后阶段,梁文锋在投资者会议上明确承诺:坚持开源到底,AGI目标不变。这两件事折射出国产AI的两条路线——智谱走"性能极致化+商业服务",DeepSeek走"开源生态+研究导向"。两者并非竞争关系,而是共同构成了中国AI在全球竞争中的双轮驱动。

事件核心数字意义
智谱GLM-5.1高速版400 tokens/s全球大模型API推理速度新纪录
DeepSeek融资700亿元人民币中国AI史上最大单笔融资
DeepSeek估值~450亿美元刷新中国AI独角兽估值纪录
主要投资方腾讯、IDG、Monolith顶级机构背书

一、智谱GLM-5.1高速版:当速度成为护城河

1.1 400 tokens/s意味着什么?

2026年5月22日上午,智谱宣布面向部分企业客户推出GLM-5.1高速版API(API名称:GLM-5.1-highspeed),其输出速度达到400 tokens/s,刷新当前全球大模型厂商API推理速度的上限。

让我们把这个数字放在上下文里理解:

什么是tokens/s(令牌每秒)?

tokens/s是衡量大模型推理速度的核心指标。1个token约等于0.75个英文单词或0.5个汉字。400 tokens/s意味着每秒可以输出约200个汉字,相当于一个人1分钟的正常阅读速度的3倍以上,这已经超过了人类阅读的速度极限。

行业对比来看:

模型/厂商典型输出速度(tokens/s)类型
智谱GLM-5.1-highspeed400旗舰高速版
Groq(专用推理芯片)~200-300中小模型加速
Cerebras(晶圆级芯片)~200-250专用硬件
DeepSeek V4-Pro~80-120大模型常规
Claude Opus 4.7~60-80旗舰模型
GPT-5.5~50-80旗舰模型
Gemini 3.5 Flash~150-200中等大小模型

核心突破点:GLM-5.1高速版打破了大模型界长期存在的"快等于小"惯例——以往速度达300+ tokens/s的往往是50亿参数以下的小模型,而GLM-5.1是一款旗舰级能力的大模型。这意味着技术层面的根本性突破。

1.2 技术原理:速度是怎么"推"出来的的?

智谱官方没有完整披露技术细节,但从工业界已有实践来看,实现400 tokens/s的旗舰大模型推理,需要以下几个核心技术的组合:

(1)推理引擎深度优化(最关键)

传统推理链路: Input Tokens → Attention计算 → FFN计算 → 生成1个Token → 循环 优化后的推理链路: Input Tokens → Flash Attention(降低内存访问) → 连续批处理(Continuous Batching) → Page Attention(KV Cache高效管理) → Speculative Decoding(并行预测后续Token) → 生成1个Token(5倍以上速度提升)
  • Flash Attention 3:通过优化注意力计算的内存访问模式,降低HBM带宽瓶颈
  • Continuous Batching:动态批量处理多个请求,最大化GPU利用率
  • Speculation Decoding(预测解码):用小模型并行预测后续多个Token,再由大模型验证,可将速度提升2-4倍

(2)精度优化:FP4/FP8混合精度

# 示例:FP8量化推理的核心思路# 训练:BF16/FP32精度# 推理部署:FP8量化(INT8-FP8-BF16混合)# 关键活跃层保持BF16,权重压缩使用FP8# 结果:内存占用减半,吞吐量翻倍,精度损失<0.5%

(3)专用硬件优化

智谱选择不公开,但业界推断其可能使用了:

  • NVIDIA H200多卡NVLink互联,并针对推理优化了集群调度
  • 或者与专用推理加速芯片(如Groq LPU、Cerebras)进行了合作

1.3 应用场景:400 tokens/s能做什么?

速度不只是一个数字,它直接改变了AI的应用边界:

场景一:实时语音交互

  • 人类语速约120-150字/分钟 ≈ 2-3字/秒
  • 400 tokens/s ≈ 200字/秒,是语音交互所需速度的60-80倍
  • 这意味着AI可以在用户说话完毕的同时完成分析,实现真正的"实时"对话

场景二:AI编程实时补全

  • 传统IDE代码补全要求延迟<100ms
  • 以400 tokens/s速度,生成100个Token(约50行代码)仅需250ms
  • AI代码补全从"辅助"升级为"实时协作"

场景三:多智能体高频调用

  • AI Agent系统中,Agent频繁调用LLM进行推理
  • 速度从80 tokens/s提升到400 tokens/s,相当于Agent的"思考速度"提升5倍
  • Agent系统的整体吞吐量翻倍以上

1.4 商业策略:旗舰能力+速度极限+企业定制

值得注意的是,GLM-5.1-highspeed目前仅向部分企业客户开放,这与智谱的商业策略高度吻合:

  • C端:继续维持标准版API,满足大众需求
  • B端:推出高速版作为企业服务的核心差异化能力
  • 定价:高速版溢价定价,瞄准实时交互、Agent系统等高价值场景

智谱选择不向所有客户开放,原因可能是:高速版的推理成本更高(更多GPU、更高利用率),需要通过企业定制合同的形式收回成本。


二、DeepSeek 700亿融资:那个"不差钱"的公司要钱了

2.1 从"三不"到破冰

DeepSeek的创业故事里有个著名的"三不原则"——不融资、不商业化、不路演。这三个"不",是DeepSeek创始人梁文锋用来保持技术纯粹性的防火墙:在没有外部资本压力的情况下,研究团队可以专注于技术突破,而无需向投资人的季度KPI妥协。

但2026年5月22日,彭博社援引知情人士消息,DeepSeek 700亿元人民币融资谈判进入最后阶段:

  • 融资规模:约700亿元人民币(约97亿美元)
  • 投前估值:约450亿美元(折合人民币超过3000亿元)
  • 主要投资方:腾讯控股、IDG资本、Monolith Capital接近确认参与
  • 融资性质:首次外部融资(此前完全依赖幻方量化的内部资金)

这笔融资将打破中国科技初创公司首轮融资的历史纪录。

2.2 梁文锋在投资者会议上说了什么?

据知情人士透露,梁文锋在至少一次投资者会议上做出了明确承诺:

“DeepSeek将继续开发开源AI模型,同时追求实现通用人工智能(AGI)这一更远大的目标。主要目标是推动技术升级,而非变现。”
——梁文锋,DeepSeek创始人兼CEO

这个承诺有两层含义:

  1. 开源路线不变:即便拿了700亿,DeepSeek的模型仍将保持开源发布
  2. AGI优先:梁文锋坚持"技术第一、商业第二"的优先级

什么是AGI(通用人工智能)?

AGI指能够像人类一样跨领域执行任何智力任务的人工智能,被视为AI发展的终极目标。目前业界普遍认为当前的大模型(包括GPT-5.5、Claude等)还不是AGI,但已在某些专业领域超越人类平均水平。Anthropic联创Jack Clark曾预言2028年底有60%概率实现递归自我改进——这是AGI的前驱信号。

2.3 为什么DeepSeek现在要融资了?

如果"三不原则"如此坚定,为什么又要融资?原因是多维度的:

原因一:算力军备升级的巨大资金需求

DeepSeek V4训练消耗了大量H800集群资源。随着V4.1(预计6月发布)和后续更大参数模型的研发,算力投入呈指数级增长。幻方量化的内部资金虽然雄厚,但面对万亿参数模型的训练成本,也开始显得捉襟见肘。

原因二:多模态战略转型的投入

DeepSeek V4.1预计加入多模态能力,这需要:

  • 大量图像/视频数据采购和处理
  • 多模态架构研究投入
  • 更多顶尖研究人才引进

原因三:全球竞争格局的倒逼

OpenAI(私募融资数百亿美元)、Anthropic(冲击1万亿美元估值)、Google(内部算力无限)——DeepSeek面对的对手们都有近乎无限的资金支持。"不融资"策略在技术竞赛加速期是一种奢侈。

原因四:战略伙伴的引入

腾讯的加入不只是资金——腾讯的微信生态、企业微信渠道、以及云计算基础设施,将为DeepSeek的商业落地提供不可替代的渠道价值。

2.4 融资后的DeepSeek:开源承诺的可信度

市场最大的担忧是:拿了外部钱之后,DeepSeek还会坚持开源吗?

几个因素支撑开源承诺的可信度:

因素分析
品牌价值DeepSeek的全球声誉90%来自开源,关闭开源等于自毁长城
梁文锋公开承诺投资者会议上的承诺具有法律和声誉约束
开源生态反哺DeepSeek的大量技术反馈来自开源社区,关闭开源将失去这个生态优势
竞争差异化相比GPT/Claude等闭源模型,开源是DeepSeek最核心的差异化竞争优势

当然,"开源"的定义可能会发生微妙变化:

  • 最新最强的版本(如V4-Pro)可能会延迟开源或有限开源
  • 完整权重的开源可能逐步让位于"仅开源部分权重"

2.5 DeepSeek V4-Pro永久降价:配合融资的节奏

就在融资消息曝光的同一周(5月22日),DeepSeek官宣了另一重磅消息:V4-Pro API价格永久调整为原价的25%(之前是促销折扣,现在转为永久定价):

计费项目原价永久新价降幅
缓存未命中输入12元/百万tokens3元/百万tokens-75%
缓存命中输入1.2元/百万tokens0.3元/百万tokens-75%
输出24元/百万tokens6元/百万tokens-75%

这是一个精心设计的节奏:融资消息+永久降价同时发布,向市场传递"我们有充足资金支撑低价战略"的信号,同时也在融资前夕展示"增长飞轮"——降价→用量大幅增加→数据积累→模型优化→吸引更多资金。


三、两条路线的战略分野

3.1 智谱的路线:性能极致化 + 商业服务

智谱的战略逻辑清晰:

智谱战略路径: 研究突破 → 旗舰模型 → 极致性能(400 tokens/s) → 企业API(高价值、差异化) → 大模型生态系统(MaaS) → 支持B端落地的解决方案

重要里程碑:

  • 2024年:发布GLM-4系列,进入第一梯队
  • 2025年:GLM-5.1系列,对标Claude/GPT,推出代码能力旗舰
  • 2026年Q2:GLM-5.1高速版,全球速度最快的旗舰API
  • 2026年Q3(预测):GLM-5.2,多模态旗舰

3.2 DeepSeek的路线:开源生态 + 研究导向

DeepSeek走的是完全不同的路:

DeepSeek战略路径: 深度研究 → 算法创新 → 技术报告发表 → 开源发布(带动全球生态) → API低价商业化 → 国际影响力 → 估值提升 → 融资

核心竞争力:

  • 研究质量:MoE架构创新、长上下文训练技术
  • 成本效率:同等性能下训练/推理成本全球最低
  • 开源生态:全球开发者的深度使用反哺技术迭代

3.3 互补共生,而非零和博弈

一个有趣的观察是:智谱和DeepSeek在用户群体上高度互补,并不激烈竞争:

  • 智谱:主打企业客户,强调服务稳定性、速度极致、合规安全
  • DeepSeek:主打开发者/研究者,强调技术透明、成本极低、可本地部署

两者共同构成了中国AI在全球竞争中的"双轮驱动"——智谱代表商业服务能力,DeepSeek代表技术研究能力。就像美国市场里OpenAI和Hugging Face的分工一样,两条路线相互强化,共同推动了整个国产AI生态的成熟。


四、国产AI:2026年5月的技术全景

4.1 国产大模型技术竞争力横评

经过5月下旬的一系列动作,国产大模型的技术格局已经相当清晰:

模型SWE-bench Pro推理速度上下文长度开源?定价(输出)
Kimi K2.658.6%~80 t/s100万 tokens较高
DeepSeek V4-Pro~55%~100 t/s100万 tokens开源权重6元/M
GLM-5.1 (standard)~50%~150 t/s128K tokens中等
GLM-5.1-highspeed~50%400 t/s128K tokens高(企业)
Qwen3.7-Max~52%~80 t/s100万 tokens否(Plus开源中)中等

4.2 关键趋势总结

趋势一:速度将成为新的竞争维度

GLM-5.1高速版的出现,预示着"推理速度"将成为继"能力"、"价格"之后的第三个核心竞争维度。未来6-12个月,各大厂商都将跟进推出高速推理服务。

趋势二:中国AI资本热度持续高涨

DeepSeek 700亿元融资 + Kimi 136亿元融资(5月上旬),两笔加起来超过200亿美元,中国AI融资热潮将推动更多独角兽级别的国产大模型公司出现。

趋势三:开源与闭源路线的分化加剧

DeepSeek坚持开源、Qwen开源Plus版、智谱走闭源商业化——中国大模型正在形成鲜明的路线分野,这与全球AI市场的格局高度同构。


FAQ:常见问题

Q:GLM-5.1高速版400 tokens/s是否有基准数据支撑?

A:目前智谱仅发布了速度数据,未同时发布与速度测试同条件下的质量Benchmark。从同类技术原理推断,高速版的质量可能略低于标准版(推理精度压缩带来的代价),但具体差距尚未公开。

Q:DeepSeek的700亿融资是否已经成定局?

A:据彭博社5月22日报道,谈判已进入"最后阶段",但尚未正式签署协议。投资者会议已经召开,腾讯等主要投资方已接近确认参与。预计正式宣布将在2-4周内完成。

Q:智谱GLM-5.1高速版什么时候对普通开发者开放?

A:目前仅面向部分企业客户提供。据智谱官方表述,普通开发者版本预计在2026年Q3开放,届时可能以阶梯定价方式面向所有用户。

Q:DeepSeek V4.1多模态版什么时候发布?

A:据此前官方透露,DeepSeek V4.1多模态版定档2026年6月发布。主要新增能力包括:图像理解、图表解析、视频帧分析,以及通过识图模式的商业化落地。


参考资料

  1. 新浪财经(2026-05-22): “智谱 GLM-5.1 高速版 AI 模型发布,跑出全球最快速度 400 tokens/s” - https://finance.sina.com.cn/tech/digi/2026-05-22/doc-inhytqkw6284792.shtml
  2. IT之家(2026-05-22): “智谱GLM-5.1高速版AI模型发布,全球最快速度400 tokens/s” - https://www.ithome.com/0/953/717.htm
  3. 腾讯新闻(2026-05-22): “智谱发布GLM-5.1高速版 模型输出速度达400 tokens/s” - https://news.qq.com/rain/a/20260522A04KXQ00
  4. 新浪财经(2026-05-22): “DeepSeek推进700亿元融资,梁文锋承诺坚持开发开源AI模型” - https://finance.sina.com.cn/tech/roll/2026-05-22/doc-inhytyyq5314174.shtml
  5. 搜狐财经(2026-05-22): “700亿融资+全球最低价!DeepSeek这步棋,下活了中国AI” - https://www.sohu.com/a/1026965203_100085330
  6. 搜狐科技(2026-05-22): “从’不差钱’到’广积粮’:DeepSeek的700亿融资与梁文锋的AI远征” - https://www.sohu.com/a/1026357728_138913

{"@context":"https://schema.org","@type":"TechArticle","headline":"智谱GLM-5.1高速版400tokens/s×DeepSeek 700亿融资:国产AI的速度与规模","description":"智谱GLM-5.1高速版API刷新全球推理速度纪录达400 tokens/s;DeepSeek确认700亿元融资并坚持开源。深度解析国产AI两条路线的战略分野。","author":{"@type":"Person","name":"大模型技术观察"},"datePublished":"2026-05-25","keywords":"智谱GLM-5.1高速版,DeepSeek融资,400tokens/s,国产大模型,梁文锋AGI"}
http://www.jsqmd.com/news/886737/

相关文章:

  • 深圳红光治疗设备哪家最值得信赖
  • 文件-语言-系统:基础IO-2.0——IO重定向接口,语言层缓冲区,系统级缓冲区。内核级分析!
  • virtualbox 宿主(win)与虚拟机(linux)共享文件夹
  • METSO A413248自动化系统
  • AI 充电枪智能功率 MOSFET 完整选型方案
  • AIGC工作流平台实战复盘:从需求到上线的完整项目经验与避坑指南
  • 为什么你的DeepSeek微调代码正在悄悄越权?——基于AST+CFG融合分析的5分钟自检清单
  • MySQL 死锁产生原因与避免
  • 安全测试入门:每个开发都应该知道的10个常见漏洞
  • SMUDebugTool终极指南:如何深度掌控AMD Ryzen处理器的隐藏性能
  • 中兴光猫终极管理指南:解锁工厂模式与Telnet权限的实战教程
  • 如何进行TVA仿真引擎的“光照地狱”训练?
  • rk35xx 通过recovery升级问题
  • ssm高校推免报名系统(10102)
  • 企业级AI语音合成采购决策白皮书(2024真实报价单首次公开)
  • 本地Windows容器迁移至云服务器
  • 【MySQL数据库 | 第一篇】 概述
  • # AI音乐生成API的可控性与专业化演进研究
  • 配置OpenClaw Agent使用Taotoken作为后端模型提供商
  • 【Qwen3.6】关键技术:线性注意力(Linear Attention/DeltaNet)和标准多头注意力(Standard Attention)混合
  • 2024年网盘下载终极免费解决方案:八大平台直链解析技术深度解析
  • Windows终极PDF处理工具:3步免费安装Poppler完整指南
  • 如何处理AI生成代码中的错误
  • 5分钟搭建原神私服:KCN-GenshinServer终极图形化解决方案
  • DeepSeek幻觉问题深度复盘(2023–2024真实故障库首发):从token级偏差到语义坍塌的全链路溯源
  • Owl-Alpha 新手快速上手指南
  • LSTM 算法的完整计算过程
  • MySQL GROUP BY 原理与优化
  • 基于双T振荡器的正弦波LED调光电路设计与实践
  • Linux系统Vim编辑器