当前位置: 首页 > news >正文

1000 tokens/s 到底有多快?我用 8 次 API 请求,测了 4 款国产大模型

最近,我在小米 MiMo 的内测申请页面看到一个很夸张的数字:MiMo-V2.5-Pro-UltraSpeed 峰值速度 1000 tokens/s

页面同时给出了几个参照:行业模型平均约为 50~100 tokens/s,行业高速模型约为 400 tokens/s。单看数字,1000 tokens/s 是 100 tokens/s 的 10 倍,似乎意味着以前要等 10 秒的回答,现在 1 秒就能生成完。

但模型速度真能这样换算吗?我没有等到内测资格,而是先在同一个 API 平台、同一台电脑和同一网络下,对 4 个模型做了一轮小规模流式测试。结果比“谁快谁慢”更有意思:决定使用体验的,不只是 TPS;同一个模型在云端的速度波动,有时比不同模型之间的差距还大。

一、50~100 tokens/s,究竟是快还是慢?

Token 是大模型处理和生成文字的基本单位。它不严格等于一个汉字,也不严格等于一个英文单词;不同模型的分词器还可能把同一句话切成不同数量的 Token。

TPS(tokens per second)通常表示模型进入连续生成阶段后,每秒能输出多少个 Token。假设回答长度为 1000 个 Token,只计算生成阶段,理论耗时如下:

生成速度

生成 1000 Token 的理论时间

50 tokens/s

20 秒

100 tokens/s

10 秒

400 tokens/s

2.5 秒

1000 tokens/s

1 秒

因此,50~100 tokens/s 并不算“不能用”。普通问答只有几百 Token 时,它已经能形成较流畅的打字效果;但如果要生成长代码、长报告,或者 Coding Agent 要连续调用模型几十次,差距会迅速累积。

二、模型“开始得快”和“写得快”是两回事

一次流式请求大致会经过下面几个阶段:

发送请求 → 网络传输/服务排队 → 处理输入上下文 → 输出首字 → 持续生成 → 完成

所以我记录了三个核心指标:

  • TTFT(首字延迟):从发送请求到看到第一个字要等多久,最影响“它有没有立即理我”的感觉。

  • TPS(持续生成速度):开始输出以后,每秒生成多少 Token,

http://www.jsqmd.com/news/1075175/

相关文章:

  • ICLR 2026 Oral 用 RL 训 Embedder 而非 LLM:Q-RAG 把多步检索成本砍到几乎免费
  • 深度学习进阶(十三)可变形卷积 DCN
  • 卡美德生物科普RSPO1(R-spondin 1):解析组织再生与发育的核心调控机制
  • billd-desk终极指南:如何构建企业级远程桌面控制与游戏串流平台
  • 2026年6月24日(周三)——科创50暴涨3.82%背后的结构性撕裂
  • Visual C++ Redistributable AIO:三分钟解决Windows程序运行问题的完整指南
  • AI 编程时代,UI 设计系统也需要工程化:从 Google DESIGN.md 说起
  • pkg-config介绍
  • Gemma 4 微调 商品分类
  • 吾爱出品,相当炸裂!!
  • 2026零基础录音转文字入门指南避坑教学包教包会看完可直接上手
  • VisualCppRedist AIO:Windows运行库的“瑞士军刀“如何解决你的软件兼容性难题
  • 如何用3分钟解锁15+加密音乐格式:浏览器中的音乐自由革命
  • Java应用启动慢、接口超时、频繁Full GC?别再把锅甩给JVM了!
  • TVA在物流分拣领域的独特价值(8)
  • git项目目录下创建git忽略上传文件
  • 免费开源视频对比工具完全指南:如何像专家一样发现视频差异
  • 从0到1:企业级AI项目迭代日记 Vol.53|功能没做错,边界没接对
  • 【操作系统】进程调度算法(FCFS/SJF/优先级/时间片轮转)
  • 油层物理——2. 储层流体的物化性质
  • Android Studio中文汉化终极指南:5分钟打造母语级开发环境
  • 如何解决小说创作中的组织混乱问题:使用Bibisco的完整解决方案
  • 汽车电子智能分布式控制(IDC)技术:从SiP集成到车门模块的工程实践
  • 博主实测爆火的 Sakana Fugu,发现它还不如一个GPT?
  • 学习者高效阅读赋能知识吸收的方法与实践探究
  • 如何拯救你收藏的B站视频?m4s-converter让你的缓存文件重获新生
  • BilldDesk:完全免费的跨平台远程桌面控制软件完全指南
  • ROS嵌入式部署实战:在Jetson/RPi上稳定运行机器人系统
  • 服装贴口袋工序自动化科普:慧拿线上激光模板机全面解析
  • AI案例:选AI还是选人