当前位置：首页 > news >正文

六大Coding Plan 速度和tokens消耗测试！

news 2026/3/26 17:13:45

天下武功，唯快不破！

不管做什么事情速度都是重要的衡量指标。（除了躺着做的事情……不着急！）

过日子嘛，能省就省！

除了快，还要省 tokens！

这是大家在购买 Coding Plan 时最关心的两个问题，今天就给大家做一个测试，可以作为选购参考。

放心：无广告，无链接，只有实测！

这是我自己开发的测试平台：

目前我主要是购买了阿里云百炼，火山方舟、腾讯云、智谱、Kimi、MiniMax 六家公司的 Coding Plan。除了智谱升级到了 Pro 级别之外（为了用上 GLM5），其他全部是入门款订阅套餐。对大家来说，应该非常有参考价值！

为了测试速度和 tokens 消耗情况，我会出三个题目，测两种场景，然后每个题目测三次。

1、简单问答

首先我们来测试最简单的问题，比如“早上好”。

这个问题主要是看各家模型的最快反应速度，我在系统提示词中特别强调了：

关闭所有思考能力，用最简单的方式来回答

下面直接来看结果：

我这个批量测试，可以从多维度测试模型，比如查看回复内容，总的消耗时间，总的消耗token，如果有思考内容输出，也可以查看思考过程。

第一次测试结果，最快的是 Kimi，只用了 7 秒左右。最慢的是阿里云百炼 27.8 秒。

然后，我把 6 个平台，3 次测试，18 个结果进行了汇总，并制作了图表。

汇总图表如下：

从图表中可以非常直观的看到，基于我的网络环境和测试问题来看，速度前三是：Kimi，智谱，MiniMax

因为这个问题回答很少，所以比 tokens 没太大意思。

唯一有意思的就是，阿里云百炼的思考模式真的是有点问题，什么弱智问题都得思考半天。

上面的问题只是为了测试最快的情况，接下来两个题目会测试深度思考模式下的速度和tokens消耗情况。

顺便也看一下各家模型的逻辑思维能力（智商）怎么样。

2、排队问题

第一个题目是排队问题，这应该算是数学逻辑的范畴。

问题如下：

有 5 个人排成一排，每人帽子颜色为红或蓝。他们可以看到前面的人的帽子，但看不到自己的。主持人宣布：“至少有一顶红帽子。”从最后一人开始，每人依次说“是”或“否”（表示是否知道自己帽子的颜色）。如果第 5 人说“否”，第 4 人说“是”，求所有可能的帽子颜色分布。

这题我以前是用来测试本地开源大模型的，在去年的时候，开源模型还无法很好处理这个问题，有的开源模型直接会把脑子烧坏，疯狂思考，不出结果。即便是当时最强的模型，也要花点时间。

因为这是逻辑题，所以我在系统提示词中特别强调：

启用思维链，把思考等级调到最大，保持问题的准确性！

这是输入截图：

第一次测试结果如下：

首先，我们可以看到MiniMax 和腾讯云交了白卷。就是思考卡住了，然后被截断了。

其次，最快的是火山方舟 15 秒，最慢的是阿里云百炼 98 秒。

这个问题，基本上就为了查看 tokens 消耗情况，能答出来基本就是正确的，答不出来就是答不出来，直接卡死。

下面是汇总图表：

注意：图表 Y 轴中时间单位是（秒），图片顶部标注了毫秒，有一点点问题。

这部分的测试结果，有一个很严重的问题，就是有些选手，交白卷。

我在图中做了标注！！！

正常来说腾讯和MiniMax应该没有资格存在这个图表里了。

从这一题中我们可以得到的结论是：

最快的三个是：火山方舟，Kimi，智谱 GLM。

最省 token 的三个是：Kimi，火山方舟，智谱 GLM。

3、空间题

有的人特别擅长数字逻辑，但是不一定擅长空间逻辑。

所以我也出了一个空间题：

6 米长的竹竿能否通过 4 米高，3 米宽的门？

系统提示词是：

启用 COT 思维链，把思考级别拉到最高，但是要尽快正确的回答这个问题！

这个题目，在人类看来很简单。

但是 AI 可能还没有明白这其中的陷阱。

我去年测试的时候，当时只有 Grok 和 DS 最新版可以稳定的回答这个问题。

输入截图：

第一次结果如下：

首先，这一轮腾讯云交了白卷。

其次，阿里，智谱，火山回答正确，MiniMax 和 Kimi 回答错误。

最后，回答最快的是 Kimi，回答最慢的是阿里云。

这个问题其实没有那么简单。

下面是第二次的结果：

这次，MiniMax 说可以了，Kimi 还是不行。

这是第三次的结果：

这一次，MiniMax 直接摆烂，Kimi 说能通过。

可以看到，有些选手咬定了可以，有些选手一会儿这样一会儿那样。

模型的稳定性也是很重要的，有些 AI 其实根本不懂，就是抛硬币而已。

另外，那些咬死答案的，也有可能只是看了标准答案，而不是自己思考的结果。

三次汇总如下：

从这个图中可以看到，最快的是：Kimi，火山，智谱。最省的是火山，Kimi，智谱。

4、汇总和总结

最后把三题的数据汇总一下！！！

总耗时均值 (ms)

从这个图表来看，腾讯云，MiniMax，阿里云百炼可以先排除了，速度慢，token 消耗多。其中有两位选手，还常常答不出来。

剩下 3 位是 Kimi，火山，智谱。

Kimi 最快，但是存在答错问题的情况，年轻人快但是不一定准！

火山方舟最省，也没有答错问题，常规问答场景综合性能不错，简单问题思考有点长！

GLM5 是最稳的，速度不快不慢，tokens 消耗不多不少，回答问题智商在线！

今天的问题都是一些问答题，不涉及复杂的工程问题。

主要是测试速度，tokens消耗，常规智力等维度。

最后还要补充一下，这个速度在不同时间段和不同拥堵状态可能会有差异。

我记得我最早测 GLM 的时候，就觉得它能力还可以，但是配到小龙虾里面就特别特别慢。

后来我就换成了 Kimi，跑得飞快。

然后前几天又发现 Kimi 慢得不行，有一段时间甚至直接没有回复（在 OpenClaw 上面）。

然后这几天我又在测试，好像 GLM 的速度上来了，比较正常了。无论编程还是OpenClaw。

主要是这段时间这个东西太火爆了，一旦人多， token 速度肯定就会受影响，人少速度就会快起来！

还有一个问题，协议的问题。

Kimi 的 OpenAI 协议好像会提示不允许非编程场景调用。

阿里那个 Coding Plan 刚上的时候，Anthropic 协议直接就挂了，目前正常。

有些平台的接口多问几次，也会异常。

这两天稍微好一些，基本上通过 Anthropic协议都能正常调用。

大概就是这些吧！

我本来准备一个小时结束战斗，越写越多。

本来想着之前测试项目写文章太累了，今天来个轻松的，就截个图。

没想到，又是表格，又是图表，看起来是爽了，写起来真累😮‍💨！

为了设计这张封面图，又花了我好多时间：

希望对大家有帮助！

有帮助的话，帮忙扩散一下！

声明一下：我就是个业余测试，结果可能并不全面和准确，仅供参考！

当然也八九不离十啦~~

最后放一个彩蛋！！！

我的 Coding Plan 测试平台添加了一个新功能。

我添加了一个大模型对战系统，目前支持五子棋和中国象棋对战。

五子棋对战：

中国象棋对战：

赶紧收工！！！下期见！

查看全文

http://www.jsqmd.com/news/487981/

ROS2跨架构部署实战：从x86到ARM64的交叉编译全流程解析

信贷系统模型层表字段

从“不会写代码”到亲手上线产品：Makund 与 Madav 眼中的 AI 软件新范式

GDScript零基础游戏开发学习指南：从新手到独立开发者的进阶之路

告别乱码困扰：ConvertToUTF8的高效编码转换完全指南

GME多模态向量模型落地：企业知识库图文混合检索实战

工业质检场景落地：Z-Image-Turbo生成缺陷样本辅助算法训练

QuickRecorder：重新定义macOS录屏体验的轻量化革新工具

从物理学到5G：图解地面反射模型如何影响你的手机信号强度

3大突破如何重塑Web机器学习开发？Transformers.js移动端AI框架深度解析

本地化医疗AI新选择：MedGemma 1.5部署教程与效果展示

从臃肿到轻盈：G-Helper如何重构华硕笔记本性能管理体系

那些被Windows“藏起来”的功能：找回属于你的选择权

从框架到分数：深度解读商用密码应用安全性量化评估实践

腐烂国度1 MOD安装全攻略：从GenericModEnabler配置到实战避坑（附文件结构详解）

如何解决Sublime Text乱码问题：编码转换工具完全指南

开源工具本地化指南：Obsidian-i18n实现跨语言界面适配全流程

如何用H5-Dooring实现零代码可视化开发：从入门到精通指南

翻译GMTK的《塞尔达旷野之息开放世界设计》

如何让你的电动车自己“说话“？开源数据平台的5大实用价值

Fold Craft Launcher革新指南：移动端玩转Minecraft Java版全攻略

LightRAG | 基于 PostgreSQL 向量插件构建知识图谱增强检索

Sigil：开源EPUB编辑工具解决电子书制作核心痛点的全面方案

电脑风扇智能控制完全指南：从噪音困扰到静音高效的解决方案

微信小程序获取用户手机号全流程实战（附完整代码）

Ubuntu20.04 Autoware.universe部署实战：从环境配置到避坑指南

C语言高精度算法实战：从加减乘除到阶乘的完整代码解析

苍穹外卖项目实战：无商户号模拟微信支付的完整实现方案

新手必看：Qt属性系统完全指南（含setProperty实战代码）

深入解析Dell十四代阵列卡模式切换：为何混合模式不再支持

1、简单问答

2、排队问题

3、空间题

4、汇总和总结

总耗时均值 (ms)

相关文章：