当前位置: 首页 > news >正文

六大Coding Plan 速度和tokens消耗测试!

天下武功,唯快不破!

不管做什么事情速度都是重要的衡量指标。(除了躺着做的事情……不着急!)

过日子嘛,能省就省

除了快,还要省 tokens!

这是大家在购买 Coding Plan 时最关心的两个问题,今天就给大家做一个测试,可以作为选购参考。

放心:无广告,无链接,只有实测!

这是我自己开发的测试平台:

目前我主要是购买了阿里云百炼,火山方舟、腾讯云、智谱、Kimi、MiniMax 六家公司的 Coding Plan。除了智谱升级到了 Pro 级别之外(为了用上 GLM5),其他全部是入门款订阅套餐。对大家来说,应该非常有参考价值!

为了测试速度和 tokens 消耗情况,我会出三个题目,测两种场景,然后每个题目测三次

1、简单问答

首先我们来测试最简单的问题,比如“早上好”。

这个问题主要是看各家模型的最快反应速度,我在系统提示词中特别强调了:

关闭所有思考能力,用最简单的方式来回答

下面直接来看结果:

我这个批量测试,可以从多维度测试模型,比如查看回复内容,总的消耗时间,总的消耗token,如果有思考内容输出,也可以查看思考过程。

第一次测试结果,最快的是 Kimi,只用了 7 秒左右最慢的是阿里云百炼 27.8 秒

然后,我把 6 个平台,3 次测试,18 个结果进行了汇总,并制作了图表。

汇总图表如下:

从图表中可以非常直观的看到,基于我的网络环境和测试问题来看,速度前三是:Kimi,智谱,MiniMax

因为这个问题回答很少,所以比 tokens 没太大意思。

唯一有意思的就是,阿里云百炼的思考模式真的是有点问题,什么弱智问题都得思考半天。

上面的问题只是为了测试最快的情况,接下来两个题目会测试深度思考模式下的速度和tokens消耗情况

顺便也看一下各家模型的逻辑思维能力(智商)怎么样。

2、排队问题

第一个题目是排队问题,这应该算是数学逻辑的范畴。

问题如下:

有 5 个人排成一排,每人帽子颜色为红或蓝。他们可以看到前面的人的帽子,但看不到自己的。主持人宣布:“至少有一顶红帽子。”从最后一人开始,每人依次说“是”或“否”(表示是否知道自己帽子的颜色)。如果第 5 人说“否”,第 4 人说“是”,求所有可能的帽子颜色分布。

这题我以前是用来测试本地开源大模型的,在去年的时候,开源模型还无法很好处理这个问题,有的开源模型直接会把脑子烧坏,疯狂思考,不出结果。即便是当时最强的模型,也要花点时间。

因为这是逻辑题,所以我在系统提示词中特别强调:

启用思维链,把思考等级调到最大,保持问题的准确性!

这是输入截图:

第一次测试结果如下:

首先,我们可以看到MiniMax 和腾讯云交了白卷。就是思考卡住了,然后被截断了。

其次,最快的是火山方舟 15 秒,最慢的是阿里云百炼 98 秒。

这个问题,基本上就为了查看 tokens 消耗情况,能答出来基本就是正确的,答不出来就是答不出来,直接卡死。

下面是汇总图表:

注意:图表 Y 轴中时间单位是(秒),图片顶部标注了毫秒,有一点点问题。

这部分的测试结果,有一个很严重的问题,就是有些选手,交白卷

我在图中做了标注!!!

正常来说腾讯和MiniMax应该没有资格存在这个图表里了。

从这一题中我们可以得到的结论是:

最快的三个是:火山方舟,Kimi,智谱 GLM。

最省 token 的三个是:Kimi,火山方舟,智谱 GLM。

3、空间题

有的人特别擅长数字逻辑,但是不一定擅长空间逻辑。

所以我也出了一个空间题:

6 米长的竹竿能否通过 4 米高,3 米宽的门?

系统提示词是:

启用 COT 思维链,把思考级别拉到最高,但是要尽快正确的回答这个问题!

这个题目,在人类看来很简单。

但是 AI 可能还没有明白这其中的陷阱。

我去年测试的时候,当时只有 Grok 和 DS 最新版可以稳定的回答这个问题。

输入截图:

第一次结果如下:

首先,这一轮腾讯云交了白卷。

其次,阿里,智谱,火山回答正确,MiniMax 和 Kimi 回答错误。

最后,回答最快的是 Kimi,回答最慢的是阿里云。

这个问题其实没有那么简单。

下面是第二次的结果:

这次,MiniMax 说可以了,Kimi 还是不行。

这是第三次的结果:

这一次,MiniMax 直接摆烂,Kimi 说能通过。

可以看到,有些选手咬定了可以,有些选手一会儿这样一会儿那样。

模型的稳定性也是很重要的,有些 AI 其实根本不懂,就是抛硬币而已

另外,那些咬死答案的,也有可能只是看了标准答案,而不是自己思考的结果。

三次汇总如下:

从这个图中可以看到,最快的是:Kimi,火山,智谱最省的是火山,Kimi,智谱。

4、汇总和总结

最后把三题的数据汇总一下!!!

总耗时均值 (ms)

从这个图表来看,腾讯云,MiniMax,阿里云百炼可以先排除了,速度慢,token 消耗多。其中有两位选手,还常常答不出来。

剩下 3 位是 Kimi,火山,智谱。

Kimi 最快,但是存在答错问题的情况,年轻人快但是不一定准!

火山方舟最省,也没有答错问题,常规问答场景综合性能不错,简单问题思考有点长!

GLM5 是最稳的,速度不快不慢,tokens 消耗不多不少,回答问题智商在线!

今天的问题都是一些问答题,不涉及复杂的工程问题。

主要是测试速度,tokens消耗,常规智力等维度。

最后还要补充一下,这个速度在不同时间段和不同拥堵状态可能会有差异。

我记得我最早测 GLM 的时候,就觉得它能力还可以,但是配到小龙虾里面就特别特别慢。

后来我就换成了 Kimi,跑得飞快。

然后前几天又发现 Kimi 慢得不行,有一段时间甚至直接没有回复(在 OpenClaw 上面)。

然后这几天我又在测试,好像 GLM 的速度上来了,比较正常了。无论编程还是OpenClaw。

主要是这段时间这个东西太火爆了,一旦人多, token 速度肯定就会受影响,人少速度就会快起来!

还有一个问题,协议的问题。

Kimi 的 OpenAI 协议好像会提示不允许非编程场景调用。

阿里那个 Coding Plan 刚上的时候,Anthropic 协议直接就挂了,目前正常。

有些平台的接口多问几次,也会异常。

这两天稍微好一些,基本上通过 Anthropic协议都能正常调用。

大概就是这些吧!

我本来准备一个小时结束战斗,越写越多。

本来想着之前测试项目写文章太累了,今天来个轻松的,就截个图。

没想到,又是表格,又是图表,看起来是爽了,写起来真累😮‍💨!

为了设计这张封面图,又花了我好多时间:

希望对大家有帮助!

有帮助的话,帮忙扩散一下!

声明一下:我就是个业余测试,结果可能并不全面和准确,仅供参考!

当然也八九不离十啦~~

最后放一个彩蛋!!!

我的 Coding Plan 测试平台添加了一个新功能。

我添加了一个大模型对战系统,目前支持五子棋和中国象棋对战。

五子棋对战:

中国象棋对战:

赶紧收工!!! 下期见!

http://www.jsqmd.com/news/487981/

相关文章:

  • ROS2跨架构部署实战:从x86到ARM64的交叉编译全流程解析
  • 信贷系统模型层表字段
  • 从“不会写代码”到亲手上线产品:Makund 与 Madav 眼中的 AI 软件新范式
  • GDScript零基础游戏开发学习指南:从新手到独立开发者的进阶之路
  • 告别乱码困扰:ConvertToUTF8的高效编码转换完全指南
  • GME多模态向量模型落地:企业知识库图文混合检索实战
  • 工业质检场景落地:Z-Image-Turbo生成缺陷样本辅助算法训练
  • QuickRecorder:重新定义macOS录屏体验的轻量化革新工具
  • 从物理学到5G:图解地面反射模型如何影响你的手机信号强度
  • 3大突破如何重塑Web机器学习开发?Transformers.js移动端AI框架深度解析
  • 本地化医疗AI新选择:MedGemma 1.5部署教程与效果展示
  • 从臃肿到轻盈:G-Helper如何重构华硕笔记本性能管理体系
  • 那些被Windows“藏起来”的功能:找回属于你的选择权
  • 从框架到分数:深度解读商用密码应用安全性量化评估实践
  • 腐烂国度1 MOD安装全攻略:从GenericModEnabler配置到实战避坑(附文件结构详解)
  • 如何解决Sublime Text乱码问题:编码转换工具完全指南
  • 开源工具本地化指南:Obsidian-i18n实现跨语言界面适配全流程
  • 如何用H5-Dooring实现零代码可视化开发:从入门到精通指南
  • 翻译GMTK的《塞尔达旷野之息开放世界设计》
  • 如何让你的电动车自己“说话“?开源数据平台的5大实用价值
  • Fold Craft Launcher革新指南:移动端玩转Minecraft Java版全攻略
  • LightRAG | 基于 PostgreSQL 向量插件构建知识图谱增强检索
  • Sigil:开源EPUB编辑工具解决电子书制作核心痛点的全面方案
  • 电脑风扇智能控制完全指南:从噪音困扰到静音高效的解决方案
  • 微信小程序获取用户手机号全流程实战(附完整代码)
  • Ubuntu20.04 Autoware.universe部署实战:从环境配置到避坑指南
  • C语言高精度算法实战:从加减乘除到阶乘的完整代码解析
  • 苍穹外卖项目实战:无商户号模拟微信支付的完整实现方案
  • 新手必看:Qt属性系统完全指南(含setProperty实战代码)
  • 深入解析Dell十四代阵列卡模式切换:为何混合模式不再支持