当前位置: 首页 > news >正文

Tokenmaxxing 已死?新激励因素让其或重焕生机,多 AI 工具与模型有新动态

Tokenmaxxing:真的已死?

一般来说,花数万美元做某事,人们期望看到“投资回报”,不过消费者有时会把钱花在浪费时间或带来痛苦的事情上,这也是赌博应用受欢迎的原因。而企业领导者通常不会随意烧钱,除了 Tokenmaxxing 这种现象。

Tokenmaxxing 曾是企业高管鼓励员工在无用任务上消耗大量代币的现象,Meta 就因将绩效评估与代币使用量挂钩而饱受批评。很多人认为企业领导者愚蠢,但其实可能是他们故意为之。

几个月前,很多人抗拒使用 AI 工具,即便使用也常导致糟糕结果。自上而下的 Tokenmaxxing 政策是高管打破僵局的手段,如今该政策达到了预期效果,每个人至少会在一定程度上使用 AI 进行编码。然而,代币使用量增加恰逢 OpenAI 和 Anthropic 准备上市,它们限制使用量、提高 API 价格,代币补贴减少,团队开始取消无限制使用代币的政策,Tokenmaxxing 看似已死。

新激励因素:“正确累积”

AI 工具的前景是能在无需人工监督下完成困难繁琐任务,但此前让 AI 可靠长时间运行会出现“错误累积”问题。现在进入新阶段,花更多代币能带来更好结果,即“正确累积”。

“正确累积”改变了局面,人们会想大量使用代币,这就是新的 Tokenmaxxing。在网络安全领域已看到这种情况,Anthropic 的 Mythos 在计算机安全任务方面表现惊人,为加固系统需花费比攻击者更多代币发现漏洞。

“循环”与 Tokenmaxxing 未来

“循环”的基本理念是让智能体运行到回合结束后重新启动提示,可自动分解复杂任务。它并非新事物,以前叫“拉尔夫·威格姆循环”。以前让“循环”起作用困难,现在“正确累积”使其变得简单。

Tokenmaxxing 可能只是暂时死亡,前沿团队正在构建让智能体 24 小时运行的基础设施,大型企业迟早会意识到成本效益变化。真正的赢家是开源模型平台,顶级实验室的 Tokenmaxxing 行为难通过 CFO 审查,开源模型以循环方式运行会更受欢迎。

Tokenmaxxing 有两种类型:为开发者大量消耗代币和为管道大量消耗代币。目前越来越多一次性基于管道的工具由通用平台完成更好,这将导致市场部分的 Tokenmaxxing 行为再次增加。最终可能会出现“软件工厂”,虽目前工程师高额代币花费是炒作,但其中有一定道理,大量消耗代币的激励因素潜伏着。

其他 AI 资讯

GPT 5.6 部分推出

OpenAI 开始对 GPT - 5.6 系列进行有限预览,包括旗舰模型 Sol、平衡模型 Terra 和快速经济的模型 Luna。Terra 性能与 GPT - 5.5 相当但成本减半,Luna 以低成本提供强大能力。计划未来几周全面可用,发布前向美国政府预览,先对部分受信任合作伙伴有限预览。《华盛顿邮报》分析称美国政府将决定谁能使用 ChatGPT 最新升级版,政府加强了对 AI 行业监管,监管过程不透明,各方反应不一。

Mythos 部分解禁

美国政府向部分美国公司发布了强大的 Anthropic 模型 Mythos,周五解除对 Claude Mythos 5 AI 模型的禁令,允许向 100 多家美国机构发布。两周前政府对 Mythos 实施出口管制,该模型及其姊妹模型 Fable 5 停止运行。信中未提及 Fable 5,接近谈判人士表示也在考虑发布 Fable,但时间不确定。这是一次挑选赢家和输家的行为。

OpenAI 发布高速推理工具

OpenAI 发布的工具将在 Cerebras 的高速推理机上以每秒约 750 个代币的速度运行,速度相当快。目前将 AI 工具视为异步操作符合理,若 AI 速度非常快,可能会回到更同步的操作模式。

开源模型表现出色

像 GLM 5.2 这样的开源模型虽不是最先进的,但比前沿模型便宜得多。GLM 5.2 每百万输入代币约 1.4 美元,每百万输出代币约 4 美元,Opus 4.X 系列每百万输入代币 5 美元,每百万输出代币高达 25 美元,Anthropic 的 Haiku 4.5 在价格上与 GLM 5.2 接近,但 GLM 5.2 表现远超 Haiku,在某些基准测试中甚至比 GPT 5.5 还强。

OpenAI 推出自研推理芯片

OpenAI 推出了一款由博通制造的自定义推理芯片 Jalapeño,该处理器是与博通合作设计和制造的,专门为满足 OpenAI 推理系统的独特需求而设计,OpenAI 自己的 AI 模型协助了芯片的开发。

关于本文的讨论

Max Iyer 提出疑问:“正确累积”主要在编码或数学领域被观察到吗?还是在其他复杂的现实世界领域也有体现?特别是对于开放式任务而言。如果“正确累积”可靠,为什么 Anthropic 不用于解决未解决的数学猜想等问题?任务的训练分布要偏离到什么程度,情况才会变回“错误累积”呢?”

http://www.jsqmd.com/news/1097125/

相关文章:

  • 函数式编程思想不可变性与纯函数
  • WaveTools鸣潮工具箱:如何一键解锁120FPS高帧率游戏体验
  • 别再手动查基因了!手把手教你用MSigDB数据库快速搞定Hallmark、KEGG和GO基因集
  • 鸿蒙开发三项知识点简述
  • 别再硬编码了!用Camunda的ProcessInstanceModification API优雅处理流程退回与跳转
  • Three.js 三维转屏幕坐标教程
  • 《从CAPM到Barra:多因子模型的演进与基于AmazingData的实战》
  • 告别TrackBar!用这个开源控件5分钟搞定C# WinForm酷炫仪表盘
  • 竞争存在论:运动三连续统——时空动力学的统一生成理论
  • GoB插件:5分钟实现Blender与ZBrush无缝3D数据交换的高效方案
  • 保姆级教程:用Frida-Dexdump一键脱掉360加固的壳(附最新脚本)
  • 会小汪观察|第44届康博会圆满收官,重塑西部康养产业新格局
  • 技术实践:通过AI聚合平台统一调用文生图、视频生成和数字人API
  • 如何3步完成Nintendo Switch大气层自定义固件安装:新手终极教程
  • 别再手动调参了!用ModelScope的pipeline,5行代码搞定图像风格迁移与视频修复
  • 学机器视觉,别先纠结 OpenCV、HALCON 还是深度学习
  • 工信局如何识别产业链中的断点与卡脖子环节?
  • 保姆级教程:用R语言mediation包搞定NHANES数据的中介效应分析(附完整代码)
  • 靠谱的儿童近视配镜
  • 鸿蒙 ArkTS 基础组件与通用样式学习笔记
  • 实测对比:DECIMER、Img2Mol、MolScribe,哪个化学结构识别工具更靠谱?
  • 参数引发的复制中断:max_binlog_cache_size 导致 SQL 线程异常的复现与分析
  • VR-Reversal终极指南:免费将3D VR视频转为2D的完整教程
  • 达梦DMRMAN备份集校验:别等数据丢了才检查!手把手教你用CHECK命令给备份上个‘保险’
  • 如何让高校科研成果更有效地对接市场需求?
  • 5分钟掌握ComfyUI中文工作流:从新手到AI绘画高手的完整指南
  • 岁月从不败美人:会保养的女人与科学养生之道
  • 长链非编码RNA Gm10451(P10451)在干细胞分化与糖尿病治疗中的关键作用
  • SAP顾问必看:手把手教你用SNOTE打补丁,从下载SAR文件到撤回Note全流程避坑
  • 2026图片去水印方法:手机电脑免费工具、PS详细步骤、在线网站推荐