当前位置: 首页 > news >正文

Token烧不起了?比肩Claude Opus 4.6免费模型来了,还将开源

养虾、养马、养人(OpenHuman)、养电子宠物,Token都快掏空钱包了。

连微软都宣告,Claude的Token烧不起了。

别急,比肩Claude Opus 4.6的 Agent(智能体)免费大模型来了。

昆仑万维旗下的天工 AI(Skywork)发布了 SkyClaw-v1.0,一个为 Agent 场景深度优化的模型。

现在免费试用,而且试用过后将开源。

即使不免费,价格也打穿地板。百万上下文窗口,输入价格最低 0.3 元/百万 token。

性能超越同级别开源对手,逼近闭源巨头。

实战如何

官方强烈推荐将 SkyClaw-v1.0 模型作为 Hermes, Claude Code 和 Codex 等智能体框架的大脑来使用,而不是标准的聊天模型。

搭配智能体框架使用,直接自然语言提示,就能完成 APP 开发。

比如下面这个航班和旅行预订 APP,就是 SkyClaw-v1.0 构建的,搜索、结果浏览、预订和行程规划视图都非常完整。

还有这类似小红书的 APP,非常完美

交互网页与游戏设计也是一把好手。

比如带有图表、股票列表、提示板和新闻布局的交互式金融市场分析终端。

直接上手就能玩的超级玛丽。

深度研究和数据可视化也非常在行。

比如写一份中国新能源汽车市场报告,市场份额和定价分析等综合到仪表板中。

硬核跑分

SkyClaw-v1.0 是为主流 Agent 环境打造的高性能模型,重点适配 OpenClaw、Hermes、Nanobot 这类智能体框架。

SkyClaw-v1.0 和 SkyClaw-v1.0-lite 与 DeepSeek V4 Flash、MiniMax M2.7、Qwen 3.6 27B、DeepSeek V4 Pro 在 6 个 Agent 基准上的对比:

在 PinchBench-v2 上,SkyClaw-v1.0 拿到 87.2 分。Claw-Eval 的 Pass^3 稳定性测试得分 59.7,平均分 74.2。

Pass^3 是个值得多聊两句的指标,它要求模型连续三次执行同一任务都成功,能力之外,更考验稳定性。智能体场景里,一次跑通不算本事,次次跑通才算靠谱。

Skywork 自研的 Skywork-Claw-Bench 得分 62.9。

横向对比,SkyClaw-v1.0 在这些 Agent 基准上全面超过 Minimax 2.7、DeepSeek V4 Flash 和 Qwen 3.6 的 35B A3B 及 27B 版本。

在 OpenClaw 相关任务上,它的表现接近体积大得多的闭源模型,包括 DeepSeek V4 Pro、Claude Opus 4.6 和 Qwen 3.6 Plus。

SkyClaw-v1.0 用更小的体量、更低的成本,做到了接近的成绩,性价比的优势非常明显。

SkyClaw-v1.0-lite 轻量版速度更快、价格更低,但继承了不错的智能体能力,比如性能依然优于 Minimax 2.7。

对成本敏感的基础 Agent 任务,lite 版是个实惠选择。两个版本可搭配使用,旗舰版啃硬骨头,lite 版跑高频轻任务。

代码任务评估上,SkyClaw-v1.0 同样有显著提升。智能体场景中,代码生成和工具调用往往是绑定的,能写对代码、能调对工具,两个能力缺一不可,SkyClaw 在这两条腿上都站得稳。

训练三板斧

模型性能从哪来?SkyClaw-v1.0 的训练围绕三个核心环节展开:环境构建、高质量数据合成、端到端强化学习。

搭环境是起点。

团队基于 OpenClaw 构建了一个高复杂度的训练模拟环境,配备了常用的高质量工具和技能,让模型在训练阶段就能探索和利用这些工具。

光有工具还不够,他们还分析了 OpenClaw 类环境中的真实用户任务,结合高频在线技能的使用统计和反馈,画出了一张工具之间的关系图。有的工具经常被组合调用,有的工具之间存在前后依赖,这些关系都被建模进来。

有了这张图,就能合成出更贴近真实用户需求的复杂任务。训练数据越像真实场景,模型的实战能力就越扎实。

数据合成做 SFT(监督微调)是关键一环。

在验证过的 OpenClaw 环境上,团队合成了大量针对中期训练和 SFT 的训练数据。

数据质量把控很严,不只看最终答案对不对,还要审查整个求解过程中每一步动作的质量。一条轨迹,答案对了但过程歪七扭八,照样淘汰。

团队还做了一系列数据混合实验,找到 Agent 任务训练数据的最优配比,这活儿看着枯燥,实际上直接决定了模型的上限。

端到端的 Agent RL(强化学习)收尾。

天工自建的 OpenClaw 环境天然支持探索和强化学习训练,不用额外搭桥铺路。端到端的智能体 RL 训练,进一步提升了模型在通用 Agent 任务上的泛化能力和稳定性。

强化学习的价值在于,模型不光学会了解题,还学会了在各种意外情况下保持镇定,该回退回退,该重试重试,不掉链子。

相比只靠 SFT 的模型,经过 RL 打磨的 SkyClaw-v1.0 在面对分布外任务时更从容,出错率更低,这对生产环境的可靠性至关重要。

三个环节走完,SkyClaw-v1.0 在主流 OpenClaw 类环境任务上表现突出,跨不同 Agent Harness(智能体框架)的泛化能力也同步增强。

训练中对环境的深耕,让模型换个框架照样能打。

SkyClaw-v1.0 通过 apifree.ai 提供服务,API 接口与 OpenAI 兼容,换行改个 base_url 就能跑起来。百万 token 的上下文窗口,适合长链路的 Agent 工作流。

天工团队特别强调了一点:SkyClaw-v1.0 的最佳使用方式是嵌入 Agent 框架,比如 Hermes、Claude Code 或 Codex,让模型在框架内完成规划、编辑、测试、迭代的完整工作流。

赶紧给你的虾、马换上 SkyClaw-v1.0 免费大脑,试试效果如何。

参考资料:

https://skyworkai.github.io/skyclaw/

https://www.apifree.ai/model/skywork-ai/skyclaw-v1?tab=info

https://github.com/SkyworkAI/skyclaw

http://www.jsqmd.com/news/896576/

相关文章:

  • 2026新疆高评分持证导游TOP8榜单全维度纯玩|全年零投诉权威汇总 - 必辉旅行
  • 手把手教你用BES Audio Developer工具在线调试通话降噪(以2MIC_NS7和RX_NS3为例)
  • 多模型聚合平台如何帮助团队清晰掌控API使用成本
  • 金华黄金回收六强实力解析:福昌夏领跑上门高价榜 - 黄金上门回收
  • 2026年东莞电动阀品牌推荐榜:电动二通阀/电动迷你球阀/断电复位,精准温控与稳定品质优选 - 企业推荐官【官方】
  • 5分钟解锁专业级法线贴图:零门槛在线工具完全指南
  • Mask2Former图像分割避坑指南:从ViT特征提取到Dice损失调参的全流程解析
  • 基于Postman的Redfish接口自动化测试实战
  • AltiumDesigner PCB案牍(2)——Gerber文件交付前的CAM350校验与常见陷阱规避
  • Virtual-ZPL-Printer:告别物理打印机,高效测试Zebra条码标签的智能解决方案
  • 2026南通市本地人必选的公共卫生检测专业机构TOP5推荐!美容院、足疗店、酒店宾馆卫生检测、许可证办理,正规CMA资质检测公司排名推荐 (2026年5月商铺卫生办证最新深度调研方案) - 防水补漏3
  • 【力扣100题】53.最长回文子串
  • 基于4T2M TCAM的无损软PUF设计:硬件安全新范式
  • 安培环路定律|磁路计算核心公式 + 工程应用
  • 多人协作表格哪个好用?2026年最新工具答案来了
  • 2026年4月镀锌管采购攻略:精选厂家一览,20#无缝钢管/薄壁精密钢管/异型管/厚壁无缝钢管/方管,镀锌管公司推荐 - 品牌推荐师
  • 2026降AI率工具红黑榜:AI智能降重工具怎么选?清单来了 - 降AI小能手
  • 毕业答辩效率神器|告别熬夜改PPT,百考通AI一站式搞定答辩演示文稿
  • 魔兽世界API与宏命令工具:终极免费指南与实用技巧
  • 国际机票代理哪家强?实测3家龙头:第一名武汉圣擎,售后无人能及! - 土星买买买
  • 如何快速完成音频格式转换:免费工具FlicFlac的完整指南
  • 2026年反渗透水处理设备厂家怎么选?标杆企业全景洞察与应用深度解析 - 深度智识库
  • 告别笨重的串口助手:用SEGGER RTT Viewer实时抓取单片机日志的完整配置流程
  • 从‘unwrap’函数到三维点云:Matlab四步相移条纹三维重建全流程拆解
  • 保姆级教程:在Ubuntu 22.04上用SCons为CanMV K230大小核交叉编译CoreMark(附完整SConstruct文件)
  • 2026济宁市本地人必选的公共卫生检测专业机构TOP5推荐!美容院、足疗店、酒店宾馆卫生检测、许可证办理,正规CMA资质检测公司排名推荐 (2026年5月商铺卫生办证最新深度调研方案) - 防水补漏3
  • 3个被忽略的习惯断点,正在悄悄废掉你的ChatGPT生产力:即刻启用「Prompt-Action-Review」三阶追踪表
  • 3步搞定Nginx配置美化:新手也能快速上手的终极指南
  • STM32CubeMX实战指南:定时器中断精准控制与多场景应用
  • Windows软件测试员的效率神器:用Python uiautomation + Inspect.exe实现‘所见即所得’的控件抓取与回放