当前位置: 首页 > news >正文

Kimi K2.5登顶开源第一!15T数据训练秘籍公开,杨植麟剧透K3

在Hugging Face上,Kimi K2.5登上了Trending榜首,下载量超过了5.3万。

开源热榜第一轮流做,现在花落Kimi。

在Hugging Face上,Kimi K2.5登上了Trending榜首,下载量超过了5.3万。

Kimi K2.5主打Agent能力,在HLE-Full、BrowseComp等测试集中,成绩超越了GPT-5.2、Claude 4.5 Opus以及Gemini 3 Pro等旗舰闭源模型。

而且极具性价比,在BrowseComp上达到比GPT-5.2更高的表现,Kimi K2.5的资金消耗仅有不到5%。

现在,官方的技术报告也已经亮相,Kimi K2.5怎样练成,我们可以从中窥探一些答案。

原生多模态,15T Token混合训练

Kimi K2.5在K2的架构基础上,投入了15T的视觉与文本混合Token进行持续预训练。

它选择了一条原生多模态的技术路线,让同一套参数空间直接处理视觉信号与文本逻辑。

在15T这样庞大的数据量级下,视觉理解与文本推理能力实现了同步增强,一改往日“此消彼长”的局面。

这种统一的参数架构,让模型能够像理解语法结构一样,精准解析像素背后的逻辑语义。

有了这套原生底座,K2.5解锁了“视觉编程”能力。

因为能在像素层面进行推理,它具备了从视频流直接逆向推导代码的能力。

面对一段包含复杂滚动触发特效或动态交互布局的网页演示视频,模型能够准确捕捉视觉元素随时间轴变化的规律,并将其直接映射为可执行的前端代码。

这一过程跳过了“视觉-文本”的中间环节,让开发需求能够以最直观的视觉形式传递给模型,实现了从设计演示到代码实现的无损转化,即便是极其复杂的动态交互逻辑也能被精准还原。

为了解决代码能跑但样式不对的问题,K2.5还集成了自主视觉调试机制,在代码生成并渲染出界面后,模型会调用视觉感知能力对实际运行的页面进行验收。

一旦发现布局错位、样式偏差或动画异常,模型会自动触发文档查询工具,查阅相关技术文档定位问题,并对代码进行修正。

这种“生成-观察-查阅-修复”的自动化闭环,模拟了高级工程师的调试流程,让模型具备了独立完成端到端软件工程任务的可靠性。

超大规模“智能体集群”

为了能更好地解决复杂任务,Kimi K2.5还搭载了Agent Swarm架构。

这是一套能自主构建百人规模数字化团队的并行系统,让模型获得了“分身”能力,可以瞬间创建并编排多达100个子智能体,并支持调用1500个工具的并行工作流。

这种机制将全网深度搜索或海量数据分析等复杂任务,拆解为无数个同步进行的子任务,利用集群算力大幅压缩了处理时间。

指挥这支庞大团队运转的是PARL(并行智能体强化学习)框架。

该框架建立了一套严密的指挥体系,由核心的调度器和众多子智能体构成。

调度器如同指挥官,负责宏观层面的任务拆解与分发;子智能体则作为执行层,在参数冻结的状态下专注于高效完成具体指令。

这种动静结合的设计,既赋予了系统灵活规划的能力,又保障了大规模并行操作的逻辑严密性。

为了让模型学会高效分工,训练过程采用了一套阶段性奖励塑造策略。

系统在初期会优先激励调度器进行并行化探索,培养其“多管齐下”的直觉;随着训练深入,奖励重心平滑过渡至任务的最终成功率。

这种循序渐进的训练方式,让模型建立了在保证结果准确的前提下,最大化利用并发优势的思维习惯。

在效率评估上,系统引入了临界步骤作为核心指标,基于并行计算的关键路径原理,聚焦于调度开销与最慢子智能体的耗时。

这种机制倒逼模型在决策时,必须优先考虑如何缩短端到端的实际等待时间。只有在能切实提升响应速度的情况下,系统才会增加并行度,从而在极致速度与计算资源消耗之间找到了最佳平衡。

杨植麟剧透Kimi K3

K2.5上线后不久,月之暗面的三位创始人——杨植麟、周昕宇和吴育昕现身Reddit,来了一场长达3小时的AMA问答。

面对全球开发者和的提问,他们直接把代码背后的思考、未来的剧透甚至尴尬的Bug都摊开来聊了个透。

对于大家最关心的下一代Kimi K3,团队给出了一个相当硬核的预告——它很可能基于线性注意力机制。

杨植麟更是直言,虽然不敢打包票,但K3相比K2.5哪怕没有10倍的提升,也绝对会有质的飞跃。

针对K2.5偶尔会自称Claude的趣闻,团队也给出了坦诚的解释——

这是因为Kimi“吃”了太多高质量的编程训练数据,而这些数据里充斥着Claude的名字 。这就像读了太多某位作家的书,说话难免带上对方的口头禅。

此外他们也对算力焦虑问题进行了回应,算法负责人周昕宇抛出了一句“创新往往诞生于约束之中(Innovation loves constraints)” 。

在他们看来,堆砌算力不是通往AGI的唯一路径,在有限的资源下逼出更高效的算法、更聪明的架构,才是这家实验室真正的“登月”野心 。

http://www.jsqmd.com/news/338969/

相关文章:

  • 2026 年,鸿蒙是普通开发者最后一次上车机会?
  • 为什么说队列是万能药?
  • 【AI大模型驱动】多模态知识图谱增强型搜索交互与答案生成架构解析
  • LangChain开源框架应对长任务挑战,Deep Agents如何解决上下文管理难题
  • IDEA 2025.3 骚操作,有点跟不上了!
  • PyCharm中安装backbone失败,报错:ERROR: Could not find a version that satisfies the requirement backb...如何解决?
  • 今年后端这收入是认真的吗?
  • 2026.2.3 做题记录
  • 微信红包,腾讯元宝学不会
  • Ai 算法资源合集
  • 【问题解决】OSError: Can‘t load tokenizer for ‘xxx/xxx-model‘
  • 雷军辟谣小米二手车“崩盘”:SU7保值率第一,超特斯拉保时捷;千问App宣布投入30亿元启动春节活动;SpaceX官宣与xAI合并 | 极客头条
  • Go 微服务分布式事务 TCC 模式实战全指南
  • 企业级 AI 数据分析实践指南:Spring AI Alibaba DataAgent 全流程落地
  • CRM系统深度横评:从数据录入到管理可视化,谁真正解决了销售团队的核心痛点?
  • Ubuntu vulkan不识别NVIDIA,如何解决?
  • 专家点评Nature | 邵振华/王晓辉/刘剑峰/杨胜勇联合揭示致幻剂诱导血清素受体5-HT2AR的非经典信号通路
  • 2026CRM选型手册:7 大品牌全流程能力深度解析与对比
  • 保姆级教程|用Snakemake一键跑通RNA-seq数据分析流程
  • sklearn中的学习曲线使用时机:用sklearn来观察模型表现时,应该是在模型训练前对未训练的模型使用,还是对训练完的模型使用??
  • Nature出版集团对学术图表的要求,非常详细的解析各个要点,对其他期刊的投稿也很有参考价值
  • Science丨雷晓光团队取得生物催化领域突破
  • MATLAB R2023a 的“优化工具箱(Optimization Toolbox)”里,为什么在图形界面(GUI)里找不到“模拟退火
  • Microbiome | 中国海洋大学王高歌团队揭示海带幼苗白化病致病生物组与宿主之间的复杂相互作用
  • Nature Genetics | 基于突变注释网络的泛基因组压缩
  • 为什么jupyter画热力图,坐标轴上都是空值,其他数据都很正常,但是坐标轴上一直是空的,是数据的问题还是代码的问题,如何解决?
  • 咸鱼流出可上DDR3内存的NAS妖板,支持4K解析,高达9个SATA接口,带MSATA扩展,还带双千兆网口,适合做多盘位NAS或软路由!
  • ICLR 26 | 字节 Depth Anything 3:单Transformer统一3D视觉,刷新SOTA!
  • 国产 BI 已经崛起,一套私有化+源码的独立数据中台,建议收藏!
  • PySide6 流程图编辑器实战:从需求到上手指南(附代码结构解读)