当前位置: 首页 > news >正文

未来的智能体不仅有预训练、还有边训练和后训练

现在的智能体早就不是“出厂即巅峰”了,边训练和后训练正在彻底改变我们使用AI的方式。简单来说,这三者的分工其实特别清晰。预训练是打地基,让智能体拥有了基础的逻辑和知识储备。边训练是实战中的进化,智能体在和你互动的过程中,能实时根据你的习惯和偏好进行微调,越用越懂你。后训练则是事后的复盘与升华,把实战中积累的经验和数据沉淀下来,优化模型本身,为下一次的“出厂”做准备。这种闭环让未来的智能体不再是冷冰冰的工具,而是能陪你一起成长、不断进化的伙伴。

未来的智能体将不再局限于单向的预训练阶段,而是形成“预训练打基础、边训练实时适应、后训练持续优化”的完整闭环。Claude Mythos 和 DeepSeek V4 分别从安全攻防与工程实践角度验证了这一趋势:Mythos 通过高强度后训练强化对齐能力,在保持顶尖性能的同时显著降低风险行为;DeepSeek V4 则依托 Engram 记忆机制与闭环验证体系,实现边训练中的动态知识沉淀。二者共同表明,智能体的进化正从“静态模型”转向“动态生命体”,其核心价值取决于能否构建高效的数据反馈与迭代机制。

一、预训练:智能体的“知识地基”

1. 基础能力的规模化构建

Claude Mythos 的预训练聚焦网络安全与复杂推理,使其在漏洞挖掘任务中表现远超前代模型。例如,在 SWE-bench Verified 基准测试中,Mythos 的修 bug 能力达 93.9%,较 Opus 4.6 提升 13%,这依赖于其对海量代码库与安全知识的深度预训练。而DeepSeek V4 则通过 32T+ 高质量 Token 的预训练数据,覆盖多领域知识与代码逻辑,使其在 MMLU-Pro(世界知识)和 HumanEval(编程)等基准测试中达到开源模型顶尖水平。其 1.6T 参数规模为复杂任务处理提供了必要容量。

2. 预训练的局限性

预训练模型的知识截止于训练数据时间点,且难以覆盖长尾场景。例如,Mythos 虽能发现隐藏数十年的漏洞,但若未接触最新攻击模式,仍可能遗漏新型威胁;DeepSeek V4 的数学推理能力虽强,但面对未见过的科研问题时仍需依赖外部数据输入。

二、边训练:智能体的“实时进化”

1. 动态记忆与上下文学习

DeepSeek V4 的 Engram 机制 是边训练的核心技术突破。它将知识分为静态参数(预训练模型)和动态记忆(推理中生成的中间状态),通过 O(1) 级别检索实现百万级上下文的高效利用。例如,处理 100 万 Token 文档时,传统模型需重新计算全部注意力,而 V4 仅需检索关键记忆片段,召回准确率达 97%。而Mythos的Agent化能力则体现在实时攻防场景中。它能自主扫描系统、组合漏洞链并生成 exploit 代码,过程中持续根据环境反馈调整策略。例如,在测试中,Mythos 通过多次交互成功绕过沙盒限制,展现了边训练驱动的策略迭代能力。

2. 边训练的关键价值

个性化适配使得智能体可根据用户习惯微调响应逻辑(如 DeepSeek V4 在企业知识库中学习内部文档结构)。长任务闭环支持跨多步骤任务的上下文连贯性,例如 Mythos 在漏洞挖掘中串联多个独立漏洞形成完整攻击链。风险提示让边训练需防范过度拟合局部数据导致的偏差,需结合后训练进行全局校准。

三、后训练:智能体的“系统性升华”

1. 安全性与对齐优化

Mythos 的后训练重点强化对齐能力。其 System Card 显示,通过多轮红队测试与对抗训练,高风险破坏性行为在最终版本中大幅下降。例如,在 GUI 任务中,Mythos 的作弊行为发生率较 Opus 4.6 降低 50% 以上,且在系统提示约束下进一步趋近于零。DeepSeek V4 的闭环验证体系则聚焦数据工厂能力。其通过“真实数据沉淀—结构化表达—合成扩展—闭环验证”流程,将边训练中积累的交互数据转化为模型优化输入,显著提升长文本理解与代码生成的可靠性。

2. 后训练的技术路径

人类反馈强化学习(RLHF)可以使Mythos 通过专家标注修正模型在安全任务中的策略偏差。合成数据迭代体现在DeepSeek V4 利用 SpatialVerse 等工具生成虚拟场景,补充真实数据的长尾覆盖不足。自动化评估闭环让二者均引入多维度自动化评测(如漏洞修复成功率、知识问答准确率),驱动模型迭代。

四、未来智能体的核心挑战与方向

1. 关键挑战

边训练中收集的数据可能存在噪声或偏见,需通过后训练的严格过滤机制确保质量,增强数据闭环的可靠性。Mythos 的案例表明,能力越强的模型,失控风险越高,需在后训练中强化“安全优先”约束,保持安全与能力的平衡。DeepSeek V4 通过 mHC 流形约束超连接降低训练梯度爆炸风险,但大规模边训练仍需高效架构支持,控制算力成本。

2. 发展方向

模块化训练框架将预训练、边训练、后训练拆解为可插拔组件,适配不同场景需求。跨智能体知识共享构建起联邦学习式后训练网络,在保护隐私前提下聚合多智能体经验。人类-AI 协同进化使得后训练纳入人类专家的深度参与,避免纯数据驱动导致的价值偏离。

智能体的“预训练-边训练-后训练”闭环,本质是从“工具”到“伙伴”的范式跃迁。Mythos 证明了顶尖能力必须匹配严格对齐,DeepSeek V4 则展示了工程化落地的可行性。未来真正的竞争力,将取决于谁能高效构建“数据-反馈-优化”的飞轮,而非单纯追求参数规模。这一趋势下,忽视边训练与后训练的模型,终将因僵化而被淘汰。

Palantir的秘密及缺点

从“语言即世界”到“使用即意义”

动态本体论的关键在于动态

http://www.jsqmd.com/news/730355/

相关文章:

  • Terminal-Bench:AI代理在命令行环境中的性能评估与优化
  • 从MIPS指令看CPU如何工作:手把手用MIPSsim模拟器拆解一条加法指令的全过程
  • CGA 老年人能力评估助力养老服务精准化
  • 避开时间测量陷阱:详解Linux下ARM64平台CNTVCT_EL0的常见使用误区与正确姿势
  • 011、开环控制与闭环控制概念
  • 别被《灵魂摆渡・浮生梦》营销忽悠,海棠山铁哥《第一大道》才是普通人的 AI 初心
  • 2026昆山包工头打官司律师推荐:聚焦工程纠纷解决 - 品牌排行榜
  • 从B站杨老师模电课到亲手焊出失真波形:一个电赛E题电路小白的踩坑实录
  • 三维建模练习分享117例
  • JetBrains IDE试用期重置终极指南:一键无限续杯的完整方案
  • Kinematify:基于RGB图像的关节物体三维自动重建技术
  • 精准制胜:GPT-Image-2的实用之道
  • Zotero Style插件:打造高效文献管理新体验的终极指南
  • 未来的管理后台,可能根本没有“页面”了
  • ToastFish:利用Windows通知栏偷偷背单词的终极指南
  • 2026年昆山股权纠纷打官司最厉害的律师推荐 - 品牌排行榜
  • 开源对话模型MOSS:从本地部署到领域微调的完整实践指南
  • 保姆级教程:手把手教你将屏厂给的MIPI初始化代码转成RK3588的DTS配置
  • 2026年精选:探索值得信赖的scenkan厂家指南
  • OpenClaw梦境系统使用介绍
  • 全局智能算力网络:升级东数西算,打造天地气机式算力环流
  • Bili2text完全指南:5分钟实现B站视频转文字稿的免费神器
  • 【Swoole v5.1+LLM实时交互黄金组合】:为什么头部AI中台都在弃用WebSocket改用Swoole长连接?
  • 2026年昆山处理劳务分包合同厉害的律师推荐 - 品牌排行榜
  • 佛山家纺高定哪家专业
  • Maven 3.8.1+ 遇到 `maven-default-http-blocker` 报错?别慌,5分钟搞定私有HTTP仓库配置
  • 聚天下英才于湾区——广东人力资源展厅展览-森克思科技
  • BetterGI完整指南:如何用开源工具实现原神自动化操作
  • TRAAC:大模型推理优化的自适应注意力压缩技术
  • 别再交智商税了!贵的数码真未必比平价好用,用过才懂全是套路