当前位置: 首页 > news >正文

Agent 真正难的地方,不是更聪明,而是先学会“被管住”

最近看了一篇名为SemaClaw: A Step Towards General-Purpose Personal AI Agents through Harness Engineering的论文,我觉得最有意思的,不是它又做了一个多智能体框架,而是它把一件很多人已经隐约感觉到、但还没说透的事讲明白了:Agent 往前走,拼的越来越不是模型多会答题,而是你有没有一整套系统,能把这个会动手的东西接住、管住、留住。论文作者把这套东西叫harness engineering。这个词直译有点怪,我更愿意把它理解成:给 AI 装上缰绳、马鞍、刹车、护栏、审批流和记忆仓库。没有这层,模型再强,真放进日常工作里也会让人心里发毛。

你想想就知道了。

一个只会聊天的模型,出错最多是说错话。一个能连邮箱、日历、文件系统、外部 API 的 Agent,出错就不是“答非所问”这么轻松了,它可能发错邮件、改错文件、跑错脚本、把不该动的东西动了。论文里把问题拆得很实在:复杂任务怎么调度,危险动作怎么授权,长期协作的记忆怎么沉淀。说白了,这已经不是“提示词写得巧不巧”的问题了,这是在搭一个能长期上班的系统。

Agent 往前走,拼的越来越不是模型多会答题,而是你有没有一整套系统,能把这个会动手的东西接住、管住、留住。


先说调度

现在很多所谓多 Agent 系统,看起来像一群人分工,实际上还是“总控”一个人在脑子里把活全想完,别的 Agent 更像摆设。论文把这种情况直接叫pseudo-orchestration,伪编排。SemaClaw 想改的,就是这个毛病:别让一个总控 Agent 在脑内演完整部戏,而是先把任务拆成一张带依赖关系的清单,再交给调度器去按顺序、按并行关系执行。

你可以先把它理解成项目经理不是口头吩咐,而是先把任务写进一张看板:哪个先做,哪个等前置结果,哪个能并行,出了错卡在哪一环,一眼能看见。更专业一点说,它用的是LLM 负责动态拆解,调度器负责确定性执行的两段式 DAG 编排。这个设计不花哨,但很对路,因为它终于把“灵活”和“可追踪”放到了一起。

再看安全

以前聊模型安全,大家更多担心的是它会不会生成危险内容。到了 Agent 这一步,焦点已经变了:真正可怕的不是它说了什么,而是它做了什么。SemaClaw 里有个设计叫PermissionBridge,我觉得很值得别的 Agent 产品学。它不是把权限控制做成外挂,也不是事后补个提醒,而是直接把“审批”做成运行时的一等公民:一旦 Agent 要执行高风险动作,系统就在动作边界停下来,把工具名、参数、理由一起发给人看,你批准、拒绝或者修改之后,它再继续。更妙的一点是,连 Agent 主动来问你“这个地方我需要澄清一下”也走同一座桥。就像一个团队里,不管是要盖章,还是要补信息,都走同一套协作入口,而不是东一块西一块。这样人参与进来,不像打断流程,反而就是流程本身。

真正让我多看两眼的,其实是它对“记忆”这件事的处理

很多人一说 Agent 记忆,第一反应还是“把聊天记录存起来,下次再检索”。这当然有用,但远远不够。论文里有个说法我很认同:问题不是上下文窗口够不够大,而是认知密度够不够高。桌上摊满文件,不等于你就更清醒;很多时候只是更乱。SemaClaw 的做法是把上下文拆成三层:working memory像你桌面上此刻正在看的材料,external memory像档案柜里随取随用的历史记录,SOUL.md则更像这个 Agent 的岗位说明书加行为准则,告诉它“你是谁,你平时怎么做事,哪些边界别碰”。这就比“把所有历史全塞回去”高级得多,因为它终于承认:记忆不是堆字数,记忆是分层治理。

再往前走一步,它还想做“知识沉淀”,不只是“会话留档”

这点特别关键。聊天记录更像流水账,能查,但不一定能长成资产。SemaClaw 里单独做了一个 wiki 式知识层,让 Agent 和人都往里面写、一起改,而且底层不是黑箱数据库,而是用户自己能拿在手里的 Markdown 文件。这个思路挺朴素,但我觉得方向很对:真正有价值的个人 Agent,不该把你和它共同积累下来的东西锁进某个平台的专有格式里,而该让这些东西慢慢长成你自己的知识仓库。论文甚至把这叫成一种从 “vibe working” 到 “vibe learning” 的过渡——不只是把事做完,还要把做事过程中形成的理解留下来,越用越值钱。


所以这篇东西最值得记住的一句话,不是某个模块名,而是那个判断:AI 工程正在从 prompt engineering、context engineering,往 harness engineering 走。这不是文字游戏。因为当模型能力越来越接近,差异就会更多落在系统层:谁能拆任务,谁能管上下文,谁能把危险动作拦在边界上,谁能让一次次协作沉成可复用的知识。论文里还引用了 LangChain 在 Terminal Bench 2.0 上的一组实验:模型不变,只改 harness 配置,任务完成率就能从 52.8% 拉到 66.5%。这个数字未必能直接外推到所有场景,但它至少说明一件事:很多人以为是模型不够强,结果真卡住的,可能是外面的架子没搭对。

还有一个很接地气的小设计,我挺喜欢:它把定时任务分成四种模式,提醒、脚本、Agent、脚本加 Agent 混合,不同复杂度走不同路径。这个想法看着像小事,其实很成熟。不是每个定时任务都值得叫一次大模型开会。一个固定提醒,根本不需要推理;一个确定性的文件处理,也没必要让 Agent 进去“思考人生”。很多系统烧 token,不是因为任务难,而是因为懒得分流。SemaClaw 这点至少说明,它在认真区分哪里该用智能,哪里别假装智能。

当然,这篇论文也没有把自己吹成“终局答案”,这反而让我更信一点

它自己承认了几个麻烦:持续存在的 Agent 人设会不会慢慢漂移,漂到名字还是那个名字,里面已经不是那个人了;固定 roster 的团队遇到新任务,会不会不够灵活;“中等模型配好 harness,能追平没 harness 的前沿模型”这件事,他们目前也还没有自己做出严格验证;另外,现阶段的交互面主要还是 CLI 和 Web UI,更广泛的消息、邮件、语音接入还不完整。这个态度挺好。Agent 这波最怕的不是有人 ambitious,最怕的是把一堆还没解决的工程问题包装成已经实现的未来。

所以我读完最大的感受是,接下来再看任何 Agent 产品,真的别只问一句“你们底层用的是哪个模型”。

更该问的是:复杂任务是谁拆的?拆完能不能看见?高风险动作谁审批?上下文乱了谁收拾?长期记忆放哪儿?那份记忆到底归谁?这些问题听起来不性感,甚至有点土。可真正能把 Agent 从 demo 变成长期搭档的,偏偏就是这些土问题。

一个真正有用的个人 Agent,未必要是最能说、最会秀推理链的那个。

它更像一个靠谱同事:会拆活,懂边界,知道什么时候该停下来问你,做完事还能把经验整理进仓库,下次不用再从零来。到那时候,Agent 拼的就不只是脑子了,而是整个“工作系统”的质量。谁先把这层东西做扎实,谁才更像是在认真做下一代个人计算。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/674269/

相关文章:

  • 5G/6G毫米波设计必看:如何用信道建模参数(RMS时延扩展、K因子)指导你的系统设计?
  • 2026,从“发券”到“发卡”:当外卖折扣变成一门关于“用户关系”的长期生意
  • 内容运营的配图噩梦:我是怎么用工具批量给文章插入图片解决的
  • 如何记录SQL最后一次登录时间_利用触发器自动更新字段
  • 无需编程!KH Coder:让文本数据开口说话的神奇工具
  • React 离线数据同步:基于逻辑时钟(Logical Clock)的 React 本地存储与云端冲突解决算法
  • 大师之上,再造大师:玲珑轮胎“三个向上”战略的深度解码
  • 不同PHP版本对CPU性能有影响吗_硬件与PHP版本匹配建议【说明】
  • 【车载AI落地实战指南】:Dify低代码构建高可靠问答系统,3天完成POC验证(附车企实测数据)
  • Claude Code 启动失败修复指南
  • 如何彻底释放华硕笔记本的隐藏性能?G-Helper轻量控制工具全解析
  • 企业网站设计|网站建设公司哪家好?2026十家网站制作公司深度盘点
  • 别让软件偷偷开机!Kylin Desktop V10 SP1开机启动项管理保姆级教程
  • 基于STM32f103vet6单片机的水质监测系统:原理图、仿真图、PCB板图及源码资料齐全
  • 56. django之Form组件
  • 东方修仙模拟器:基于 鸿蒙Flutter 状态机与 CustomPainter 的境界跃升与天劫渲染架构
  • 如何在Mac上安装飞秋:跨平台局域网通信的终极解决方案
  • OBS多平台直播插件终极教程:一键实现多平台同时推流
  • 国内半导体全产业链展会哪家好?2026年国内半导体产业链展会优选 - 品牌2026
  • FlipIt翻页时钟屏保:为Windows桌面注入复古数字美学的优雅时间艺术 ✨
  • SAP PP生产订单状态管理实战:从系统状态到用户状态,手把手教你配置审批流与差异控制
  • 2026年比较好的预算系统高性价比公司 - 品牌宣传支持者
  • C# 14原生AOT部署Dify客户端(Windows/Linux/macOS三端全兼容终极方案)
  • 南北阁Nanbeige4.1-3B计算机组成原理:CPU设计模拟
  • XML 用途
  • 工业巡检机器人联网方案:IR615 如何打造双链路稳定通信与远程运维
  • Linux设备树实战:如何为IMX6ULL开发板定制dts文件(附完整编译流程)
  • 养老系统|养老系统定制|AI养老系统成品
  • 旧电视焕新颜:手把手教你用mstar-bin-tool解包康佳LED37R5200PDF固件,实现精简与root
  • Java:处理URL路径重复