机械操作耗尽精力?dothething:一款全自主本地 AI 代理,替你接管系统控制与网络任务
人跟机器打交道,最熬人的往往不是那些需要灵感的创造,而是机械重复的繁琐切换。你大概也经历过这样的日常:为了整理一份报告,要在浏览器里开上十几个标签页,把检索到的信息提取下来,转身去终端里敲几行命令处理格式,最后再挨个保存进本地文件里。这两年市面上固然涌现出了一大批标榜“智能代理”的工具,但它们多半还是个需要人守在屏幕前随时投喂指令的对话框;一旦任务稍微跨越了单一环境的边界,那些原本信誓旦旦的代理便立刻乱了阵脚,只能老老实实地吐出一堆指导步骤,让你自己动手去跑。
这就叫人十分疲惫:我们本意是想雇个跑腿的,结果却招来一个光说不练的顾问。
dothething(简称 DTT)大概就是为了终结这种尴尬而生的。它是一款跑在本地终端里的全自主 AI 代理;按照它自己的口号,“你把事情描述清楚,它去把事情办妥”,也就成了。这并不是一句虚张声势的空话。与那些被束缚在沙盒里的网页端助手不同,DTT 直接接管了大量的底层工具链。当你用普通的自然语言交代完任务后,它会在后台自行规划步骤,动用本地的 SearXNG 实例去检索网络,调用伪装浏览器去爬取页面乃至默默绕过验证码,接着在你的系统里读写文件、运行 shell 命令,甚至通过自带的邮件模块去收发信息。
它不用你一步步盯着。像个老练的工程师一样,它自己制定计划、评估结果;如果中途卡壳了,要么换个工具继续试,要么明确告诉你究竟卡在了哪一个环节。
不过,这里头最棘手的问题其实在于大模型的上下文消耗。一个代理如果在复杂的系统环境中不断试错,不出几轮,积累的无用日志就会把模型的记忆撑爆,账单数字也会变得极其难看。
DTT 的处理机制倒是颇为务实:它在工具调用的反馈链路上加了一层过滤。比如,当你让它提取一大批文件信息时,它不会傻乎乎地把几十万字的原始输出直接塞给主控模型,而是先让相对廉价的模型做一次精准浓缩,再把提炼后的干货递回给负责决策的“大脑”。加上对提示词缓存的深度利用,这种设计硬生生把冗长任务的运行成本压了下来。它还内置了并发编排模式,能把一项大工作拆给十几个平行的子代理同时开工。
倘若你实在担心它跑脱缰了,大可设一条死线,比如“花到五美元就强行停下”;它便会乖乖地把当前状态存档,留着你下次随时唤醒接管。
我总怀疑,那些热衷于给大模型套上拟人化外壳的产品方向是有些偏航的。我们需要的,就是一个不知疲倦、能把手伸进各个系统接口里的自动化引擎,而不是一个成天问你“接下来该怎么办”的聊天伴侣。DTT 把调度、缓存、容错与命令行缝合在了一起;它允许你随时敲击键盘介入干预,也允许你干脆把窗口晾在一旁去做别的事。
把那些占据了人类大半天时间的脏活累活,利落地塞进后台,然后静静地交出一个结果,这才是真正管用的路数。
https://github.com/fluffypony/dothething
