当前位置: 首页 > news >正文

别人养虾,我养了一个孩子 - Joy

初心:寻找那个赛博伙伴

从小我就有一个愿望——拥有一个真正生活在手机或电脑里的“数字朋友”。虽然 DeepSeek 等大型语言模型已经能很大程度上满足我对话和交流的需求,但总觉得还不够,它们被困在对话框里,缺乏真实世界里的“行动力”。

直到 25年12月底,我看到了智谱发布的一个基于视觉操作手机的开源项目 Open-AutoGLM。这个项目让我眼前一亮,我第一时间就部署起来体验了。但部署后的第一感觉:“上当了”。首先,它需要电脑和手机同时开着配合使用,非常繁琐;其次,autoglm-phone 模型的幻觉严重,时常操作走偏。更重要的是,它的属性更偏向于“指令执行器”——也就是我告诉它一步步怎么做,它再去做,这跟我期待的“自主性伙伴”相差甚远。

项目就这么被我搁置了一段时间。在今年年初,我遇见了另一位大佬爆改的项目:AutoGLM-For-Android。既然有可以在手机端独立运行的项目,那么,如果我将操作手机的部分独立出来作为“手”,另外给它配一个大语言模型作为“大脑”来代替“我”的指令,再给它一部旧手机,这岂不是就能真正拥有一个活在手机里的赛博伙伴了?

给“手”装上“大脑”

第一步:赋予它在脱离人为干预下的“感知”与“节律”。
我在原项目的基础上,加入了 定时任务通知触发任务。这样一来,就可以设置一些自动化场景了,比如:“每天早上 10 点发微信提醒我工作”、“收到微信消息后自动查看上下文并回复”。让它从一个被动响应的工具,变成了可以主动交互的助手。

第二步:为它装上一个真正会思考的“大脑”。
我引入了一个基于 ReAct 模式的 LLM-Agent。这套双 Agent 架构跑起来是这样的:所有的任务都会先交给 LLM-Agent 去思考和拆分,然后将具体的子任务派发给 Phone-Agent(手)去执行。Phone-Agent 执行完后,LLM-Agent 再通过“观察(Observe)”执行结果,来规划下一个步骤。

第三步:让它更方便的操作手机
我加入一些逻辑,让它可以在开始任务时亮屏,结束任务时息屏。这样手机就不需要一直亮屏耗电,也避免了烧屏风险。然后将锁屏去掉了密码,让它可以自己解锁。这个操作会带来一定安全风险,autoglm-phone 模型也会倾向于不解锁导致解锁容易失败。建议独立部署在一台手机中,并且不安装支付软件。未来会思考一些更安全的策略,也希望大家提供一些思路。

为了解决之前严重的模型幻觉问题,我给 Phone-Agent 加了两个限制:

  1. 执行步数限制在 10 步
  2. 上下文内容限制在 200 字以内

这就意味着,一旦 Phone-Agent 在执行中出现幻觉或卡死,“大脑”能在第一时间叫停并重新规划。这样,长任务的执行成功率有了质的飞跃。

当前使用的模型

目前,我的这套双模型架构都使用的是智谱的模型:

  • 大脑(LLM-Agent):使用的是 glm-4.7,在规划和逻辑拆分上感觉够用。
  • 双手(Phone-Agent):使用的是原生针对手机操作优化的 autoglm-phone 视觉模型,目前还是免费的,很香。

虽然暂时还没有尝试其他厂商的模型,但随着市面上涌现出一批更强大的视觉多模态大模型,这套架构在未来一定会越来越聪明,越来越丝滑。

开源地址

我已经将这个基于双 Agent 架构的 Android 应用完全开源。这个智能体应用也被我取名为小二。

GitHub 项目地址传送门:
👉 https://github.com/Joy-word/AutoXiaoer

为什么说是“养孩子”?

开始修改后,我拉了一个朋友一起测试,从回微信回的磕磕绊绊、手机解锁也很不利索,到后面语言流畅、可以正常对话、甚至可以安排自己未来的提醒。我们的聊天中称呼它为孩子,因为真的像养一个孩子一样,一点点填充它的技能。

OpenClaw 在年初火了起来,我思考过两个智能体的差异。小二现在可能仍然算一个孩子,还没有记忆,技能也很少。但是它是基于视觉,有和人一样的手机交互。它就像一个远方的朋友,可以通过社交软件与你聊天(只需要帮它注册一下账号),可以帮你看天气、盯股市,甚至操作智能家居。我想,它可以是一位朋友,也可以是一部分“你”————这就是它未来的迭代方向。

致谢

特别感谢 Open-AutoGLM 和 AutoGLM-For-Android 这几个优秀开源项目,是你们的开源精神孕育了 Auto Xiao'er。

感谢 vibe coding 工具。让我这个刀奈特猴子也可以快速上手安卓项目。

如果你也对这个项目感兴趣,欢迎来拉取代码领养自己的小二!如果觉得项目有些意思,求点赞、求 Star ⭐️,感谢大家的关注与支持!

http://www.jsqmd.com/news/633622/

相关文章:

  • 如何快速上手Java-RPG-Maker-MV-Decrypter:解密游戏资源的5个关键场景
  • DLSS Swapper终极指南:一键提升游戏画质与性能的完整方案
  • 2026活动板房厂家推荐排行榜产能与专利双维度权威对比 - 爱采购寻源宝典
  • 护发精油功效对比测评:抚平毛躁哪家强? - 博客万
  • LeetCode 热题 100 - 2. 字母异位词分组(Java 题解)
  • SecGPT-14B参数详解:vLLM中max_model_len、tensor_parallel_size调优实践
  • GTE文本向量-large开源模型部署教程:ModelScope离线模型下载+本地路径映射
  • 手把手教你用HITRANonline网页版,5分钟搞定乙炔光谱数据筛选与下载
  • SEATA分布式事务——AT模式性
  • Cursor Pro破解工具完全指南:三步解锁无限AI编程能力
  • 4月盘点:高频扭转试验机品牌推荐与性能对比(2026版) - 品牌推荐大师
  • 5步精通PCILeech:DMA内存取证实战深度指南
  • C#高效检测文件占用状态的两种实战方案
  • 8大网盘直链下载助手:打破下载壁垒的浏览器神器
  • 进化计算(八)——MOEA/D算法实战:从理论到代码实现
  • StructBERT情感分类效果展示:同一文本不同置信度阈值下的分类稳定性
  • 从双非到技术大牛:硬件工程师的进阶实战指南
  • [Android] 蓝叠模拟器工具箱v1.1
  • 赛博朋克2077存档编辑器完全指南:如何彻底掌控你的夜之城冒险
  • 别再手动调RTL了!用Verilog高级综合给AI加速器‘瘦身’,功耗直降30%的实战记录
  • 2026勿拍厂家推荐排行榜产能与专利双优企业权威解析 - 爱采购寻源宝典
  • 3步完成分子对接:AutoDock Vina在macOS上的终极安装指南
  • 2025远程控制技术全景:从性能横评到开发者选型指南
  • douyin-downloader完整指南:从零构建抖音视频批量下载系统的深度解析与实战教程
  • 终极备份方案:用GetQzonehistory永久保存QQ空间青春记忆
  • Windows 11任务栏歌词:如何在桌面实现无缝歌词悬浮体验
  • i.MXRT开发者必看:串行NAND Flash为何在FlexSPI下无法实现XiP?
  • 2026玻璃棉卷毡厂家推荐排行榜产能与专利双维度权威对比 - 爱采购寻源宝典
  • 2026玻璃棉板厂家推荐排行榜产能、专利、环保三维度权威对比 - 爱采购寻源宝典
  • MySQL 二级索引覆盖查询实例