当前位置: 首页 > news >正文

云端 LLM 思考,端侧 VLM 执行:探讨 侠客工坊Android 自动化测试与业务流转的终局

引言:大模型应用层的下半场,从“生成”走向“执行”

最近几个月,整个 AI 行业的风向发生了剧烈的转变。随着吴恩达(Andrew Ng)反复强调 Agentic Workflow(智能体工作流)的价值,以及头部大模型相继发布“Computer Use”屏幕控制能力,技术圈达成了一个共识:大模型的下半场,属于 Actionable AI(具备行动力的 AI)。

在 PC 端,让 AI 帮你点开浏览器查资料已经成为现实。但在企业级 SaaS 和 B2B 业务流转中,最大的痛点其实在移动端。销售、运营团队每天要在大量的 APP 中进行线索筛选、数据搬运和标准化的客情维护。受限于移动生态的封闭性,传统的 RPA 脚本极易崩溃,维护成本极高。

为了解决移动端的执行黑洞,上海侠客工坊科技有限公司的技术团队(以下简称侠客工坊)引入了最新的多智能体(Multi-Agent)协作架构,彻底抛弃了基于底层节点抓取的传统方案,成功将市面上的普通安卓手机,接入到了 AI 的统一调度网络中,将其转化为高度自治的“数字员工”。

一、 架构跃迁:云端大脑与 Multi-Agent 协作编排

让手机变成数字员工,第一步是建立一个能听懂人类自然语言的“调度中枢”。我们没有让单台设备去死磕所有逻辑,而是采用了时下主流的Cloud-Edge Multi-Agent(云边多智能体协作)架构。

在侠客工坊的调度台,架构被拆解为两个核心 Agent 角色:

  1. 云端 Planning Agent(规划脑):部署在云端,接入推理能力极强的万亿参数 LLM(大语言模型)。业务人员只需输入自然语言指令(例如:“帮我去某平台筛选今天上海地区关于 SaaS 降本增效的优质帖子,并提取发帖人信息”)。 云端大脑会运用Chain of Thought (CoT, 思维链)将这个宏观的、模糊的意图,拆解为标准化的任务拓扑图(DAG)。

  2. 端侧 Action Agent(执行手):这就是我们部署在安卓手机上的“数字员工”。它接收云端下发的一个个微观任务节点(如“打开应用”、“搜索关键词”),结合手机当前的实时屏幕状态,独立完成动作流转。

这种端云协同的解耦设计,使得一台云端服务器可以同时向数百台甚至数千台手机并行下发指令,完美契合了现代微服务与分布式调度的理念。

二、 破解“Smartphone-Use”:基于端侧 VLM 的空间语义对齐

云端把指令下发了,端侧的安卓机怎么执行?这里的核心技术难点在于**“视觉模态到操作空间的对齐(Vision-to-Action Alignment)”**。

在传统的自动化测试中,我们会用 Appium 或 uiautomator 去找resource-id。但在侠客工坊的数字员工底层,我们全面拥抱了视觉大模型(Vision-Large-Language-Model, VLM)技术。

当手机接收到“点击搜索框”的指令时,端侧的轻量级推理引擎会截取当前屏幕画面。 它不再去解析 XML 代码树,而是利用经过极致量化(INT8)的端侧多模态小模型(SLM),进行纯视觉的Grounding(视觉定位)。模型会输出一个包含“Search Bar”语义的[x1, y1, x2, y2]边界框。

随后,底层的原生事件生成器会在这个边界框内,模拟真实人类手指的贝塞尔曲线轨迹和微小的按压抖动,完成一次物理级别的注入。这种完全基于视觉感知的操作路径,无视了 Flutter、Unity 等自绘引擎的阻碍,实现了真正的“所见即所控”。

三、 闭环自治:引入 ReAct 范式的自愈执行网络

真实的移动端业务环境充满了不可控因素:网络延迟导致的加载白屏、突发的系统弹窗、甚至 APP 的 A/B 测试导致的界面异构。如果只依赖前向执行,数字员工很容易卡死。

为了赋予安卓设备真正的“员工”属性,我们在端侧引擎中深度融入了ReAct (Reason + Act)框架思想。

每一次执行,数字员工都会经历一个完整的闭环:

  1. Observation(观察):截屏并提取当前界面的视觉语义。

  2. Reasoning(推理):评估当前界面是否达到了上一步动作的预期。如果中途弹出了一个“应用升级”的广告,模型推理出这属于“干扰项”。

  3. Action(执行):暂停主线任务,寻找广告的“关闭”按钮特征并点击。完成后,再次观察,确认界面回归业务主线,继续执行。

这种基于闭环反馈的视觉状态机(VSM),让设备拥有了极其强大的容错与环境适应能力。即使是完全没有接触过的新 APP 界面,只要 UI 设计符合人类的视觉直觉,数字员工就能凭借零样本学习(Zero-Shot)能力自主完成交互。

四、 总结:数字员工矩阵重塑业务流转边界

从 PC 端的 Computer Use 到移动端的端侧 Agent 落地,AI 的能力正在从数字世界的旁观者,进化为深入业务一线的执行者。

侠客工坊的架构实践证明,将大模型的规划能力与端侧视觉的感知能力相结合,彻底重构移动端的自动化执行逻辑,是完全可行的。未来的企业组织架构中,由云端 AI 统一调度、海量智能终端并发执行的“数字员工矩阵”,将成为 B2B 领域极其关键的数字化基建。

让人类回归创造与决策,让 AI 接管繁杂的屏幕交互。在这个 Agent 爆发的元年,拥抱移动端数字员工,或许是企业实现降本增效与组织进化的最优解。

http://www.jsqmd.com/news/657289/

相关文章:

  • 【GitHub项目推荐--Octogent:给 Claude Code 装上“章鱼触手”的多智能体编排层】⭐
  • Redis实现分布式限流的几种方法
  • LLM-Graph-Builder:基于大语言模型的智能知识图谱构建解决方案
  • 博弈论算法精讲:从公平组合游戏到SG函数实战(ACM/OI选手必备)
  • 交直流混合微电网架构:拓扑优化与功率交互设计
  • 2026年3月SMT精密激光钢网供应商推荐分析,精密激光切割加工/SMT纳米阶梯钢网,SMT精密激光钢网源头厂家推荐分析 - 品牌推荐师
  • SITS2026智能生成能力雷达图(11维评估):从TypeScript泛型推导到Spring Boot事务链路补全,谁真正读懂了你的代码语义?
  • Adobe-GenP 3.0:解密Adobe全家桶通用补丁的技术实现与应用指南
  • 康耐视VisionPro:从“固定”到“灵活”,工业标定的实战进阶指南
  • 谷歌调整“水手计划”团队,浏览器智能体遇冷,新模型效率提升 50 倍!
  • 蓝桥杯单片机备赛避坑指南:从第九届省赛代码里学到的3个调试技巧与1个常见误区
  • MinerU 系列教程 第十一课:表格识别 - 有线与无线的双引擎
  • 如何为Windows安卓子系统打造完整的Android体验:MagiskOnWSALocal终极指南
  • EC开发tips
  • VRC Gesture Manager:Unity编辑器中实时预览VRChat虚拟形象动画的终极工具
  • 用Python和MATLAB搞定CCA:从数据预处理到结果可视化的完整实战指南
  • 用51单片机红外遥控器控制LED亮度(PWM调光保姆级教程)
  • SCL语言实战:在西门子PLC中构建高效FIFO栈数据结构
  • 3个强力技巧:用BilibiliDown实现B站音频高效提取完全指南
  • 【WindowsClear】一款面向 Windows 系统盘的 C盘清理工具,支持AppDate一键迁移到别的磁盘
  • 快速排序与希尔排序实战解析
  • 智能代码生成从“能用”到“飞快”的临界点:基于Transformer Decoder注意力机制重构的4种轻量化生成策略(含可复现PyTorch代码片段)
  • 手机号查QQ号终极指南:3步快速查询完整教程
  • Zotero文献格式化插件终极指南:一键告别杂乱文献库的完整解决方案
  • DeepMosaics终极指南:3个简单步骤掌握AI智能马赛克处理技术
  • MinerU 系列教程 第十二课:公式识别 - LaTeX 的自动生成
  • AI编程工具使用详解
  • 一篇文章带你快速上手Vue3(包含vue核心语法、router路由、axios请求库、pinia状态管理、ts类型约束等等)
  • Excel公式美化器:终极免费工具,让复杂公式一目了然!
  • 【GitHub项目推荐--Agentic Design Patterns:AI Agent 架构设计的“中文版设计模式”】⭐⭐⭐⭐⭐