当前位置：首页 > news >正文

云端 LLM 思考，端侧 VLM 执行：探讨侠客工坊Android 自动化测试与业务流转的终局

news 2026/8/1 9:38:11

引言：大模型应用层的下半场，从“生成”走向“执行”

最近几个月，整个 AI 行业的风向发生了剧烈的转变。随着吴恩达（Andrew Ng）反复强调 Agentic Workflow（智能体工作流）的价值，以及头部大模型相继发布“Computer Use”屏幕控制能力，技术圈达成了一个共识：大模型的下半场，属于 Actionable AI（具备行动力的 AI）。

在 PC 端，让 AI 帮你点开浏览器查资料已经成为现实。但在企业级 SaaS 和 B2B 业务流转中，最大的痛点其实在移动端。销售、运营团队每天要在大量的 APP 中进行线索筛选、数据搬运和标准化的客情维护。受限于移动生态的封闭性，传统的 RPA 脚本极易崩溃，维护成本极高。

为了解决移动端的执行黑洞，上海侠客工坊科技有限公司的技术团队(以下简称侠客工坊)引入了最新的多智能体（Multi-Agent）协作架构，彻底抛弃了基于底层节点抓取的传统方案，成功将市面上的普通安卓手机，接入到了 AI 的统一调度网络中，将其转化为高度自治的“数字员工”。

一、架构跃迁：云端大脑与 Multi-Agent 协作编排

让手机变成数字员工，第一步是建立一个能听懂人类自然语言的“调度中枢”。我们没有让单台设备去死磕所有逻辑，而是采用了时下主流的Cloud-Edge Multi-Agent（云边多智能体协作）架构。

在侠客工坊的调度台，架构被拆解为两个核心 Agent 角色：

云端 Planning Agent（规划脑）：部署在云端，接入推理能力极强的万亿参数 LLM（大语言模型）。业务人员只需输入自然语言指令（例如：“帮我去某平台筛选今天上海地区关于 SaaS 降本增效的优质帖子，并提取发帖人信息”）。云端大脑会运用Chain of Thought (CoT, 思维链)将这个宏观的、模糊的意图，拆解为标准化的任务拓扑图（DAG）。
端侧 Action Agent（执行手）：这就是我们部署在安卓手机上的“数字员工”。它接收云端下发的一个个微观任务节点（如“打开应用”、“搜索关键词”），结合手机当前的实时屏幕状态，独立完成动作流转。

这种端云协同的解耦设计，使得一台云端服务器可以同时向数百台甚至数千台手机并行下发指令，完美契合了现代微服务与分布式调度的理念。

二、破解“Smartphone-Use”：基于端侧 VLM 的空间语义对齐

云端把指令下发了，端侧的安卓机怎么执行？这里的核心技术难点在于**“视觉模态到操作空间的对齐（Vision-to-Action Alignment）”**。

在传统的自动化测试中，我们会用 Appium 或 uiautomator 去找resource-id。但在侠客工坊的数字员工底层，我们全面拥抱了视觉大模型（Vision-Large-Language-Model, VLM）技术。

当手机接收到“点击搜索框”的指令时，端侧的轻量级推理引擎会截取当前屏幕画面。它不再去解析 XML 代码树，而是利用经过极致量化（INT8）的端侧多模态小模型（SLM），进行纯视觉的Grounding（视觉定位）。模型会输出一个包含“Search Bar”语义的[x1, y1, x2, y2]边界框。

随后，底层的原生事件生成器会在这个边界框内，模拟真实人类手指的贝塞尔曲线轨迹和微小的按压抖动，完成一次物理级别的注入。这种完全基于视觉感知的操作路径，无视了 Flutter、Unity 等自绘引擎的阻碍，实现了真正的“所见即所控”。