当前位置：首页 > news >正文

大模型与端侧的握手：从0到1拆解侠客工坊手机真AI员工的底层技术链路

news 2026/7/13 23:09:39

摘要：传统的手机自动化（RPA/按键精灵）正面临规则死板、风控严格的瓶颈。随着大模型（LLM）的爆发，将 LLM 作为大脑接入真实物理设备的“数字员工”成为了降本增效的新解法。本文将以侠客工坊的底层架构思路为例，深度拆解如何让手机从“被动接受脚本指令”进化为“主动理解意图并执行任务”的真机 AI 员工。

在过去几年里，移动端的自动化经历了从 ADB 脚本、Accessibility 辅助功能到各类群控系统的演进。但这些技术都有一个致命缺陷：缺乏“思考”能力。一旦 App UI 发生微调，或者出现弹窗，整套脚本就会崩溃。

真正的“数字员工”（AI Agent），其核心特征是具备**感知（Perception）、规划（Planning）和行动（Action）**的闭环能力。在侠客工坊的技术探索中，我们构建了一套将大模型与安卓系统底层深度耦合的架构。以下是这套系统从接收一句话指令，到手机屏幕上产生真实点击的完整技术生命周期分析。

一、意图解析与任务拆解（The Brain）

一切始于一句自然语言，例如：“去我的私域社群里，把今天询问过产品价格的客户整理出来。”手机无法直接理解这句话，需要云端的“大脑”进行解析。

多轮对话与 Context 维护：系统首先接入商业级或开源大模型（如 GLM-4、Qwen 等），并将当前手机的“状态快照”作为 Prompt 的上下文输入。
Function Calling（函数调用）与 DAG 动态构建：大模型并不是直接输出代码，而是通过 Function Calling 输出结构化的 JSON 意图。系统会将这个宏大目标拆解为有向无环图（DAG）形式的子任务：
- 步骤 A：打开微信
- 步骤 B：识别特定群聊并进入
- 步骤 C：向上滑动并提取文本信息
- 步骤 D：调用大模型自身的实体抽取能力分析“价格”相关语境
容错机制（Self-Correction）：在这个阶段，系统必须赋予大脑“如果走不通就换条路”的逻辑。比如当步骤 B 发现目标群聊不在首页时，大模型需要动态插入一个“使用搜索功能”的子节点。

二、环境感知与 UI 语义化（The Eyes）

大模型是个“瞎子”，它需要知道当前手机屏幕上有什么。这不仅是截图那么简单，我们需要将图形界面转化为 LLM 能看懂的语义结构。

UI 控件树提取（View Tree Parsing）：最基础的做法是利用 Android 的AccessibilityService或UIAutomatordump 出当前的 UI XML 树。系统会过滤掉不可见的、无意义的 Layout，提取出带有text、content-desc、clickable=true属性的关键节点，并为其分配全局唯一的 ID。
纯视觉方案与多模态兜底（CV & VLM）：很多商业 App 为了防爬虫，会对 UI 控件进行深度混淆，或者直接使用自绘引擎（如游戏引擎、Flutter 深度定制组件），导致 XML 提取失效。
- 技术点：此时需要引入目标检测（YOLO 等）检测图标边界，配合 OCR（如 PaddleOCR）提取屏幕文字，计算出每一个可交互元素的 Bounding Box（边界框坐标）。
- 进阶：直接使用多模态大模型（Vision-Language Model），让模型看着屏幕截图输出点击坐标的相对比例，实现真正的“所见即所得”。

三、物理指令的转译与底层注入（The Hands）

当大模型决定“点击 ID 为 12 的搜索框”时，如何安全、有效地在手机上执行这一动作？这是拉开技术差距的核心地带。

越过 ADB 的局限：使用传统的adb shell input tap x y速度慢且极易被平台风控（系统层会标记该操作的来源并不是物理触摸屏）。
内核级事件注入与 Hook（防风控核心）：为了让 AI 员工的操作看起来完全等同于真人，需要绕过应用层的检测机制。
- /dev/input/event 级注入：通过解析并伪造 Linux 底层的 input 设备事件，模拟真实的按下（DOWN）、移动（MOVE）、抬起（UP）甚至包含微小的抖动和压力值变化。
- Frida / Xposed 框架的深度运用：在高级商业化场景（如侠客工坊探索的方向）中，通过系统级 Hook 技术，不仅能实现句柄级别的注入，还能有效对抗 App 的环境检测（反 Hook 检测、Root 隐藏等），确保 AI 员工在执行跨域操作和数据抓取时的存活率。

四、并发调度与设备矩阵化（The Nervous System）

当“单个”AI 员工跑通后，如何管理 50 台、100 台甚至更多的真机，使其成为一个协作的车间？

端云协同的 RPC 通信：使用 WebSocket 构建长连接，维持心跳。云端（大脑）下发极度轻量级的指令结构，端侧（App Daemon 或底层 Native 进程）仅负责执行和画面/状态回传。
高帧率极低延迟的推流：操作同步的体验极其依赖画面延迟。底层通常基于类似scrcpy的视频流传输协议，利用硬件编码（MediaCodec）将 H.264/H.265 视频流通过 Socket 实时推送到前端控制台，实现毫秒级的响应观察。
状态机与异常熔断：为每台设备维护一个有限状态机（FSM）。当设备出现网络断开、App 闪退或系统级弹窗（如电量低、系统更新）时，底层进程必须能够拦截这些中断，挂起当前任务并上报异常，由控制台的统筹算法决定是重试还是分配给闲置设备。