PhonePi-MCP:基于MCP协议实现AI智能体自动化操控Android手机
1. 项目概述:当你的手机成为AI的“眼睛”与“双手”
最近在折腾AI智能体(Agent)时,我一直在思考一个问题:如何让这些运行在云端或本地电脑上的“大脑”真正地与现实世界互动?比如,让它帮我查一下手机上的未读消息、给朋友回个电话,或者直接操作手机App完成一些重复性任务。直到我遇到了priyankark/phonepi-mcp这个项目,它为我打开了一扇新的大门。
简单来说,PhonePi-MCP是一个桥接工具,它通过MCP(Model Context Protocol)协议,将你的智能手机(目前主要是Android)的能力,暴露给诸如Claude Desktop、Cursor或任何支持MCP的AI应用。你可以把它理解为一个“驱动程序”或“适配器”,让AI智能体能够“看见”你的手机屏幕、“触摸”你的手机按键,并执行一系列预设的操作。这不再是简单的远程控制,而是为AI赋予了操作移动设备这一重要“肢体”能力,极大地扩展了智能体自动化场景的边界。
这个项目非常适合那些热衷于AI自动化、想探索智能体与物理设备交互的开发者、极客,以及任何对“让AI助手真正干活”感兴趣的人。它解决的核心痛点是:AI的决策和规划能力很强,但缺乏执行终端用户界面(UI)操作的能力。PhonePi-MCP正好补上了这关键一环。
2. 核心架构与工作原理拆解
要理解PhonePi-MCP,我们需要先理清三个核心组件:你的AI应用(客户端)、MCP服务器(PhonePi-MCP)和你的Android手机。它们之间的关系并非简单的直线连接,而是一个清晰的三角工作流。
2.1 MCP协议:智能体时代的“通用插座”
MCP,全称Model Context Protocol,是由Anthropic提出的一种开放协议。你可以把它想象成智能体生态中的“USB-C接口”。在以前,每个AI应用(如Claude、GPT)要连接外部工具(如数据库、搜索引擎),都需要各自开发一套专用的插件系统,既混乱又低效。MCP的目标就是标准化这个过程。
一个MCP服务器(Server)对外提供一系列标准的“工具(Tools)”和“资源(Resources)”。MCP客户端(Client,如Claude Desktop)在启动时,可以配置连接到一个或多个MCP服务器。连接成功后,客户端内的AI模型就能直接看到并调用服务器提供的所有工具。对于AI来说,它不需要知道工具背后的具体实现,只需要按照标准格式“告诉”MCP服务器:“请执行工具A,参数是B”。PhonePi-MCP正是这样一个实现了特定功能(手机控制)的MCP服务器。
2.2 PhonePi-MCP的组件分解
项目本身主要包含两个部分:
MCP服务器(Python程序):这是运行在你电脑(或服务器)上的核心程序。它负责两件事:
- 与AI客户端通信:通过标准MCP协议(通常使用SSE或stdio传输)接收来自Claude等客户端的指令。
- 与手机通信:通过ADB(Android Debug Bridge)协议,将AI的抽象指令(如“打开微信”)翻译成具体的ADB命令或输入事件,发送给手机执行。
Android设备端:你需要一部开启了开发者选项和USB调试(或无线ADB调试)的Android手机。这是命令的实际执行终端。PhonePi-MCP通过ADB获取屏幕截图、获取UI层级信息(可选,用于更精准的元素定位),并模拟点击、滑动、输入等操作。
2.3 工作流程全景图
一次完整的AI操作手机交互,流程如下:
- 用户发起请求:你在Claude Desktop中向Claude提出需求:“帮我看看手机上有没有来自张三的未读微信消息。”
- AI规划与调用:Claude理解需求后,意识到需要操作手机。它发现自己已连接的MCP服务器(PhonePi-MCP)提供了一个叫
list_unread_messages或open_app的工具。于是,它生成一个结构化的调用请求。 - MCP协议传输:Claude Desktop(MCP客户端)将这个工具调用请求通过本地进程间通信(如stdio)发送给PhonePi-MCP服务器。
- 指令翻译与执行:PhonePi-MCP服务器收到请求。如果是要打开微信,它可能会执行一系列ADB命令:
adb shell am start -n com.tencent.mm/.ui.LauncherUI。如果需要先解锁屏幕,则会先发送电源键事件,再执行滑动解锁或密码输入。 - 信息获取与返回:操作执行后,PhonePi-MCP可能需要获取结果。例如,执行“截图”工具,它会通过
adb exec-out screencap -p命令获取手机当前屏幕的PNG图像数据,并将其作为“资源”返回给AI客户端。 - AI分析与下一步:Claude收到截图“资源”,利用其视觉能力(VLM)分析图片,识别出确实有一条张三的未读消息。然后它可以继续调用“点击消息”工具,进入聊天界面,再调用“提取文本”工具来读取内容,最后将总结的结果回复给你。
这个过程将AI的认知、规划和自然语言能力,与手机的具体操作能力无缝衔接,形成了一个可工作的闭环。
3. 环境搭建与配置详解
理论清晰后,我们进入实战环节。搭建PhonePi-MCP环境需要完成电脑端和手机端的双重准备。
3.1 基础环境准备
电脑端(以macOS/Linux为例,Windows类似):
Python环境:确保系统已安装Python 3.8+。推荐使用
pyenv或conda管理虚拟环境,避免包冲突。# 创建并激活虚拟环境 python -m venv venv_phonepi source venv_phonepi/bin/activate # Windows: venv_phonepi\Scripts\activate安装ADB:这是与手机通信的基石。
- macOS:
brew install android-platform-tools - Ubuntu/Debian:
sudo apt install android-tools-adb - Windows: 下载 Android SDK Platform-Tools ,解压并将目录加入系统PATH环境变量。 安装后,在终端输入
adb version验证是否成功。
- macOS:
获取PhonePi-MCP源码:
git clone https://github.com/priyankark/phonepi-mcp.git cd phonepi-mcp pip install -r requirements.txt
手机端(Android):
- 开启开发者模式:进入“设置” > “关于手机”,连续点击“版本号”7次,直到出现“您已处于开发者模式”的提示。
- 开启USB调试:返回设置,进入“系统”或“开发者选项”,找到“USB调试”,将其开启。
- 连接电脑:使用USB数据线将手机连接到电脑。此时手机会弹出“是否允许USB调试”的对话框,勾选“始终允许”,并点击“确定”。
- 验证连接:在电脑终端执行
adb devices。如果看到设备列表中出现你的设备序列号,且状态为device,则表示连接成功。如果显示unauthorized,请检查手机上的授权对话框。
注意:出于安全考虑,切勿在公共或不信任的电脑上开启USB调试并授权。这相当于将手机的最高控制权交给了那台电脑。
3.2 配置AI客户端(以Claude Desktop为例)
PhonePi-MCP需要被AI客户端加载。这里以Claude Desktop(1.5及以上版本)为例。
定位Claude配置目录:
- macOS:
~/Library/Application Support/Claude/claude_desktop_config.json - Windows:
%APPDATA%\Claude\claude_desktop_config.json
- macOS:
编辑配置文件:如果文件不存在,则创建它。在其中添加MCP服务器的配置。配置方式有多种,以下是使用stdio方式的推荐配置:
{ "mcpServers": { "phonepi": { "command": "/path/to/your/venv_phonepi/bin/python", "args": [ "/path/to/your/phonepi-mcp/server.py", "--device-id", "你的设备ADB-ID" // 可通过 `adb devices` 获取,如`emulator-5554` ], "env": { "PYTHONPATH": "/path/to/your/phonepi-mcp" } } } }command: 指向你虚拟环境中的Python解释器绝对路径。args: 第一个参数是PhonePi-MCP的server.py脚本绝对路径,后续可跟启动参数,如指定设备--device-id。env: 确保Python能找到项目内的模块。
保存并重启:保存
claude_desktop_config.json文件,然后完全重启Claude Desktop应用。
3.3 高级配置与无线调试
无线ADB连接(摆脱数据线束缚):有线连接稳定,但无线连接更方便。首先确保手机和电脑在同一局域网下。
- 在已USB连接的情况下,在电脑终端执行:
这条命令会让手机在5555端口监听TCP/IP连接。adb tcpip 5555 - 拔掉USB线。
- 获取手机的局域网IP地址(通常在设置 > 关于手机 > 状态信息中)。
- 电脑终端执行:
adb connect 手机IP:5555 # 例如:adb connect 192.168.1.100:5555 - 再次运行
adb devices,应该能看到一个通过IP地址连接的设备。 - 在Claude配置中,将
--device-id参数的值改为这个IP地址连接标识(如192.168.1.100:5555)。
配置多个设备:如果你有多台测试手机,可以在启动参数中指定设备ID。也可以通过编写更复杂的服务器脚本,动态选择设备或同时管理多个设备(但这需要修改服务器代码逻辑)。
4. 核心工具解析与实战用例
配置成功后,重启Claude,你应该能在与Claude的对话中,看到它“拥有”了新的能力。我们来看看PhonePi-MCP具体提供了哪些工具,以及如何用自然语言驱动它们。
4.1 基础控制工具集
根据项目源码,PhonePi-MCP通常会提供以下类别的工具(具体工具名可能随版本更新):
设备信息获取:
get_device_info: 获取手机型号、Android版本、电量等。get_screenshot: 获取当前屏幕截图(以资源形式提供,AI可分析)。get_ui_hierarchy: 获取当前界面的UI XML层级(用于精准定位元素)。
基本交互:
click: 在指定坐标(x, y)或通过元素ID进行点击。swipe: 从一点滑动到另一点。input_text: 在焦点输入框中输入文字。press_key: 模拟物理按键(如home, back, power)。
应用管理:
open_app: 通过包名启动应用(如com.tencent.mm是微信)。close_app: 强制停止应用。list_running_apps: 获取前台和后台应用列表。
高级操作:
scroll: 滚动页面。take_picture: 调用前后摄像头拍照(需授权)。read_notifications: 读取通知栏消息。
4.2 实战用例:让AI处理日常消息
假设你正在电脑前专注工作,不想被手机频繁打扰,但又怕错过重要信息。你可以让Claude帮你处理。
你对Claude说:“检查一下我的手机,把所有微信工作群(‘项目组’、‘技术部’)的未读消息摘要告诉我,忽略其他群和私人聊天。”
Claude的思考与操作链可能如下:
- 调用
get_screenshot:先看看手机是否亮屏、在哪个界面。如果锁屏,则调用press_key唤醒,再调用swipe或input_text解锁。 - 调用
open_app:打开微信(com.tencent.mm)。 - 循环判断与操作:
- 调用
get_screenshot,分析截图。发现微信主界面。 - 识别“微信”标签页下的未读红点。调用
click点击“微信” tab。 - 调用
get_screenshot,分析列表。识别出“项目组”和“技术部”群聊有未读消息。 - 对每个目标群聊,调用
click进入。调用get_screenshot,分析聊天界面最新几条消息。调用工具(可能是自定义的OCR工具或利用AI视觉能力)提取文字信息。 - 调用
press_key(back) 返回列表,处理下一个群。
- 调用
- 汇总与报告:Claude将提取到的关键信息(如“张三:需求文档已更新至v2”;“李四:服务器15:00维护”)汇总成一段简洁的文字回复给你。
这个流程完全由AI自主规划、调用工具、分析结果并最终交付,你无需手动触碰手机。
4.3 实操心得:提升可靠性的关键
在实际使用中,直接依赖屏幕坐标(x, y)点击非常脆弱,屏幕分辨率一变或UI微调就会失效。更可靠的方法是结合UI Hierarchy。
- 启用UI层次结构获取:确保手机设置中“开发者选项”里的“指针位置”或更重要的“无障碍服务”相关选项为PhonePi-MCP所需工具开启(如果项目实现了基于
uiautomator的查找)。有些实现可能需要adb shell uiautomator dump来获取XML。 - 使用资源定位:鼓励AI先调用
get_ui_hierarchy获取当前页面的XML描述,然后基于文本内容、资源ID或类名来定位元素。例如,工具可以设计为click(element_id="com.tencent.mm:id/abc")或click(text="发送")。这比盲目的click(540, 1200)要稳定得多。 - 加入延迟与重试:网络或手机响应有延迟。在AI的规划逻辑中,或在服务器工具实现内部,应在关键操作(如启动App、页面跳转)后加入短暂的等待(如2-3秒),或通过循环调用
get_screenshot判断页面是否加载完成,再进行下一步。这能大大提高自动化流程的成功率。
5. 深入定制:扩展你的PhonePi-MCP
开源项目的魅力在于可以按需定制。PhonePi-MCP的基础工具集可能无法满足你的所有需求,但你可以轻松扩展它。
5.1 添加一个自定义工具
假设你想增加一个“发送特定短信”的工具。你需要修改server.py或相应的工具定义文件。
定义工具函数:在代码中创建一个Python函数,使用ADB命令发送短信。
import subprocess def send_sms(phone_number: str, message: str): """发送短信工具""" # 使用ADB启动短信应用并发送(这是一种方法,可能因系统而异) # 更稳健的方式是使用 `adb shell am start` 配合Intent cmd = f'adb shell am start -a android.intent.action.SENDTO -d sms:{phone_number} --es sms_body "{message}"' subprocess.run(cmd, shell=True, check=True) # 这里还需要模拟点击发送按钮,逻辑更复杂,仅为示例 return f"已请求向 {phone_number} 发送短信。"注册到MCP服务器:根据项目使用的MCP框架(如
mcpPython SDK),将send_sms函数注册为一个新工具,定义好输入参数的JSON Schema。from mcp import Client, Server import mcp.server.stdio import mcp.server as mcp_server # ... 在服务器初始化部分 ... @server.list_tools() async def handle_list_tools(): return [ mcp_server.Tool( name="send_sms", description="向指定电话号码发送短信", inputSchema={ "type": "object", "properties": { "phone_number": {"type": "string", "description": "目标手机号"}, "message": {"type": "string", "description": "短信内容"} }, "required": ["phone_number", "message"] } ), # ... 其他已有工具 ... ] @server.call_tool() async def handle_call_tool(name: str, arguments: dict): if name == "send_sms": result = send_sms(arguments["phone_number"], arguments["message"]) return [mcp_server.TextContent(type="text", text=result)] # ... 处理其他工具 ...重启服务器与客户端:保存修改,重启PhonePi-MCP服务器和Claude Desktop。Claude就能识别并使用新的
send_sms工具了。
5.2 与其它自动化框架结合
PhonePi-MCP专注于提供标准的MCP接口,而底层的手机操控可以更强大。你可以用更专业的自动化测试框架(如Appium、uiautomator2)替换掉原项目中的基础ADB命令。
- 使用uiautomator2:这是一个强大的Python库,提供更丰富、稳定的元素定位和操作方法。你可以重写
click,get_ui_hierarchy等核心工具的内部实现,利用u2连接设备,使操作更加精准可靠。
这样做的好处是代码更简洁,元素定位能力更强,能处理更复杂的交互逻辑。import uiautomator2 as u2 d = u2.connect() # 连接设备 # 在工具函数内部使用 d(text="设置").click() # 通过文本点击 d(className="android.widget.Button").click() # 通过类名点击
5.3 安全加固与权限管理
赋予AI手机控制权风险很高。务必进行安全加固:
- 最小权限原则:在手机端,为ADB Shell或测试应用授予最小必要权限。不要使用Root过的手机进行日常自动化。
- 操作确认机制:可以在MCP服务器层面加入一个“确认层”。对于高风险操作(如发送短信、删除应用、转账),工具调用后并不立即执行,而是先向用户发送一个确认请求(例如,在电脑上弹出一个确认框),用户批准后再实际执行ADB命令。
- 操作范围限制:通过配置白名单,限制AI可以操作的App包名或可以调用的系统功能。例如,只允许操作微信、钉钉和浏览器,禁止访问短信、通讯录和支付类App。
- 网络隔离:确保运行MCP服务器的环境是安全的,避免服务器端口暴露在公网,防止未授权访问。
6. 常见问题与故障排查实录
在实际部署和运行中,你肯定会遇到各种问题。这里记录了一些典型问题及其解决方案。
6.1 连接类问题
| 问题现象 | 可能原因 | 排查步骤与解决方案 |
|---|---|---|
adb devices列表为空 | 1. USB线或端口故障 2. 手机未开启USB调试 3. 驱动程序问题(Windows常见) | 1. 换线、换端口试试。 2. 确认手机“开发者选项”-“USB调试”已开启,且连接时手机弹窗已授权。 3. Windows需安装对应手机品牌的USB驱动,或尝试通用ADB驱动。 |
adb devices显示unauthorized | 手机未授权此电脑的ADB连接 | 断开USB重连,查看手机屏幕是否有“允许USB调试”的弹窗,勾选“始终允许”后确定。也可在开发者选项内“撤销USB调试授权”后重试。 |
| 无线ADB连接失败 | 1. 手机和电脑不在同一网络 2. 防火墙阻止端口5555 3. adb tcpip未成功执行 | 1. 确认Wi-Fi是同一个。 2. 临时关闭电脑防火墙试试。 3. 确保先用USB线成功执行 adb tcpip 5555,看到restarting in TCP mode port: 5555的提示。 |
| Claude Desktop无法加载MCP服务器 | 1. 配置文件路径或格式错误 2. Python路径或依赖错误 3. 服务器脚本启动即报错 | 1. 检查claude_desktop_config.json的JSON语法,路径是否正确。2. 在终端手动运行配置中的command和args,看能否启动服务器并观察报错。 3. 查看Claude Desktop的日志文件(位置因系统而异),通常会有MCP加载失败的详细错误信息。 |
6.2 操作执行类问题
| 问题现象 | 可能原因 | 排查步骤与解决方案 |
|---|---|---|
| AI调用了工具,但手机无反应 | 1. 屏幕未点亮或已锁屏 2. 坐标点击位置错误 3. 应用未在前台 | 1. 在工具链开始时,先加入唤醒和解锁操作。 2. 改用基于UI Hierarchy的元素定位,而非绝对坐标。 3. 确保目标应用已通过 open_app启动到前台,或使用adb shell am start强制带到前台。 |
| 截图或UI层次获取失败 | 1. 权限不足 2. 手机系统限制(如MIUI等定制ROM) | 1. 确保ADB Shell有足够权限。某些操作可能需要adb root(仅限已root设备)。2. 在手机开发者选项中,开启“禁止权限监控”、“USB调试(安全设置)”等(不同品牌名称不同)。对于UI层次,可能需要开启“无障碍服务”给ADB或相关测试工具。 |
| 操作不连贯,经常中断 | 网络延迟或手机响应慢,AI未等待操作完成就执行下一步 | 在服务器工具函数内部,关键操作后增加time.sleep(2)。或者,实现一个“等待页面稳定”的工具,循环截图直到关键元素出现。在AI的Prompt中,也可以提示它“在每次操作后,等待2秒钟再检查结果”。 |
| 在非标准Android系统(如鸿蒙)上异常 | 系统兼容性问题 | ADB命令基本通用,但部分深度定制的UI或服务可能响应不同。需要针对特定系统进行测试和适配,可能需要对工具的实现进行微调。 |
6.3 性能与优化
- 截图速度慢:
adb exec-out screencap是压缩输出,速度尚可。如果追求极速,可以研究使用minicap等高性能屏幕投射方案,但集成复杂度会大幅增加。 - AI调用频率限制:频繁调用工具(尤其是截图)会产生大量上下文,消耗AI模型的Token。合理设计工具粒度,让AI一次操作完成更多事情,而不是频繁来回交互。例如,提供一个“获取当前屏幕所有文本”的工具,比让AI先截图、再自己分析图片更省Token。
- 服务器稳定性:长时间运行后,ADB连接可能不稳定。可以在服务器代码中增加心跳检测和断线重连机制。
这个项目目前还是一个处于早期阶段的概念验证,但它清晰地勾勒出了未来个人AI助手的形态:一个能理解你、并能直接操作你数字世界各种接口的智能伙伴。从自动整理相册、定时发送日报、智能过滤通知,到作为更复杂自动化工作流的一环,可能性只受限于我们的想象力。当然,能力越大责任越大,在享受便利的同时,务必时刻将安全记在心间。我开始用它来处理一些每日重复的手机操作,效果令人惊喜。如果你也厌倦了在手机和电脑间反复切换,不妨试试用它来打造你的第一个“数字分身”。
