当前位置：首页 > news >正文

OS Agent：基于多模态大模型的智能体如何操作电脑与手机

news 2026/4/26 4:32:44

1. 从“能看”到“能干”：OS Agent如何让AI真正学会使用电脑和手机

如果你关注AI领域，最近一年肯定没少听到“智能体”这个词。从能聊天的ChatGPT，到能画图的Midjourney，AI似乎越来越“能干”了。但说实话，这些能力大多还停留在“内容生成”层面——AI在它自己的数字世界里创作，而我们人类，依然需要手动操作电脑、手机和浏览器，去完成那些重复、繁琐的数字化任务：整理文件、填写表格、预订行程、查找信息……

有没有可能，让AI直接接管我们的鼠标和键盘，像真人一样操作软件和网页？这个听起来像科幻电影的场景，正是“操作系统智能体”研究的核心目标。我最近深入研读了ACL 2025上的一篇重磅综述论文《OS Agents: A Survey on MLLM-based Agents for Computer, Phone and Browser Use》，以及其背后庞大的开源项目库。这篇论文系统梳理了如何基于多模态大语言模型，构建能真正在操作系统环境中“动手”的智能体。这不仅仅是让AI“看懂”屏幕，更是让它理解任务意图、规划操作步骤、并精准执行点击、输入、滑动等动作，最终完成一个完整的实际任务。

简单来说，OS Agent试图解决的是AI与真实数字世界交互的“最后一公里”问题。它不再满足于生成一段文本或代码，而是要将这些指令转化为对图形界面或命令行界面的具体操作。想象一下，你只需要对AI说“帮我把上个月所有关于项目A的邮件附件下载到‘2024Q1复盘’文件夹，并按日期重命名”，它就能自动打开邮箱、筛选、下载、整理——这才是我们期待的“数字助理”该有的样子。这篇综述和其关联的近百篇前沿研究，正在为我们勾勒出实现这一愿景的技术路径与挑战。

2. OS Agent全景图：定义、架构与核心挑战

在深入技术细节之前，我们首先要厘清什么是OS Agent。根据这篇综述的定义，OS Agent特指那些基于（多模态）大语言模型，通过操作系统提供的环境与界面来操作计算机、手机和浏览器，从而实现任务自动化的智能体。这里的“操作系统环境”是关键，它包括了图形用户界面、命令行界面、应用程序接口等所有我们与计算设备交互的通道。

2.1 核心能力拆解：一个OS Agent需要什么？

一个合格的OS Agent，绝不仅仅是“看图说话”那么简单。它需要一套复杂的能力栈，我将其归纳为“感知-理解-规划-执行-反思”的闭环。

1. 多模态感知与理解这是基础。智能体必须能“看到”屏幕。但这不仅仅是截图识别文字那么简单。它需要：

视觉定位：精确识别屏幕上的UI元素，如按钮、输入框、图标、链接，并理解其功能（可点击、可输入、可滑动）。
语义理解：结合界面文本、布局、图标等上下文，理解当前界面的状态和可执行的操作。例如，识别出一个红色圆形按钮可能是“删除”或“停止”，而一个蓝色对勾按钮可能是“确认”或“保存”。
跨平台泛化：不同操作系统、不同应用、不同网页的UI风格千差万别。模型需要能从训练数据中抽象出通用模式，应对未见过的界面。

2. 任务分解与规划用户给出的通常是高层级、模糊的指令（如“订一张明天北京到上海最便宜的机票”）。智能体需要将其分解为一系列原子操作：

打开浏览器->导航到机票网站->输入出发/到达城市->选择日期->点击搜索->在结果列表中按价格排序->选择最便宜的航班->填写乘客信息->完成支付。这个过程需要常识推理（知道订票的常规流程）和对当前环境状态的判断（如果网站要求登录，则需要先执行登录操作）。

3. 动作执行与状态跟踪规划好步骤后，需要将其转化为具体的交互指令。这涉及到：

动作空间定义：对于GUI，动作通常包括click(x, y),type(text),scroll(direction),press(key)等。如何将自然语言指令或内部决策精准映射到这些动作参数上，是一大挑战。
状态管理：执行一个动作后，屏幕状态会发生变化。智能体需要能感知到这种变化，并判断任务是否按预期推进。例如，点击“登录”后，是跳转到了主页，还是弹出了错误提示？这要求智能体具备动态的环境建模能力。

4. 记忆与经验复用为了更高效地完成任务，智能体需要“记住”经验：

短期记忆：记住当前任务会话中的操作历史，避免重复或矛盾的操作。
长期记忆/技能库：将成功完成的任务轨迹存储为可复用的“技能”或“工作流”，当下次遇到类似任务时，可以直接调用或进行微调，大幅提升效率。

2.2 主流技术路线与框架盘点

根据综述中的分类，当前的OS Agent研究主要围绕两大方向展开：基础模型和智能体框架。

基础模型：这类工作的目标是训练一个“通才”的视觉-语言-动作模型。它直接接收屏幕截图和用户指令，输出下一步要执行的具体动作（如click(520, 380)）。代表性工作包括：

CogAgent：一个专门为GUI任务设计的视觉语言模型，通过高分辨率编码器处理屏幕细节，在Android和Web任务上表现出色。
Ferret-UI：专注于移动端UI理解，能精细地指代和描述UI元素，为精准操作打下基础。
OS-ATLAS：旨在构建一个通用的GUI动作基础模型，通过大规模合成数据训练，希望获得跨平台、跨应用的动作生成能力。

这类模型的优势是端到端，决策直接。但劣势也很明显：需要海量且高质量的“屏幕-动作”配对数据训练，对计算资源要求高，且模型一旦固化，其行为逻辑较难调整。

智能体框架：这类工作不追求训练一个全能模型，而是基于现有的、强大的LLM或MLLM（如GPT-4V、Claude等），构建一个围绕它的智能体系统。框架负责提供感知、规划、记忆、工具调用等组件。代表性框架包括：

OS-Copilot：一个追求通用计算机控制的框架。它提出了“自我改进”的机制，能让智能体从失败中学习，更新自己的知识库和策略。
Mobile-Agent：专注于移动设备自动化。它采用“视觉感知”模块解析屏幕，由LLM进行任务规划和决策，再通过一个执行模块操控手机。
WebVoyager：构建端到端的网页智能体，利用多模态大模型理解网页内容，并完成复杂的多步骤网页任务。

框架路线的优势是灵活。你可以随时接入更强大的基础模型，也可以单独优化某个组件（如设计更好的规划算法）。它更像是在用软件工程的思想“组装”一个智能体。目前，大多数展示出复杂任务能力的系统都属于此类。

实操心得：路线选择的关键考量如果你是一个研究者，想探索模型能力的边界，基础模型路线更有吸引力。但如果你是一个开发者，想快速构建一个可用的自动化工具，基于现有大模型API搭建智能体框架是更务实的选择。后者的启动成本低，迭代快，并且能直接受益于基础模型的快速进化。

3. 从零构建一个简易OS Agent框架：以网页自动化为例

纸上得来终觉浅。要真正理解OS Agent的运作逻辑，最好的方式是自己动手搭一个。下面，我将带你一步步构建一个用于网页自动化的简易OS Agent框架。这个框架将采用智能体框架的路线，基于现有的LLM API和浏览器自动化工具。

3.1 环境准备与核心工具选型

我们的目标是构建一个能理解指令、操作浏览器的智能体。我们需要以下组件：

“大脑”：一个强大的LLM，负责理解指令、规划步骤、做出决策。我们将使用OpenAI的GPT-4（或成本更低的GPT-3.5-Turbo）的API。选择它的原因是其强大的推理和指令遵循能力已被广泛验证。
“眼睛”：一个能捕获浏览器屏幕并提取结构化信息的工具。单纯截图送给LLM成本高且信息密度低。更好的方式是获取网页的DOM结构和可访问性树。这里我们选用Playwright，它是一个现代浏览器自动化库，不仅能驱动浏览器，还能轻松获取页面内容。
“手”：执行LLM决策的动作执行器。同样由Playwright担任，它可以模拟所有用户交互。
“工作记忆”：记录当前任务状态、操作历史和页面上下文。我们用Python的简单数据结构（列表、字典）在内存中实现。

项目初始化：

# 创建项目目录并初始化虚拟环境 mkdir simple_web_agent && cd simple_web_agent python -m venv venv source venv/bin/activate # Windows: venv\Scripts\activate # 安装核心依赖 pip install openai playwright # 安装Playwright的浏览器内核 playwright install chromium

3.2 核心模块设计与实现

我们的框架主要包含三个模块：Perception（感知）、Brain（决策）、Actuator（执行）。

模块一：感知模块这个模块负责将当前的网页状态转化为LLM能理解的文本描述。我们不是简单截图，而是提取关键信息。

# perception.py from playwright.sync_api import Page import json class WebPerception: def __init__(self, page: Page): self.page = page def get_page_state(self) -> str: """获取当前页面的结构化描述""" state = { "url": self.page.url, "title": self.page.title(), "interactive_elements": self._extract_interactive_elements(), "main_content": self._extract_main_content()[:500] # 截取部分主要内容 } return json.dumps(state, indent=2, ensure_ascii=False) def _extract_interactive_elements(self) -> list: """提取所有可交互元素（按钮、链接、输入框）""" elements = [] # 使用Playwright选择器获取元素 all_buttons = self.page.locator("button, a, input, [role='button'], [role='link']") count = all_buttons.count() for i in range(min(count, 20)): # 限制数量，防止上下文过长 elem = all_buttons.nth(i) elem_info = { "tag": await elem.evaluate("el => el.tagName.toLowerCase()"), "text": (await elem.text_content() or "").strip()[:50], "type": await elem.get_attribute("type") or "N/A", "placeholder": await elem.get_attribute("placeholder"), "id": await elem.get_attribute("id"), "classes": await elem.get_attribute("class"), "bounding_box": await elem.bounding_box() # 用于后续定位点击 } # 过滤掉完全不可见的元素 if elem_info["bounding_box"]: elements.append(elem_info) return elements def _extract_main_content(self) -> str: """尝试提取页面主体文本内容，用于理解上下文""" # 简单策略：获取body的文本，或主要article/div的文本 try: content = self.page.locator("body").text_content() except: content = "" return content.strip()

模块二：决策模块这是智能体的核心，它接收用户指令和当前页面状态，决定下一步做什么。

# brain.py import openai from typing import Dict, Any class AgentBrain: def __init__(self, api_key: str, model: str = "gpt-4"): openai.api_key = api_key self.model = model # 定义智能体可执行的动作类型 self.action_space = ["CLICK", "TYPE", "SCROLL", "NAVIGATE", "WAIT", "EXTRACT_INFO", "FINISH"] def decide_next_action(self, user_goal: str, page_state: str, history: list) -> Dict[str, Any]: """根据目标、状态和历史，决定下一个动作""" prompt = self._construct_prompt(user_goal, page_state, history) response = openai.ChatCompletion.create( model=self.model, messages=[ {"role": "system", "content": "你是一个网页操作智能体。请根据用户目标和当前页面状态，决定下一步操作。你必须从给定的动作列表中选择，并给出必要参数。"}, {"role": "user", "content": prompt} ], temperature=0.1, # 低温度，保证决策稳定 max_tokens=500 ) decision_text = response.choices[0].message.content return self._parse_action(decision_text) def _construct_prompt(self, goal: str, state: str, history: list) -> str: """构建给LLM的提示词""" history_str = "\n".join([f"- {h}" for h in history[-5:]]) if history else "无" prompt = f""" 用户最终目标：{goal} 当前页面状态： {state} 最近操作历史（最近5步）： {history_str} 请分析当前状态，思考如何逐步接近用户目标，然后决定下一步操作。 你只能从以下动作中选择一个： - CLICK: 点击一个元素。需要提供元素的索引（从0开始，基于下面列表）或描述。 - TYPE: 在输入框输入文本。需要提供元素索引和要输入的文本。 - SCROLL: 滚动页面。方向为 'up' 或 'down'。 - NAVIGATE: 导航到一个新URL。需要提供完整的URL。 - WAIT: 等待一段时间（秒）或等待某个元素出现。 - EXTRACT_INFO: 从页面提取特定信息（如价格、标题）。 - FINISH: 任务已完成或无法继续。 当前页面可交互元素列表（索引: 描述）： {self._format_elements_for_prompt(state)} 请严格按照以下JSON格式输出你的决策： {{ "reasoning": "你的思考过程，解释为什么选择这个动作", "action": "动作类型，必须是上述之一", "parameters": {{}} // 动作参数，根据动作类型不同而不同 }} """ return prompt def _format_elements_for_prompt(self, state_str: str) -> str: """从页面状态中提取元素并格式化为提示词部分""" # 这里需要解析state_str中的interactive_elements # 为简化，假设state是JSON字符串，我们直接解析 try: state = json.loads(state_str) elements = state.get("interactive_elements", []) formatted = [] for idx, elem in enumerate(elements): desc = f"标签:<{elem.get('tag')}>" if elem.get('text'): desc += f" 文本:'{elem['text']}'" if elem.get('placeholder'): desc += f" 占位符:'{elem['placeholder']}'" formatted.append(f"{idx}: {desc}") return "\n".join(formatted) except: return "无法解析元素列表。" def _parse_action(self, decision_text: str) -> Dict[str, Any]: """解析LLM的回复，提取结构化动作指令""" # 这里需要从文本中提取JSON部分，实际应用中需要更鲁棒的解析 # 为演示，我们假设LLM返回了纯JSON import json try: # 尝试找到JSON块 lines = decision_text.strip().split('\n') json_str = None for line in lines: if line.strip().startswith('{'): json_str = line break if not json_str and len(lines) == 1: json_str = lines[0] if json_str: return json.loads(json_str) except: pass # 解析失败，返回安全动作 return {"reasoning": "Failed to parse LLM response", "action": "WAIT", "parameters": {"seconds": 5}}

模块三：执行模块负责将决策模块输出的抽象动作，转化为Playwright能执行的具体命令。

# actuator.py from playwright.sync_api import Page import time class WebActuator: def __init__(self, page: Page): self.page = page def execute(self, action: Dict[str, Any], page_state: Dict) -> str: """执行动作，并返回执行结果描述""" action_type = action.get("action") params = action.get("parameters", {}) reasoning = action.get("reasoning", "") print(f"[执行] 动作: {action_type}, 参数: {params}") print(f"[推理] {reasoning}") try: if action_type == "CLICK": element_idx = params.get("element_index") elements = page_state.get("interactive_elements", []) if 0 <= element_idx < len(elements): # 通过选择器或坐标点击，这里用简化方式 selector = self._element_to_selector(elements[element_idx]) self.page.click(selector) result = f"成功点击元素 {element_idx} ({selector})" else: result = f"点击失败：元素索引 {element_idx} 无效" elif action_type == "TYPE": element_idx = params.get("element_index") text = params.get("text", "") elements = page_state.get("interactive_elements", []) if 0 <= element_idx < len(elements): selector = self._element_to_selector(elements[element_idx]) self.page.fill(selector, text) result = f"成功在元素 {element_idx} 输入文本: '{text}'" else: result = f"输入失败：元素索引 {element_idx} 无效" elif action_type == "SCROLL": direction = params.get("direction", "down") if direction == "down": self.page.mouse.wheel(0, 300) else: self.page.mouse.wheel(0, -300) result = f"向{direction}滚动页面" elif action_type == "NAVIGATE": url = params.get("url") if url and url.startswith(('http://', 'https://')): self.page.goto(url) result = f"导航到 {url}" else: result = f"导航失败：URL格式错误 {url}" elif action_type == "WAIT": seconds = params.get("seconds", 2) time.sleep(seconds) result = f"等待 {seconds} 秒" elif action_type == "FINISH": result = "任务流程结束。" else: result = f"未知动作类型: {action_type}" except Exception as e: result = f"执行动作 {action_type} 时出错: {str(e)}" print(f"[结果] {result}") return result def _element_to_selector(self, element_info: Dict) -> str: """将元素信息转换为Playwright选择器（简化版）""" # 优先使用id，其次组合tag和文本 if element_info.get('id'): return f"#{element_info['id']}" elif element_info.get('text'): # 注意：通过文本定位可能不稳定 return f"{element_info['tag']}:has-text('{element_info['text'][:30]}')" else: # 最后回退到基于位置的点击（不推荐，易变） bbox = element_info.get('bounding_box') if bbox: x, y = bbox['x'] + bbox['width']/2, bbox['y'] + bbox['height']/2 return f"x={int(x)}>>y={int(y)}" # Playwright支持坐标选择器 return "body" # 保底选择器

3.3 主循环与任务执行

将以上模块组合起来，就形成了智能体的主循环。

# main.py import json from playwright.sync_api import sync_playwright from perception import WebPerception from brain import AgentBrain from actuator import WebActuator def run_web_agent(task_description: str, start_url: str = "https://www.google.com"): """运行网页智能体的主函数""" openai_api_key = "your_openai_api_key_here" # 请替换为你的API Key with sync_playwright() as p: # 启动浏览器 browser = p.chromium.launch(headless=False) # 非无头模式，便于观察 page = browser.new_page() page.goto(start_url) # 初始化模块 perceiver = WebPerception(page) brain = AgentBrain(openai_api_key, model="gpt-3.5-turbo") # 可用gpt-4，但成本高 actuator = WebActuator(page) task_history = [] max_steps = 20 # 防止无限循环 current_step = 0 print(f"开始任务: {task_description}") print(f"起始页面: {start_url}") while current_step < max_steps: current_step += 1 print(f"\n--- 步骤 {current_step} ---") # 1. 感知 page_state_str = perceiver.get_page_state() page_state_dict = json.loads(page_state_str) # 2. 决策 decision = brain.decide_next_action(task_description, page_state_str, task_history) if decision.get("action") == "FINISH": print("智能体判断任务完成。") break # 3. 执行 result = actuator.execute(decision, page_state_dict) # 4. 记录历史 task_history.append(f"步骤{current_step}: {decision.get('action')} - {result}") # 执行后短暂等待，让页面加载 page.wait_for_timeout(2000) print(f"\n任务结束。共执行 {current_step} 步。") print("操作历史:", task_history) browser.close() if __name__ == "__main__": # 示例任务：在百度搜索“OS Agent Survey” run_web_agent( task_description="在百度搜索框中输入‘OS Agent Survey’并点击搜索按钮", start_url="https://www.baidu.com" )

注意事项与避坑指南
元素定位的脆弱性：上述示例中通过索引定位元素非常不可靠，页面微小变动就会导致失败。生产系统需要更稳定的定位策略，如结合XPath、CSS选择器、元素唯一属性等，并实现重试和回退机制。
LLM提示工程：给LLM的提示词质量直接决定智能体表现。需要精心设计提示词，明确动作空间、输出格式，并提供足够的上下文示例。迭代优化提示词是开发中的主要工作。
成本与延迟：每一步都调用LLM API，成本高且速度慢。可以通过“宏观规划”来优化，即让LLM一次性规划多个步骤，或者只在关键决策点（如页面状态发生重大变化时）调用LLM。
错误处理与鲁棒性：真实网页充满不确定性：弹窗、加载慢、元素未找到等。智能体必须有完善的错误检测和恢复机制，例如超时重试、识别错误页面、重新评估目标等。
状态表示的效率：将整个DOM树或所有元素信息塞给LLM会很快耗尽上下文窗口。需要设计高效的状态表示方法，比如只提取关键元素、对相似元素进行分组、使用向量数据库存储历史状态等。

4. 评估OS Agent：我们如何知道它“好不好”？

构建出智能体只是第一步，如何科学地评估其能力更为关键。这也是当前研究的热点和难点。综述论文中列举了大量的评测基准，我们可以将其归纳为几个维度。

4.1 主流评测基准分类

基准类型	代表数据集	核心特点	评估重点
静态任务	Mind2Web, WebShop, AITW	提供网页或App的静态快照（截图+DOM），智能体预测下一步动作或完整轨迹。	规划与推理能力。在已知全部环境信息的情况下，能否做出正确决策。脱离真实交互，无法评估执行和状态追踪。
交互式仿真环境	WebArena, AndroidWorld, OSWorld	提供一个可控的、可交互的模拟环境（如docker容器中的完整OS）。智能体通过API与环境交互。	端到端任务完成率。在接近真实但隔离的环境中，完成如“在购物网站买书”、“在日历中添加事件”等具体任务。能评估交互和状态追踪。
真实世界在线评测	VisualWebArena, WindowsAgentArena	智能体在真实的网站或操作系统上执行任务。	在开放、动态环境中的鲁棒性。需要处理网络延迟、弹窗广告、验证码、网站改版等真实挑战。评估成本高，风险大。
技能专项评测	UGIF (GUI Grounding), OmniACT	专注于评估某一项特定能力，如GUI元素定位、指令跟随等。	基础能力的精度。例如，给定一个截图和指令“点击登录按钮”，模型能否输出正确的坐标。

4.2 构建你自己的简易评测集

在研究或项目初期，你可能需要一个小型、快速的评测集来迭代你的智能体。这里分享一个我常用的方法：

定义任务场景：选择3-5个有代表性的任务，覆盖不同难度。例如：
- 简单：在搜索引擎首页输入关键词并搜索。
- 中等：在电商网站搜索商品，按价格排序，点击第一个商品进入详情页。
- 复杂：在协作文档中，找到特定章节，添加评论，并@一位同事。
制定成功标准：明确每个任务怎样才算成功。是最终页面URL匹配？是页面出现了特定文本？还是完成了一系列特定的动作序列？标准必须可自动化检测。

搭建自动化测试框架：

# evaluator.py import pytest from your_agent import run_web_agent @pytest.mark.parametrize("task, start_url, success_condition", [ ("在百度搜索‘人工智能’", "https://www.baidu.com", lambda page: "人工智能" in page.title()), ("在豆瓣电影搜索‘肖申克的救赎’并进入其页面", "https://movie.douban.com", lambda page: "肖申克的救赎" in page.content() and "/subject/1292052/" in page.url), ]) def test_agent_task(task, start_url, success_condition): """运行智能体并检查是否满足成功条件""" final_state = run_web_agent(task, start_url) assert success_condition(final_state), f"任务'{task}'失败"

记录关键指标：
- 任务成功率：最核心的指标。
- 平均步骤数：衡量效率，步骤越少通常说明规划能力越强。
- 无效操作比例：如点击无效元素、重复操作等。
- 人类干预频率：在测试过程中，需要人工帮助的次数。

实操心得：评测中的常见陷阱
过拟合基准：智能体可能在某个特定基准上表现很好，但换一个网站或任务就崩溃。这说明它可能学到了基准的“捷径”而非通用能力。要用多样化的任务进行测试。
忽略非功能指标：除了成功率，还要关注可靠性（多次运行结果是否一致）、可解释性（它的决策过程是否清晰）、安全性（是否会执行危险操作）和效率（耗时和资源消耗）。
仿真与现实的鸿沟：在仿真环境中表现优异，不代表在真实网站上行得通。真实环境的噪音、变化和不确定性是最大的挑战。最终评估一定要在真实场景中进行小规模测试。

5. 前沿趋势与未来挑战

通过对这篇综述和大量相关论文的梳理，我能清晰地感受到OS Agent领域正在快速演进，并呈现出几个明显的趋势。

趋势一：从“单一界面”走向“跨平台通用”早期的研究多集中于单一平台，如Web Agent或Mobile Agent。现在的方向是构建能同时理解并操作桌面GUI、移动端UI和网页的通用OS Agent。这要求模型具备更强的跨模态、跨平台泛化能力。像OS-Copilot、Cradle这样的框架正在向这个方向努力。

趋势二：从“被动反应”走向“主动探索与学习”第一代智能体更像是一个“指令跟随者”。新一代智能体开始具备探索学习能力。例如，通过试错来熟悉一个新应用的功能，或者通过阅读应用的帮助文档、观察用户演示来学习新技能。这涉及到模仿学习、强化学习以及利用网络知识（如教程、文档）的技术。

趋势三：从“孤胆英雄”走向“多智能体协作”一个复杂的数字任务可能涉及多个软件。未来，我们可能会看到专门化的智能体协同工作：一个智能体负责信息检索，一个负责数据处理，另一个负责沟通协调。它们如何在操作系统层面安全、高效地共享信息、传递控制权，是一个新的研究课题。

趋势四：对“基础模型”的依赖与反思目前几乎所有高性能OS Agent都严重依赖GPT-4V、Claude等闭源、庞大的多模态模型。这带来了成本、延迟、可控性和隐私问题。因此，社区也在积极探索训练更轻量、更专精的开源基础模型，如CogAgent、Ferret-UI等，希望在特定任务上达到可比拟的效果。

当然，挑战依然巨大：

长程规划与复杂推理：处理需要数十步、涉及多个应用切换的复杂任务（如“规划一次出差，包括订票、订酒店、申请报销”），对模型的规划能力和世界知识是极大考验。
对动态环境的适应：真实世界充满变化。网页改版、软件更新、弹窗广告、网络错误……智能体必须能处理这些意外，而不是轻易崩溃。
安全与伦理：让AI直接操作我们的电脑，安全是头等大事。必须建立严格的权限沙箱和行为审查机制，防止其执行删除文件、发送恶意邮件、进行未授权支付等危险操作。
评估的可靠性：如何设计真正能衡量智能体“实用性”和“通用性”的评测体系，仍然是一个开放问题。

6. 给开发者和研究者的实践建议

基于我梳理这些资料和进行原型开发的经验，对于想要进入这个领域的同行，我有几点具体的建议：

对于研究者：

关注基础能力瓶颈：当前最大的瓶颈可能不是框架设计，而是基础模型的视觉定位精度和对GUI的语义理解深度。在这两个方向做出改进，能直接提升所有上层智能体的性能。
设计更好的状态表示：如何将高维、冗余的屏幕像素信息，压缩成对LLM友好、信息量丰富的状态表示，是一个关键问题。可以探索结合视觉、文本和结构信息的混合表示方法。
开源与可复现性：这个领域发展极快，但很多工作只发论文不开源代码，或者代码质量不高。推动开源基准、开源框架和可复现的实验，对领域健康发展至关重要。

对于开发者：

从具体场景切入：不要一开始就追求“通用人工智能助理”。选择一个垂直、封闭、高价值的场景（如自动处理特定类型的工单、操作内部管理系统、进行数据录入等），成功率会高很多。
采用“LLM as Controller”的框架模式：这是目前最成熟、迭代最快的路径。利用LangChain、AutoGPT等成熟框架的生态，可以快速搭建原型。
高度重视错误处理和日志：智能体在初期会频繁出错。设计完善的错误捕获、日志记录和人工接管流程，是项目能持续推进的保障。考虑实现“人类在环”的监督模式。
成本控制是关键：每一步都调用GPT-4V的账单是惊人的。可以通过缓存、将简单决策规则化、使用小模型处理常规任务等策略来优化成本。

我个人在实际尝试将OS Agent技术应用于内部流程自动化时，最深的一点体会是：技术上的挑战固然大，但更大的挑战在于如何定义清晰、边界明确的任务。很多我们人类觉得简单的操作，背后依赖了大量的常识和模糊判断。在让AI接手之前，我们必须先把自己执行任务的过程“机械化”、“明确化”。这个过程本身，就是对现有工作流程的一次宝贵优化。

OS Agent正在将AI从“内容生成者”转变为“数字世界操作者”。这条路还很长，但每一步进展都让我们离那个“动动嘴皮子就能搞定电脑上所有杂事”的未来更近一步。这篇综述及其背后的开源项目集合，就像一份详尽的“地图”和“工具包”，为所有探险者指明了方向，提供了装备。剩下的，就是我们一起动手，去解决那些真实而具体的问题了。

查看全文

http://www.jsqmd.com/news/701450/