当前位置: 首页 > news >正文

别再手动搓老系统了:微软 Copilot Studio 的 Computer Use 到底有多能打

接到一个任务:对接一套二十年前的老系统。

没有 API。没有 SDK。只有一个人力窗口——登录进去,填表单,点按钮,等结果。你同事管这叫"手动搓数据"。这种活,公司里总是需要一个倒霉蛋来干的。

然后我看到了微软 Copilot Studio 刚放出来的新东西。

不,不是那种"帮你写个回复邮件"的 AI。是能让 AI 直接替你去操作任何软件的——Computer Use agent。今年 5 月 13 号,GA 了。

什么意思?翻译成人话:给你的 AI 一双眼睛、一双手,它能像人一样"看"屏幕、"点"按钮、"填"表单,而且看见的玩意儿变了,它也能自适应。不像传统的 RPA,一个按钮往右挪了 3 个像素,脚本就炸了。

我捣鼓了一整个周末,把整个过程搓出来了。


到底是个什么玩意儿

先说清楚概念。

微软 Copilot Studio 里有个新工具叫Computer Use(全称是 Computer-Using Agent,简称 CUA)。它的工作原理很简单——把 AI 模型接上一个虚拟的鼠标和键盘,让它能操作 Windows 上的任何软件。

不是走 API 调用的路线。是模拟真人操作:看到屏幕上有什么 → 判断下一步点哪里 → 点下去 → 看到新页面 → 再判断 → 循环。

用微软自己的话说:"If a person can use an app or website, computer use can too."

底层跑了两种模型可选:OpenAI 的 CUA 模型,或者 Anthropic 的 Claude Sonnet 4.5。都是经过专门训练的视觉-推理模型,不是那种"看着截图猜猜看"的水平。


跟 RPA 有什么区别

这个问题我一开始也困惑。

传统 RPA(UiPath、Blue Prism 那些)也是替人操作软件啊,有啥区别?

区别大了。我列个表:

对比项传统 RPAComputer Use Agent
识别方式CSS 选择器 / XPath / 坐标AI 视觉 + 语义理解
界面变化前端改一个 class 名就崩自适应,按钮挪了也能找到
开发方式拖拽流程图 / 录屏回放写一句自然语言描述
维护成本高,每次更新要重新录制低,AI 自己适配
错误处理写死分支逻辑模型自带推理能力
适用场景稳定的企业系统老系统、第三方门户、无 API 场景

说白了,RPA 是一个按剧本演戏的演员——剧本写的每一步都不能错,舞台布景变了就演不下去。Computer Use 更像一个有脑子的人——你告诉它"去把那个表格填了",它看看表单长什么样,自己琢磨怎么填。


实操:三步搓一个 Computer Use Agent

理论说多了没意思,直接上手。

前置条件

  • 一个 Copilot Studio 环境(有 Power Platform 订阅就行)
  • 区域设成美国(目前预览期有区域限制)
  • 你那台 Windows 机器(或者云桌面)

第一步:建个 Agent

进 Copilot Studio,点Create→ 选Agent。给个名字,比如"老系统数据录入员"。描述写清楚它要干嘛——后面模型会读这个描述来决定什么时候调用工具。

第二步:加 Computer Use 工具

左边栏点ToolsAdd toolNew tool→ 选Computer use

这里有一排配置:

  • Name:给工具起个名字,比如"操作报销系统"
  • Description:告诉它这是个什么系统、用来干嘛的
  • Model:选模型。我建议先用 OpenAI CUA(标准版,跑一步 5 个 Copilot Credits),效果不好再切 Claude
  • Instructions:关键。在这里写清楚它要干什么,格式可以参考:
1.打开https://your-legacy-system.com2.用账号admin登录3.进入"报销单管理"页面4.找到状态为"待审批"的记录5.逐条核准6.完成后退出系统7.不需要请求许可

最后那句"不需要请求许可"挺重要的——不然模型每做一个步骤都会停下来问你"可以吗"。

第三步:配置访问权限

选这个 agent 要操作的机器。支持两种方式:

  • 物理机:安装 Copilot Studio 的本地 Agent 服务
  • Cloud PC:Windows 365 云桌面(适合规模化部署)

然后配凭据。支持内置加密存储或者 Azure Key Vault。这里有个坑:密码字段只支持原生 Windows 应用(WinForms、WPF、UWP),不支持 Electron 应用(比如 VS Code、Slack 的桌面版)、Java 应用、游戏。

跑起来看看

配完点Test,会弹出一个远程桌面窗口,agent 开始"表演"——你会看到光标自己在动,自己打开浏览器,自己填表单。第一次看到这画面,说实话有点脊背发凉。

但效果是真的行。我拿一个内部报销系统测了三条业务流程,全部一次通过。中间有一步界面上多了一个弹窗提示,agent 自己关了弹窗继续往下走——传统 RPA 写到这一步,脚本可能得重录。


企业级要关注的事

个人捣鼓是一回事,上生产是另一回事。微软这一波 GA 不只是开放功能,还把企业治理也补齐了:

  • Human-in-the-loop:遇到低置信度的操作,可以设审批人,等人点确认再继续
  • 运行回放:agent 每一步看过什么、点过什么、为什么这么选,全部录下来可以回放审查
  • 审计日志:日志直接推到 Microsoft Purview 和 Dataverse,合规审计一条线走完
  • 应用白名单:可以限制 agent 只能操作某些网站或应用,其他的一律不给碰
  • DLP 策略:继承 Power Platform 的数据防泄漏策略

这对金融、医疗、政务这些合规重灾区来说,是刚需。没有这些,IT 部门不可能放 AI 去碰生产系统。


一条产业链正在形成

微软不是唯一在做这件事的。Anthropic 的 Claude 很早就有 Computer Use 能力了(去年就发布了),OpenAI 的 CUA 模型也在跟进。但 Microsoft Copilot Studio 的差异化在于:它把这件事做成了低代码平台的一部分

你不是在写 Python 脚本调 API 让 AI 操作电脑。你是在 Copilot Studio 里拖一拖、写几句自然语言描述,一个能操作真实软件的 agent 就造好了。还能跟已有的 Power Automate 流程、Dynamics 365、Teams 无缝打通。

Work IQ 的 REST API 和 CLI 也开放了,MCP 协议支持也加了——这意味着 agent 不光能操作桌面软件,还能调用外部工具链,agent 之间还能互相通信(Agent-to-Agent 通信也 GA 了)。

说白了,微软在搓一个东西:让 agent 变成企业 IT 的"通用遥控器"——不管底下是什么老古董系统,只要有个屏幕,agent 就能操作。


值不值那个 Credits

最后聊一下成本。

Computer Use 每次执行按步骤计费(一个步骤可能包含多次点击/输入)。标准模型 5 Credits/步,Premiuim 模型(Claude Opus 4.6)15 Credits/步。

拿我刚才测试的报销流程来说:打开系统(1步)→ 登录(1步)→ 进报销页面(1步)→ 找待审批记录(2步)→ 逐条核准(每条2步)→ 退出(1步)。一条报销单大概 10 步左右,50 Credits。

一个 Copilot Credit 多少钱?取决于你的 Copilot Studio 许可证。标准版大概 $0.01-0.02/Credit。算下来一条流程不到 $1。

对比一个专职员工每天干 8 小时这活——一个月上万的人工成本——这个价格简直像白送。而且机器不需要午休、不请病假、不会在群里吐槽"又是这破系统"。

当然,也有该冷静的地方:模型偶尔会"看走眼"(比如界面上的某个按钮跟预期位置不一样),Human-in-the-loop 是必要的兜底。我测了三轮,有一次 agent 在一个双选框页面上卡了 40 秒——它在犹豫选左边还是选右边。

但话说回来,40 秒。换我去,可能也要看 10 秒。这就是 Computer Use 最让我服气的地方——它不是快,它是像人


一个判断

传统 RPA 厂商未来两年的日子恐怕不太好过。当一个低代码平台能让你用自然语言描述就能搓出一个会操作软件的 agent,而且自带视觉自适应能力——那种写脚本、录流程、处理异常分支的 RPA 开发模式,就显得有点笨重了。

我不是说 RPA 会死——有些高确定性、高频重复的场景,RPA 的稳定性还是要高一个量级的。但"打个补丁对付一下老系统"这种场景,Agent 赢麻了。

说实话,我一开始也只是抱着"看看微软又画了什么饼"的心态去试的。结果捣鼓完一个周末,状态变成了"嗯,真香"。

这玩意儿应该也会遇到新问题——就像我常说的,每个新方案都是旧方案换了层皮。但至少这一次,皮换得不太敷衍。

散会。

http://www.jsqmd.com/news/931877/

相关文章:

  • 从A2L文件到数据采集:深入理解XCP协议中DAQ命令配置与优化技巧
  • 2026宜昌卫生间免砸砖防水、外墙、地下室、楼顶渗漏+彩钢瓦、阳光房漏水 本地专业防水公司TOP5权威推荐(2026年6月本地最新深度调研) - 企业资讯
  • OmenSuperHub:开源惠普OMEN笔记本性能控制终极方案,彻底释放硬件潜力
  • 2026珠海卫生间免砸砖防水、外墙、地下室、楼顶渗漏+彩钢瓦、阳光房漏水 本地专业防水公司TOP5权威推荐(2026年6月本地最新深度调研) - 企业资讯
  • 2026树洞平台全榜单:隐私安全、陪伴质量、价格透明度三重测评 - 时时资讯
  • 收藏!普通人也能抓住的AI红利:2026年入局还来得及吗?
  • 如何为多路ADC选择低偏斜时钟缓冲器?CDCLVC1102PWR的<50ps输出偏斜方案解析
  • 2026南宁卫生间免砸砖防水、外墙、地下室、楼顶渗漏+彩钢瓦、阳光房漏水 本地专业防水公司TOP5权威推荐(2026年6月本地最新深度调研) - 企业资讯
  • Vivado里AXI总线互联,SmartConnect和InterConnect到底啥时候必须用?一个工程实例说清楚
  • Windows 10/11系统下ArcGIS 10.4完整安装与汉化保姆级教程(含许可服务启动失败等常见问题解决)
  • Curator 如何判断技能「有用」与「该淘汰」?小白程序员必看!
  • Illustrator脚本效率革命:5分钟掌握智能批量替换技术
  • 【Vue知识点总结】Watch(监听器)
  • 2026国产品牌超声波明渠流量计源头厂家综合实力TOP10排行榜:技术对标国际、国产替代首选品牌深度推荐 - 水质仪表品牌排行榜
  • 深度解析Sunshine开源游戏串流架构:构建高性能自托管游戏云的技术实现
  • AI内容检测原理与人性化改写实战:从统计特征到语义重构
  • 2026汕头卫生间免砸砖防水、外墙、地下室、楼顶渗漏+彩钢瓦、阳光房漏水 本地专业防水公司TOP5权威推荐(2026年6月本地最新深度调研) - 企业资讯
  • 2026济南卫生间免砸砖防水、外墙、地下室、楼顶渗漏+彩钢瓦、阳光房漏水 本地专业防水公司TOP5权威推荐(2026年6月本地最新深度调研) - 企业资讯
  • Promise 与 Async Await 深度解析
  • 2026衡阳卫生间免砸砖防水、外墙、地下室、楼顶渗漏+彩钢瓦、阳光房漏水 本地专业防水公司TOP5权威推荐(2026年6月本地最新深度调研) - 企业资讯
  • 04|精准测试平台的数据存储:MySQL、Redis、Elasticsearch 怎么分工?
  • 收藏!AI时代,这10类工作将越来越香,普通人如何避开内卷安稳立足?
  • 深度解析PanoHead:如何实现360度全头部3D生成的技术突破
  • 如何快速掌握围棋AI分析:LizzieYzy完整使用指南
  • 基于PHP的抖音无水印视频解析技术实现与架构解析
  • 2026柳州卫生间免砸砖防水、外墙、地下室、楼顶渗漏+彩钢瓦、阳光房漏水 本地专业防水公司TOP5权威推荐(2026年6月本地最新深度调研) - 企业资讯
  • ctf-git篇
  • 2026襄阳卫生间免砸砖防水、外墙、地下室、楼顶渗漏+彩钢瓦、阳光房漏水 本地专业防水公司TOP5权威推荐(2026年6月本地最新深度调研) - 企业资讯
  • 机组电涡流传感器TR-81
  • Chinese-LLaMA-2-7B与原始Llama-2对比:中文理解能力提升分析