跨系统自动化技术演进:实在Agent的屏幕语义理解如何替代API和坐标脚本
一、企业集成的技术困局
2026年的企业IT环境里,一个残酷的数据摆上台面:MuleSoft报告显示企业平均运行957个应用程序,但仅有27%实现了集成。超过60%的关键业务逻辑仍运行在没有API的老旧系统上。
更棘手的是,这27%的集成率还在逐年下降——系统数量的增速远超打通它们的速度。对开发者来说,跨系统操作早已不是“能不能做”的问题,而是“做不做得起、维不维护得动”的成本问题。
过去二十年,行业尝试了两条主要技术路线:API集成和RPA脚本。它们各自解决了一部分问题,也各自碰到了天花板。而2026年,第三条路线——基于大模型的屏幕语义理解——正在从实验阶段走向生产环境。
二、API集成的辉煌与困境
API集成是跨系统交互的“理想解”。通过标准接口调用,数据交换效率高、状态可监控、安全可管控。Gartner数据显示超过90%的新企业应用已将API作为架构核心组件。
但在实际落地中,API路线撞上了两面墙。
第一面墙:老旧系统没有接口。大量企业的核心业务仍跑在十年甚至二十年前开发的C/S架构系统上。这些系统建设时根本没有API设计理念,原厂支持早已停止,有些连源码都已遗失。对这些“数字黑盒”,API路线无从下手。
第二面墙:接口开发和维护成本高。即使目标系统有API,制造企业仅打通ERP与MES就需要开发200多个API接口,单个系统对接通常需要2-3个月。每次系统版本升级,接口契约都可能变更,企业需要持续投入资源做回归测试和兼容性修复。
更隐蔽的成本在于API治理。超过25%的企业API处于“未治理”状态——文档缺失、版本混乱、无安全管控。开发者调用一个API,常常需要先花半天搞清楚它的真实行为和边界条件。
三、传统RPA的突破与局限
传统RPA绕开了API依赖,通过模拟鼠标键盘操作实现跨系统交互。这一度被视为“数字黑盒”的破解之道。
但RPA的底层逻辑决定了它的天花板。传统RPA基于DOM树解析或坐标定位来识别界面元素。它记录的是“在坐标(800, 400)处输入用户名,在坐标(800, 450)处输入密码”——这是坐标记忆,不是语义理解。
当界面布局因版本更新、分辨率调整或操作系统更换而发生变化时,坐标脚本就会大面积失效。组织通常将RPA预算的30%-50%用于维护和故障排除,企业平均每投入1元在传统RPA授权上,需额外花费2.5元进行脚本维护。
在信创环境下,这一问题被急剧放大。国产操作系统和软件正处于快速迭代期,UI界面频繁调整,传统RPA的脚本失效频率和维护成本呈指数曲线上升。
四、第三条路线:屏幕语义理解
面对API覆盖不足和坐标脚本维护成本高企的双重困境,一种新的技术范式正在兴起:让机器像人一样“看懂”屏幕,而不是“记住”屏幕。
实在Agent的ISSUT(Intelligent Screen Semantic Understanding Technology)智能屏幕语义理解技术,是这条路线的代表性实践。
4.1 技术架构:双引擎驱动
实在Agent的核心由两大引擎构成:
TARS流程垂直大模型:作为“大脑”,负责语义理解、意图识别、任务拆解与动态决策。与通用大模型不同,TARS针对1000余种企业软件和10000余个常用场景进行了专项预训练,在制造业、金融等场景中任务拆解准确率达84.16%,动作映射准确率达86.87%。
ISSUT智能屏幕语义理解:作为“眼睛”,通过视觉-语义联合建模实时解析屏幕画面,识别所有可交互元素的业务含义,不依赖API和坐标。
两者形成“思考-行动”双循环架构——TARS负责任务规划,ISSUT+RPA负责界面执行,执行结果实时回传给TARS验证,形成闭环。
4.2 ISSUT的工作原理:从视觉特征到语义操作
ISSUT的技术实现可以分为三个层次,这是理解它为什么能替代API和坐标脚本的关键。
第一层:视觉特征提取
ISSUT通过轻量级CV模型实时捕获屏幕画面,检测所有可交互元素——按钮、输入框、下拉菜单、表格区域、弹窗标题。与传统OCR不同,ISSUT不仅提取文字内容,还分析每个元素的形状、颜色、相对位置关系以及层级结构。
这一步的输出不是“坐标(800, 400)”,而是一个多维度的视觉特征向量,包含元素的外观属性、空间定位和上下文关系。
第二层:语义映射与场景建模
视觉特征向量被送入大语言模型进行语义推断。一个典型场景:当任务指令为“提交报销申请”,模型在界面上看到“提交”和“保存草稿”两个按钮时,会根据按钮颜色(提交通常为蓝色高亮)、位置(位于表单右下角)以及语言习惯(提交是完成性动作,保存草稿是暂存性动作),准确判断点击目标。
这一步的关键依赖于TARS模型在企业软件领域的预训练积累——它“见过”足够多的企业软件界面,知道在特定业务场景中哪些元素通常承担什么角色。这种预训练知识使得语义映射不再需要人工配置规则。
第三层:动态操作生成
基于语义理解结果,Agent实时生成操作序列并通过RPA执行引擎完成真实操作——点击、输入、拖拽、数据抓取。整个过程不需要预先定义任何UI元素选择器。
在v7.3.4版本中进一步推出的TARS AI元素定位技术,通过多模态编码、语义锚点生成与动态匹配优化,实现即使元素的低级属性(如ID、class、坐标)全部改变,只要承担的交互功能不变即可精准命中。这意味着界面改版后,只要业务语义不变——比如按钮从“确认”改叫“确定”,从方角矩形变为圆角矩形——Agent仍能自适应操作。
4.3 技术对比:三条路线的本质差异
| 技术维度 | API集成 | 传统RPA(坐标脚本) | 屏幕语义理解(实在Agent) |
|---|---|---|---|
| 系统兼容性 | 仅限有API的系统 | 依赖DOM/坐标,界面变动即失效 | 任意图形界面,跨操作系统 |
| 维护成本 | 接口变更时需重新对接 | 极高,UI变动即需修脚本 | 低,语义不变即自适应 |
| 对开发者的要求 | 需要接口开发能力 | 需要编写和维护脚本 | 自然语言驱动,无需编码 |
| 老旧系统支持 | 不支持 | 有限支持,稳定性差 | 全面支持 |
| 信创环境适配 | 取决于接口迁移 | 坐标定位大面积失效 | 语义定位自动适配 |
五、生产环境验证
屏幕语义理解方案已在多个行业的真实生产环境中得到验证。
在制造业,国内包装龙头裕同科技部署实在Agent后,构建了覆盖客服跟单、采购、计划物控、仓储库存、财务等7大业务模块的数字员工矩阵。通过ISSUT技术,Agent打通了ERP、MES、WMS、SRM等异构系统,实现了订单履行全流程的自主协同,无需任何API对接。
在金融业,中国农业发展银行在信创环境下部署实在Agent,覆盖总行及全国各一级分行10余个处室的报表下载、邮件汇总、反洗钱等流程自动化场景。在反洗钱排查中,Agent从核心系统调取客户信息、登录反洗钱平台进行分析、接入外部数据库进行制裁名单匹配,全链路跨系统操作由ISSUT驱动完成,每一步操作自动留痕满足审计要求。
在信创适配层面,实在Agent已全面兼容龙芯、飞腾、海光、兆芯、鲲鹏等国产CPU,适配麒麟、统信、鸿蒙等国产操作系统,通过中国信通院可信AI智能体平台与工具评估最高评级5级。
六、对开发者的启示
屏幕语义理解技术的成熟,正在改变跨系统自动化的工程范式。
对开发者而言,这意味着三件事。第一,老旧系统不再是自动化的禁区。无论是PowerBuilder开发的C/S客户端、还是国产化替代后自研框架的桌面软件,只要能显示在屏幕上,就能被操作。第二,维护成本的结构性下降。语义定位方案将界面变化的维护成本从“每次人工修脚本”降至“自动适配”,长期TCO差距可达数倍。第三,开发门槛的降低。业务人员通过自然语言描述即可生成流程,不再需要等IT排期写代码。实在Agent已推出免费社区版,个人开发者可零成本上手体验。
从API集成到坐标脚本,再到屏幕语义理解,跨系统自动化技术正在经历第三次范式转移。这一次,机器终于开始像人一样“看懂”屏幕了。
