当前位置：首页 > news >正文

跨系统自动化技术演进：实在Agent的屏幕语义理解如何替代API和坐标脚本

news 2026/7/14 9:27:05

一、企业集成的技术困局

2026年的企业IT环境里，一个残酷的数据摆上台面：MuleSoft报告显示企业平均运行957个应用程序，但仅有27%实现了集成。超过60%的关键业务逻辑仍运行在没有API的老旧系统上。

更棘手的是，这27%的集成率还在逐年下降——系统数量的增速远超打通它们的速度。对开发者来说，跨系统操作早已不是“能不能做”的问题，而是“做不做得起、维不维护得动”的成本问题。

过去二十年，行业尝试了两条主要技术路线：API集成和RPA脚本。它们各自解决了一部分问题，也各自碰到了天花板。而2026年，第三条路线——基于大模型的屏幕语义理解——正在从实验阶段走向生产环境。

二、API集成的辉煌与困境

API集成是跨系统交互的“理想解”。通过标准接口调用，数据交换效率高、状态可监控、安全可管控。Gartner数据显示超过90%的新企业应用已将API作为架构核心组件。

但在实际落地中，API路线撞上了两面墙。

第一面墙：老旧系统没有接口。大量企业的核心业务仍跑在十年甚至二十年前开发的C/S架构系统上。这些系统建设时根本没有API设计理念，原厂支持早已停止，有些连源码都已遗失。对这些“数字黑盒”，API路线无从下手。

第二面墙：接口开发和维护成本高。即使目标系统有API，制造企业仅打通ERP与MES就需要开发200多个API接口，单个系统对接通常需要2-3个月。每次系统版本升级，接口契约都可能变更，企业需要持续投入资源做回归测试和兼容性修复。

更隐蔽的成本在于API治理。超过25%的企业API处于“未治理”状态——文档缺失、版本混乱、无安全管控。开发者调用一个API，常常需要先花半天搞清楚它的真实行为和边界条件。

三、传统RPA的突破与局限

传统RPA绕开了API依赖，通过模拟鼠标键盘操作实现跨系统交互。这一度被视为“数字黑盒”的破解之道。

但RPA的底层逻辑决定了它的天花板。传统RPA基于DOM树解析或坐标定位来识别界面元素。它记录的是“在坐标(800, 400)处输入用户名，在坐标(800, 450)处输入密码”——这是坐标记忆，不是语义理解。

当界面布局因版本更新、分辨率调整或操作系统更换而发生变化时，坐标脚本就会大面积失效。组织通常将RPA预算的30%-50%用于维护和故障排除，企业平均每投入1元在传统RPA授权上，需额外花费2.5元进行脚本维护。

在信创环境下，这一问题被急剧放大。国产操作系统和软件正处于快速迭代期，UI界面频繁调整，传统RPA的脚本失效频率和维护成本呈指数曲线上升。

四、第三条路线：屏幕语义理解

面对API覆盖不足和坐标脚本维护成本高企的双重困境，一种新的技术范式正在兴起：让机器像人一样“看懂”屏幕，而不是“记住”屏幕。

实在Agent的ISSUT（Intelligent Screen Semantic Understanding Technology）智能屏幕语义理解技术，是这条路线的代表性实践。

4.1 技术架构：双引擎驱动

实在Agent的核心由两大引擎构成：

TARS流程垂直大模型：作为“大脑”，负责语义理解、意图识别、任务拆解与动态决策。与通用大模型不同，TARS针对1000余种企业软件和10000余个常用场景进行了专项预训练，在制造业、金融等场景中任务拆解准确率达84.16%，动作映射准确率达86.87%。
ISSUT智能屏幕语义理解：作为“眼睛”，通过视觉-语义联合建模实时解析屏幕画面，识别所有可交互元素的业务含义，不依赖API和坐标。

两者形成“思考-行动”双循环架构——TARS负责任务规划，ISSUT+RPA负责界面执行，执行结果实时回传给TARS验证，形成闭环。

4.2 ISSUT的工作原理：从视觉特征到语义操作

ISSUT的技术实现可以分为三个层次，这是理解它为什么能替代API和坐标脚本的关键。

第一层：视觉特征提取

ISSUT通过轻量级CV模型实时捕获屏幕画面，检测所有可交互元素——按钮、输入框、下拉菜单、表格区域、弹窗标题。与传统OCR不同，ISSUT不仅提取文字内容，还分析每个元素的形状、颜色、相对位置关系以及层级结构。

这一步的输出不是“坐标(800, 400)”，而是一个多维度的视觉特征向量，包含元素的外观属性、空间定位和上下文关系。

第二层：语义映射与场景建模

视觉特征向量被送入大语言模型进行语义推断。一个典型场景：当任务指令为“提交报销申请”，模型在界面上看到“提交”和“保存草稿”两个按钮时，会根据按钮颜色（提交通常为蓝色高亮）、位置（位于表单右下角）以及语言习惯（提交是完成性动作，保存草稿是暂存性动作），准确判断点击目标。

这一步的关键依赖于TARS模型在企业软件领域的预训练积累——它“见过”足够多的企业软件界面，知道在特定业务场景中哪些元素通常承担什么角色。这种预训练知识使得语义映射不再需要人工配置规则。

第三层：动态操作生成

基于语义理解结果，Agent实时生成操作序列并通过RPA执行引擎完成真实操作——点击、输入、拖拽、数据抓取。整个过程不需要预先定义任何UI元素选择器。

在v7.3.4版本中进一步推出的TARS AI元素定位技术，通过多模态编码、语义锚点生成与动态匹配优化，实现即使元素的低级属性（如ID、class、坐标）全部改变，只要承担的交互功能不变即可精准命中。这意味着界面改版后，只要业务语义不变——比如按钮从“确认”改叫“确定”，从方角矩形变为圆角矩形——Agent仍能自适应操作。

4.3 技术对比：三条路线的本质差异

技术维度	API集成	传统RPA（坐标脚本）	屏幕语义理解（实在Agent）
系统兼容性	仅限有API的系统	依赖DOM/坐标，界面变动即失效	任意图形界面，跨操作系统
维护成本	接口变更时需重新对接	极高，UI变动即需修脚本	低，语义不变即自适应
对开发者的要求	需要接口开发能力	需要编写和维护脚本	自然语言驱动，无需编码
老旧系统支持	不支持	有限支持，稳定性差	全面支持
信创环境适配	取决于接口迁移	坐标定位大面积失效	语义定位自动适配

五、生产环境验证

屏幕语义理解方案已在多个行业的真实生产环境中得到验证。

在制造业，国内包装龙头裕同科技部署实在Agent后，构建了覆盖客服跟单、采购、计划物控、仓储库存、财务等7大业务模块的数字员工矩阵。通过ISSUT技术，Agent打通了ERP、MES、WMS、SRM等异构系统，实现了订单履行全流程的自主协同，无需任何API对接。

在金融业，中国农业发展银行在信创环境下部署实在Agent，覆盖总行及全国各一级分行10余个处室的报表下载、邮件汇总、反洗钱等流程自动化场景。在反洗钱排查中，Agent从核心系统调取客户信息、登录反洗钱平台进行分析、接入外部数据库进行制裁名单匹配，全链路跨系统操作由ISSUT驱动完成，每一步操作自动留痕满足审计要求。

在信创适配层面，实在Agent已全面兼容龙芯、飞腾、海光、兆芯、鲲鹏等国产CPU，适配麒麟、统信、鸿蒙等国产操作系统，通过中国信通院可信AI智能体平台与工具评估最高评级5级。

六、对开发者的启示

屏幕语义理解技术的成熟，正在改变跨系统自动化的工程范式。

对开发者而言，这意味着三件事。第一，老旧系统不再是自动化的禁区。无论是PowerBuilder开发的C/S客户端、还是国产化替代后自研框架的桌面软件，只要能显示在屏幕上，就能被操作。第二，维护成本的结构性下降。语义定位方案将界面变化的维护成本从“每次人工修脚本”降至“自动适配”，长期TCO差距可达数倍。第三，开发门槛的降低。业务人员通过自然语言描述即可生成流程，不再需要等IT排期写代码。实在Agent已推出免费社区版，个人开发者可零成本上手体验。

从API集成到坐标脚本，再到屏幕语义理解，跨系统自动化技术正在经历第三次范式转移。这一次，机器终于开始像人一样“看懂”屏幕了。

查看全文

http://www.jsqmd.com/news/884403/