当前位置: 首页 > news >正文

跨系统自动化技术演进:实在Agent的屏幕语义理解如何替代API和坐标脚本

一、企业集成的技术困局

2026年的企业IT环境里,一个残酷的数据摆上台面:MuleSoft报告显示企业平均运行957个应用程序,但仅有27%实现了集成。超过60%的关键业务逻辑仍运行在没有API的老旧系统上。

更棘手的是,这27%的集成率还在逐年下降——系统数量的增速远超打通它们的速度。对开发者来说,跨系统操作早已不是“能不能做”的问题,而是“做不做得起、维不维护得动”的成本问题。

过去二十年,行业尝试了两条主要技术路线:API集成和RPA脚本。它们各自解决了一部分问题,也各自碰到了天花板。而2026年,第三条路线——基于大模型的屏幕语义理解——正在从实验阶段走向生产环境。

二、API集成的辉煌与困境

API集成是跨系统交互的“理想解”。通过标准接口调用,数据交换效率高、状态可监控、安全可管控。Gartner数据显示超过90%的新企业应用已将API作为架构核心组件。

但在实际落地中,API路线撞上了两面墙。

第一面墙:老旧系统没有接口。大量企业的核心业务仍跑在十年甚至二十年前开发的C/S架构系统上。这些系统建设时根本没有API设计理念,原厂支持早已停止,有些连源码都已遗失。对这些“数字黑盒”,API路线无从下手。

第二面墙:接口开发和维护成本高。即使目标系统有API,制造企业仅打通ERP与MES就需要开发200多个API接口,单个系统对接通常需要2-3个月。每次系统版本升级,接口契约都可能变更,企业需要持续投入资源做回归测试和兼容性修复。

更隐蔽的成本在于API治理。超过25%的企业API处于“未治理”状态——文档缺失、版本混乱、无安全管控。开发者调用一个API,常常需要先花半天搞清楚它的真实行为和边界条件。

三、传统RPA的突破与局限

传统RPA绕开了API依赖,通过模拟鼠标键盘操作实现跨系统交互。这一度被视为“数字黑盒”的破解之道。

但RPA的底层逻辑决定了它的天花板。传统RPA基于DOM树解析或坐标定位来识别界面元素。它记录的是“在坐标(800, 400)处输入用户名,在坐标(800, 450)处输入密码”——这是坐标记忆,不是语义理解

当界面布局因版本更新、分辨率调整或操作系统更换而发生变化时,坐标脚本就会大面积失效。组织通常将RPA预算的30%-50%用于维护和故障排除,企业平均每投入1元在传统RPA授权上,需额外花费2.5元进行脚本维护。

在信创环境下,这一问题被急剧放大。国产操作系统和软件正处于快速迭代期,UI界面频繁调整,传统RPA的脚本失效频率和维护成本呈指数曲线上升。

四、第三条路线:屏幕语义理解

面对API覆盖不足和坐标脚本维护成本高企的双重困境,一种新的技术范式正在兴起:让机器像人一样“看懂”屏幕,而不是“记住”屏幕。

实在Agent的ISSUT(Intelligent Screen Semantic Understanding Technology)智能屏幕语义理解技术,是这条路线的代表性实践。

4.1 技术架构:双引擎驱动

实在Agent的核心由两大引擎构成:

  • TARS流程垂直大模型:作为“大脑”,负责语义理解、意图识别、任务拆解与动态决策。与通用大模型不同,TARS针对1000余种企业软件和10000余个常用场景进行了专项预训练,在制造业、金融等场景中任务拆解准确率达84.16%,动作映射准确率达86.87%。

  • ISSUT智能屏幕语义理解:作为“眼睛”,通过视觉-语义联合建模实时解析屏幕画面,识别所有可交互元素的业务含义,不依赖API和坐标。

两者形成“思考-行动”双循环架构——TARS负责任务规划,ISSUT+RPA负责界面执行,执行结果实时回传给TARS验证,形成闭环。

4.2 ISSUT的工作原理:从视觉特征到语义操作

ISSUT的技术实现可以分为三个层次,这是理解它为什么能替代API和坐标脚本的关键。

第一层:视觉特征提取

ISSUT通过轻量级CV模型实时捕获屏幕画面,检测所有可交互元素——按钮、输入框、下拉菜单、表格区域、弹窗标题。与传统OCR不同,ISSUT不仅提取文字内容,还分析每个元素的形状、颜色、相对位置关系以及层级结构。

这一步的输出不是“坐标(800, 400)”,而是一个多维度的视觉特征向量,包含元素的外观属性、空间定位和上下文关系。

第二层:语义映射与场景建模

视觉特征向量被送入大语言模型进行语义推断。一个典型场景:当任务指令为“提交报销申请”,模型在界面上看到“提交”和“保存草稿”两个按钮时,会根据按钮颜色(提交通常为蓝色高亮)、位置(位于表单右下角)以及语言习惯(提交是完成性动作,保存草稿是暂存性动作),准确判断点击目标。

这一步的关键依赖于TARS模型在企业软件领域的预训练积累——它“见过”足够多的企业软件界面,知道在特定业务场景中哪些元素通常承担什么角色。这种预训练知识使得语义映射不再需要人工配置规则。

第三层:动态操作生成

基于语义理解结果,Agent实时生成操作序列并通过RPA执行引擎完成真实操作——点击、输入、拖拽、数据抓取。整个过程不需要预先定义任何UI元素选择器。

在v7.3.4版本中进一步推出的TARS AI元素定位技术,通过多模态编码、语义锚点生成与动态匹配优化,实现即使元素的低级属性(如ID、class、坐标)全部改变,只要承担的交互功能不变即可精准命中。这意味着界面改版后,只要业务语义不变——比如按钮从“确认”改叫“确定”,从方角矩形变为圆角矩形——Agent仍能自适应操作。

4.3 技术对比:三条路线的本质差异

技术维度API集成传统RPA(坐标脚本)屏幕语义理解(实在Agent)
系统兼容性仅限有API的系统依赖DOM/坐标,界面变动即失效任意图形界面,跨操作系统
维护成本接口变更时需重新对接极高,UI变动即需修脚本低,语义不变即自适应
对开发者的要求需要接口开发能力需要编写和维护脚本自然语言驱动,无需编码
老旧系统支持不支持有限支持,稳定性差全面支持
信创环境适配取决于接口迁移坐标定位大面积失效语义定位自动适配

五、生产环境验证

屏幕语义理解方案已在多个行业的真实生产环境中得到验证。

在制造业,国内包装龙头裕同科技部署实在Agent后,构建了覆盖客服跟单、采购、计划物控、仓储库存、财务等7大业务模块的数字员工矩阵。通过ISSUT技术,Agent打通了ERP、MES、WMS、SRM等异构系统,实现了订单履行全流程的自主协同,无需任何API对接。

在金融业,中国农业发展银行在信创环境下部署实在Agent,覆盖总行及全国各一级分行10余个处室的报表下载、邮件汇总、反洗钱等流程自动化场景。在反洗钱排查中,Agent从核心系统调取客户信息、登录反洗钱平台进行分析、接入外部数据库进行制裁名单匹配,全链路跨系统操作由ISSUT驱动完成,每一步操作自动留痕满足审计要求。

在信创适配层面,实在Agent已全面兼容龙芯、飞腾、海光、兆芯、鲲鹏等国产CPU,适配麒麟、统信、鸿蒙等国产操作系统,通过中国信通院可信AI智能体平台与工具评估最高评级5级。

六、对开发者的启示

屏幕语义理解技术的成熟,正在改变跨系统自动化的工程范式。

对开发者而言,这意味着三件事。第一,老旧系统不再是自动化的禁区。无论是PowerBuilder开发的C/S客户端、还是国产化替代后自研框架的桌面软件,只要能显示在屏幕上,就能被操作。第二,维护成本的结构性下降。语义定位方案将界面变化的维护成本从“每次人工修脚本”降至“自动适配”,长期TCO差距可达数倍。第三,开发门槛的降低。业务人员通过自然语言描述即可生成流程,不再需要等IT排期写代码。实在Agent已推出免费社区版,个人开发者可零成本上手体验。

从API集成到坐标脚本,再到屏幕语义理解,跨系统自动化技术正在经历第三次范式转移。这一次,机器终于开始像人一样“看懂”屏幕了。

http://www.jsqmd.com/news/884403/

相关文章:

  • Mos:为macOS外接鼠标赋予触控板级顺滑滚动体验
  • 手把手教你:在ADS中为CGH40010F定制直流DCIV仿真模板(附完整替换公式)
  • 安卓用户如何免费获取大模型API密钥并开始调用
  • 匠心铸精品 护航海塘安澜 —— 天津水阀机械有限公司圆满交付三门县海塘加固工程大口径阀门产品
  • 2026年4月口碑佳的特种泵供应厂家推荐推荐,不锈钢齿轮泵/输送三螺杆泵/高压特种泵,特种泵批发厂家推荐 - 品牌推荐师
  • 【零成本云端入门首选】阿贝云免费服务器深度评测:真香还是智商税?
  • 常州黄金回收实测,福运来口碑登顶 - 黄金回收
  • 还在古法编程?OpenAI Codex 全自动编程!稳定中转 Token 保姆级教程
  • 2026年呼和浩特市赛罕区汽车贴膜合规资质深度测评:4 家主流授权门店横向对比与选型指南 - GrowthUME
  • B站缓存视频转换终极指南:5分钟掌握m4s转MP4的高效方法
  • 【小白快速上手】 OpenClaw 安装部署全流程(含安装包)
  • Windows 10 PL2303驱动终极解决方案:让旧芯片重获新生
  • 无锡教学能力比赛拍摄服务机构实力排行 - 奔跑123
  • 别再只用余弦相似度了!5分钟搞懂Python里Levenshtein、Word2Vec、BERT怎么选
  • 体验Taotoken官方价折扣与Token Plan带来的成本可控优势
  • “--glow”并不存在?!深度逆向Midjourney 6.1源码级辉光模拟协议,曝光官方刻意隐藏的4个隐式辉光增强开关
  • EEweb在线科学计算器深度体验:工程师的高效轻量级工具
  • 旧黄金别乱卖!济南正规回收避坑干货 - 合扬奢侈品交易中心
  • 每日一书㉗ | 刻意练习:为什么有些人努力一辈子还是平庸?
  • C# 算法 LeetCode 编号 70 - 爬楼梯
  • 2026苏州钻石回收避坑指南!6家本地正规回收机构全面测评 - 薛定谔的梨花猫
  • 白嫖Codex!一行代码不花接入国产DeepSeek-v4-pro,从此告别ChatGPT月费
  • 纳米片与CFET热挑战解析及优化策略
  • Swap 基本概念
  • 衡阳回收报废汽车2026年补贴多少? - 资讯纵览
  • HKMG工艺的“阿喀琉斯之踵”:聊聊那个无法移除的SiON界面层与未来0.3nm的挑战
  • 从零开始构建个人知识库:kepano-obsidian笔记模板完整指南
  • 无锡黄金变现优选榜单,口碑靠谱渠道实测推荐! - 奢侈品回收测评
  • 还在手动触发Lindy子任务?这6个隐藏API+3个低代码集成技巧,今天就能上线全自动流水线
  • Vue2-Verify:Vue.js验证码组件的终极完整指南