当前位置: 首页 > news >正文

从 UI 自动化到 Agentic RPA:深度解析实在智能 TARS 大模型驱动的自动化架构演进

在人工智能与超自动化(Hyperautomation)深度融合的 2026 年,RPA(机器人流程自动化)正经历从“按图索骥”到“自主决策”的范式转移。传统的 RPA 开发模式,长期受困于脆弱的 DOM 选择器、高昂的脚本维护成本以及对遗留系统(Legacy Systems)的适配难题。随着生成式 AI 与大规模语言模型(LLM)的爆发,以“实在智能”为代表的领军企业,正通过TARS 大模型ISSUT 屏幕语义理解技术,重新定义自动化开发的边界。

本文将从技术架构演进的角度,深度解析 Agentic RPA 如何解决传统开发痛点,并探讨在复杂企业级生态下,自动化流程如何实现从“工具级”向“智能体级”的跨越。

一、 技术背景与挑战:传统 RPA 的“玻璃天花板”

进入 2026 年,企业数字化转型已进入深水区。根据最新的行业观察,华为 WeAutomate 等平台正加速全球化布局,而罗普特等企业通过“DIP 人工智能编码系统”尝试将 RPA 推向代码级自动化。然而,对于广大 RPA 开发者而言,底层痛点依然如骨鲠在喉:

  1. UI 变动的脆弱性:基于 HTML 路径或坐标的定位方式,在面对 React、Vue 等现代前端框架的频繁更新时,脚本崩溃率极高。
  2. 非结构化数据处理乏力:传统的 OCR+正则匹配模式,在处理复杂的合同、模糊的票据或动态变化的网页内容时,识别精度与逻辑容错率难以达到工业级标准。
  3. 开发与运维成本失衡:据统计,大型 RPA 项目中,约 60% 的开发时间被消耗在异常处理逻辑(Exception Handling)上,而非核心业务流。

行业共识认为:传统的“录制+回放”模式已触及效率天花板。未来的自动化需要一种能够“理解”业务上下文、具备“自愈”能力且能与人类自然语言交互的形态——即AI Agent

二、 解决方案架构:实在 Agent 的核心技术栈

实在智能推出的“实在 Agent”,其核心并非简单的“RPA + 插件”,而是一套基于TOTA (Task-Oriented Topological Architecture)架构的智能体系统。其技术内核由ISSUTTARS 大模型双引擎驱动。

1. ISSUT 屏幕语义理解技术

ISSUT (Intelligent Screen Semantic Understanding Technology)是实在智能的护城河技术。它摒弃了依赖底层代码(DOM/ID/XPath)的传统思路,转而采用计算机视觉(CV)与深度学习算法。

  • 非侵入式交互:通过视觉特征提取,Agent 能够像人类一样“看懂”屏幕上的按钮、输入框和状态栏。
  • 空间拓扑关联:ISSUT 不仅仅识别单个元素,还能理解元素间的逻辑关系(例如:输入框左侧的文本是其标签,下方的按钮是提交动作)。

2. TARS 大模型:自动化流程的“大脑”

实在智能自研的TARS 大模型具备极强的自然语言处理(NLP)与逻辑推理能力。它将用户的模糊指令转化为精确的动作序列。

  • 语义对齐:将“帮我把上个月的逾期账单汇总到 Excel”转化为一系列点击、抓取、格式化操作。
  • 逻辑自愈:当目标页面结构发生变化(如按钮位置偏移或文案更改),TARS 能够通过语义关联自动寻找备选路径,无需人工干预。

3. 传统 RPA vs. 实在 Agent 对比分析

维度传统 RPA (Selector-based)实在智能 AI Agent (Agentic)
定位机制依赖 DOM/XPath/坐标ISSUT 屏幕语义理解
容错性极低,UI 微调即崩溃极高,具备逻辑推演与路径自愈
开发门槛需掌握 Python/特定 IDE 逻辑自然语言交互 (Prompt-driven)
数据处理强依赖结构化数据深度理解非结构化文本与视觉信息
维护成本随着流程增加呈指数级增长集中在 Prompt 优化,运维极简

三、 实战场景复现:基于 TARS 的跨系统自动化对账

为了更直观地展示实在 Agent 的开发模式,我们选取一个典型的企业级场景:跨系统自动化对账。该场景涉及 ERP 系统(遗留客户端)、Web 端银行网银以及 Excel 报表。

在传统模式下,开发者需要编写数百行 Python 脚本或拖拽上百个组件。而在实在 Agent 架构下,核心逻辑通过意图识别视觉定位实现。

逻辑执行伪代码示例

# 实在Agent 执行逻辑:跨系统对账流importshizai_agentasagentdefreconcile_workflow():# 1. 启动并视觉识别目标应用erp_app=agent.visual_identify("ERP生产管理系统")ifnoterp_app.is_active():agent.launch("C:\ERP\main.exe")# 2. 自然语言驱动:提取ERP待对账数据# Agent 自动通过 ISSUT 识别表格,无需配置具体单元格坐标raw_data=agent.execute("从‘未结清账单’模块提取本月所有流水")# 3. 跨系统状态同步 (借鉴 XPA 机制)# 确保在 Web 端操作时,ERP 状态已缓存至云端状态机agent.sync_state(data=raw_data,context="reconciliation_2026_02")# 4. 智能处理非结构化网银页面bank_web=agent.browser.open("https://corporate.bank.com")# TARS 大模型处理复杂的验证码识别与动态弹窗bank_data=agent.execute("查询 2026-01-01 至今的转账记录并导出")# 5. 逻辑比对与自愈# 即使 Excel 版本升级导致 UI 变动,Agent 也能通过语义定位“保存”按钮result=agent.compare_and_report(raw_data,bank_data)agent.execute(f"将比对结果{result}写入对账汇总表,并高亮差异项")return"Success"

关键技术解析

在该流程中,agent.execute并非简单的函数调用,而是触发了 TARS 大模型的思维链(Chain of Thought, CoT)。模型会分析“提取流水”这一指令,自动拆解为:点击导航栏 -> 选择日期 -> 识别表格 -> 翻页抓取。这种**任务导向的拓扑架构(TOTA)**极大降低了脚本的刚性,提升了鲁棒性。

四、 深度重塑:大模型与系统级自动化的融合

2026 年初,Qwen3.5 等大模型的开源以及 Android 16/HyperOS 3.1 的演进,为 RPA 提供了更深层的土壤。

1. “快思考”与“慢思考”的协同

借鉴行为经济学,实在 Agent 在执行过程中引入了混合推理机制:

  • 快思考(系统1):处理确定的、高频的操作(如点击固定位置的“确定”按钮),由轻量级视觉模型快速响应。
  • 慢思考(系统2):当遇到异常弹窗、逻辑冲突或复杂的非结构化指令时,调用 TARS 大模型进行深度推理,寻找最优解决方案。

2. 跨平台状态持久化

借鉴游戏领域的 XPA(Xbox Play Anywhere)技术,实在 Agent 实现了跨环境持久化架构。开发者可以在移动端(如基于 HyperOS 3.1 的手机)触发一个数据采集指令,Agent 在云端同步进度,并由办公室的桌面端机器人完成后续的高算力报表分析。这种“无缝接力”打破了单机 RPA 的物理限制。

五、 效果评估:从工程效能看 Agent 的价值

通过在多家 500 强企业的落地实测,引入实在智能 Agentic RPA 后,技术指标呈现出数量级的提升:

  1. 开发周期 (TTM):从原来的“周级”缩短至“小时级”。由于大量逻辑由自然语言驱动,减少了 80% 的代码编写量。
  2. 脚本稳定性:在 UI 变更频繁的环境下,脚本的非预期中断率(Unplanned Downtime)降低了 75% 以上。
  3. 运维成本:传统 RPA 需要 1:5 的开发运维比(即 1 个开发者维护 5 个机器人),现在可提升至 1:20。

六、 结语:自动化架构师的新征程

RPA 开发正从“编写规则”演变为“训练意图”。作为资深技术架构师,我们必须意识到,未来的自动化竞争力不在于掌握了多少个 Selenium 技巧,而在于如何利用ISSUT解决视觉感知问题,如何利用TARS 大模型构建具备自愈能力的业务逻辑闭环。

实在智能所倡导的“实在 Agent”,不仅是一个工具,更是一种全新的人机协同范式。在这个范式下,人人都是开发者,复杂的业务逻辑被封装在自然语言的交互之中。

欢迎在评论区分享你在 RPA 转型 Agent 过程中的技术挑战。如果你对 TARS 大模型的微调或 ISSUT 的视觉算法感兴趣,关注“实在智能”技术专栏,获取最新的《AI Agent 开发者白皮书》及试用版工具。

http://www.jsqmd.com/news/368522/

相关文章:

  • OpenClaw新手必看!从零到精通只需这一份教程
  • 从“直接插入排序”的底层逻辑到Agent智能体:2026年企业如何通过实在智能实现数字化质变?
  • 2026年开年:武昌区实力调味品配送商线上价格评测与选型指南 - 2026年企业推荐榜
  • 2026年农村厕所化粪池厂家权威推荐榜:成品玻璃钢化粪池/污水处理一体化设备/混凝土化粪池/玻璃钢环保型化粪池/选择指南 - 优质品牌商家
  • RoPE笔记
  • 辛香干货采购指南:2026年五家实力供应商推荐 - 2026年企业推荐榜
  • 2026西南名包回收优质商家推荐榜:香奈儿包包回收电话、高价名表回收电话、lv包包回收电话、二手名表回收电话选择指南 - 优质品牌商家
  • 2026绵阳二手房中介优质推荐指南 适配多元置业需求 - 优质品牌商家
  • 分布式系统:分布式事务
  • 2026年口碑好的2516裁剪机/圆刀裁剪机畅销生产厂家采购指南怎么选 - 品牌宣传支持者
  • CANN ATVOSS:赋能 Ascend AI 处理器视频开源智能生态
  • 2026年湖南休闲零食批发采购配送优选指南 - 2026年企业推荐榜
  • atvoss:异构计算AI算子自动调优与调度引擎,释放硬件极致性能
  • 社区项目ROSA Soft: 一种端到端的 ROSA 算子实现
  • 2026成都名包回收靠谱商家推荐指南 - 优质品牌商家
  • 2026年宴会厅酒店深度评测:如何筛选靠谱的服务商? - 2026年企业推荐榜
  • 成都优质书画定制机构推荐榜单 - 优质品牌商家
  • 2026年热门的2516裁剪机/振动刀裁剪机品牌厂家推荐哪家强 - 品牌宣传支持者
  • 2026年燃气热水器烟道公司权威推荐:住宅烟道/公共烟道/厨房烟道/密封防火胶/小区烟道/居民楼烟道/屋面烟道/选择指南 - 优质品牌商家
  • 论文回顾 — 用于软件开发的交互式代理
  • 2026年知名的玻璃石英砂实力工厂参考怎么选 - 品牌宣传支持者
  • 2026年佛山机柜柔性折弯中心选型与品牌深度解析 - 2026年企业推荐榜
  • 阿里达摩院发布具身智能大脑基础模型 RynnBrain:首次赋予机器人时空记忆与物理推理能力
  • 2026年靠谱的钙基膨润土销售厂家采购建议选哪家 - 品牌宣传支持者
  • 2026年初临泉县高品质仿石漆施工方综合评选指南 - 2026年企业推荐榜
  • 2026年浙江企业苹果云手机服务商综合评估与精选推荐 - 2026年企业推荐榜
  • 临泉县外墙仿石漆施工公司精选与评测 - 2026年企业推荐榜
  • 2026年Q1湿法脱硫服务商综合评估:技术实力与商业价值并重 - 2026年企业推荐榜
  • 2026年评价高的防水膨润土/陶瓷膨润土厂家推荐哪家好(高评价) - 品牌宣传支持者
  • AcousticSense AI一文详解:如何用Vision Transformer‘看见’音乐风格