当前位置：首页 > news >正文

大模型如何驱动RPA从规则执行迈向智能决策？

news 2026/7/2 10:28:24

1. 项目概述：当RPA遇上大模型，iFlyTek Astron-RPA的革新之路

最近在探索企业自动化流程时，我注意到一个非常有意思的开源项目——iFlyTek Astron-RPA。这个名字本身就很有深意，“Astron”在希腊语中意为“星星”，而RPA（Robotic Process Automation，机器人流程自动化）则是近年来企业降本增效的利器。将两者结合，不难看出讯飞对这个项目的期许：打造一个像星星一样指引方向、智能化的RPA平台。作为一名长期关注自动化技术和AI落地的从业者，我立刻被这个组合吸引了。传统的RPA工具，无论是UiPath、Blue Prism还是国内的影刀、艺赛旗，其核心逻辑都是基于规则和预定义流程的“录制-回放”，虽然能处理大量重复性工作，但面对流程变更、非结构化数据或需要简单判断的场景时，就显得力不从心，维护成本也高。Astron-RPA的独特之处在于，它试图将讯飞在语音、自然语言处理（NLP）和大模型领域的技术积累，深度融入到RPA的“大脑”和“感官”中，让机器人不仅能执行，还能“理解”和“决策”。这不仅仅是给RPA加了个AI插件，而是从架构层面重新思考了智能自动化的可能性。对于任何一位正在为企业数字化转型、流程优化寻找解决方案的技术负责人或开发者来说，理解Astron-RPA的设计思路和实现路径，都具有极高的参考价值。它可能代表了下一代RPA的发展方向：从“自动化”走向“智能化”。

2. 核心设计理念与技术架构拆解

2.1 从“规则驱动”到“意图驱动”的范式转变

传统RPA的核心是“规则驱动”。开发者或业务人员需要像编写剧本一样，精确地告诉机器人每一步操作：点击这里、在那个输入框填入什么数据、如果弹出这个对话框就点“确定”。这种模式在流程固定、界面稳定的场景下非常高效。然而，现实中的业务流程往往是动态的：网页布局改了、表单字段增加了、审批流出现了例外情况……任何细微变动都可能导致整个自动化流程崩溃，需要人工介入调整脚本，这就是所谓的“流程脆弱性”。

Astron-RPA引入大模型能力，旨在实现向“意图驱动”的范式转变。简单来说，就是让机器人能够理解人类的“意图”，并自主规划执行路径来完成这个意图。例如，传统的指令是“登录OA系统，找到‘报销申请’页面，点击‘新建’，在‘项目名称’栏输入‘XX项目差旅费’……”。而在意图驱动下，你只需要告诉机器人：“帮我提交一份XX项目的差旅费报销申请。”机器人会自己理解“提交报销申请”这个意图，它需要执行登录、导航、填写、提交等一系列子任务。它会利用大模型的自然语言理解能力，解析网页元素，判断哪个输入框对应“项目名称”，甚至能根据历史数据或上下文，自动补全一些信息。

这种转变的技术基石，是将大模型作为RPA流程的“认知引擎”。Astron-RPA的架构很可能包含一个智能编排中心，它接收自然语言描述的任务，通过大模型进行任务分解（Task Decomposition）和规划（Planning），生成一系列可执行的原子操作指令（如点击、输入、读取）。同时，在原子操作执行层面，传统的基于图像识别或UI元素选择器的技术，可以与大模型的视觉理解（VLM）或对HTML/DOM结构的语义理解能力相结合，提高元素定位的鲁棒性。比如，即使“提交”按钮的CSS类名变了，但大模型通过分析页面视觉和文本，依然能识别出哪个是提交按钮。

2.2 分层架构与核心组件猜想

基于开源信息和RPA领域的通用架构，我们可以推断Astron-RPA可能采用一种分层的松耦合架构，以实现灵活性和可扩展性。

交互与编排层：这是用户入口，可能提供多种交互方式。
- 自然语言控制台：用户直接输入“从邮件附件下载上个月的销售报表，汇总后发给我和财务总监”。系统理解后自动创建或触发流程。
- 低代码/可视化设计器：为复杂或需要精细控制的流程提供图形化拖拽编排界面。但这里的“组件”可能更智能，例如一个“理解表格”的组件，背后调用的是大模型进行信息抽取。
- 流程仓库与调度器：管理已编排好的流程模板，负责定时触发、事件触发或API触发。
AI能力引擎层（核心创新点）：这是Astron的“大脑”。
- 大模型服务集成：无缝集成讯飞星火大模型或其他兼容的大模型API。负责处理所有的自然语言理解、生成、决策和规划任务。这里的关键是设计高效的提示词工程（Prompt Engineering）框架，将不同的RPA场景（如文档理解、决策判断、任务规划）转化为对大模型的高质量查询。
- 多模态感知模块：结合计算机视觉（CV）和光学字符识别（OCR），让机器人不仅能“读”屏幕上的结构化数据，还能“看”懂图片、PDF、扫描件中的复杂版式和手写体。大模型可以进一步提升OCR后文本的理解和结构化能力。
- 知识库与记忆模块：为了让机器人能在特定领域（如财务、HR）表现得更好，可能需要为其配置领域知识库。大模型可以通过检索增强生成（RAG）技术，从知识库中获取精准信息来辅助决策。记忆模块则可以让机器人记住历史操作上下文，实现多轮交互。
执行与连接层：这是机器人的“手脚”。
- 适配器与连接器：提供与各种软件、系统、API对接的能力。除了常见的桌面应用（Office、浏览器）、企业应用（SAP、用友、金蝶），还会重点优化与云原生应用、Web服务的连接。
- 机器人运行时：轻量级的执行环境，可以部署在云端、边缘或个人电脑，负责接收指令、驱动UI、操作数据、调用API，并将执行结果和状态反馈回上层。
管控与运维层：保障机器人军团稳定运行。
- 监控中心：实时监控所有机器人的运行状态、执行日志、性能指标和异常情况。
- 安全管理：管控凭证（账号密码）、数据访问权限，确保自动化操作符合安全合规要求。
- 版本管理与协同：对流程脚本、AI模型版本进行管理，支持团队协作开发。

注意：以上架构是基于公开理念和行业趋势的合理推演，并非官方文档。实际项目的模块划分和命名可能有所不同，但核心思想——用大模型赋能RPA的感知、认知和决策环节——是确定无疑的。

3. 关键技术实现细节与实操要点

3.1 自然语言到自动化流程的编译

这是Astron-RPA最核心也最具挑战的技术点。如何把一句模糊的人类指令，变成精确无误的自动化操作序列？这个过程可以分解为几个步骤，我们可以设想其实现方式。

第一步：意图识别与任务分解用户输入：“帮我对比一下A产品和B产品在京东和天猫上的当前售价和促销信息。” 大模型（如讯飞星火）首先需要理解这是一个“比价”任务。接着，它需要将宏观任务分解为可执行的原子任务链：

打开浏览器，访问京东商城。
在京东搜索“A产品”，获取其售价和促销信息。
在京东搜索“B产品”，获取其售价和促销信息。
打开新标签页，访问天猫商城。
在天猫重复步骤2和3。
将四个结果整理到一个表格中，进行对比分析。

实现要点：这里需要一个精心设计的系统提示词（System Prompt），将大模型“角色化”为一个RPA任务规划专家。提示词需要定义任务分解的规则、可用的原子操作类型（如navigate_to(url),search_on_website(keyword),extract_price()等），并输出结构化的任务列表，例如JSON格式。

{ "task_name": "跨平台比价", "sub_tasks": [ {"action": "open_browser", "params": {"url": "https://www.jd.com"}}, {"action": "search", "params": {"engine": "jd", "keyword": "A产品"}}, {"action": "extract_data", "params": {"fields": ["price", "promotion"]}}, // ... 更多子任务 ] }

第二步：环境感知与元素定位任务规划好了，机器人要执行“在京东搜索框输入‘A产品’”。传统RPA靠录制时生成的元素选择器（如XPath、CSS Selector）来定位搜索框。但页面一旦改版，选择器就失效了。 Astron-RPA可以引入**多模态大模型（如具备视觉能力的模型）**来增强定位。当机器人打开京东首页，它可以截取屏幕图像，连同当前的DOM结构一并提交给大模型，并提问：“请指出网页中的商品搜索输入框在哪里。”大模型可以结合视觉特征和文本语义，直接返回该输入框在屏幕上的坐标或一个更鲁棒的语义化描述（如“顶部中央，placeholder为‘搜宝贝、店铺’的输入框”）。机器人再根据这个描述去尝试定位并操作。

第三步：异常处理与自适应执行流程执行中总会遇到意外：页面加载慢、弹窗遮挡、商品缺货。传统RPA需要预先编写所有异常分支，极其繁琐。智能RPA可以让大模型担任“现场监工”。当机器人执行受阻或遇到未预见的界面元素时，将当前屏幕状态（截图+部分DOM）和错误信息传给大模型，询问：“我现在想点击‘加入购物车’按钮但没找到，当前页面状态如下，我应该怎么办？”大模型可以分析情况，给出建议：“当前页面显示‘该地区无货’，因此没有购物车按钮。根据任务目标（比价），你可以记录此商品为‘缺货’，然后继续下一个任务。”机器人据此调整执行路径。

实操心得：在构建这类系统时，提示词的质量直接决定了大模型的表现。需要大量的测试和迭代来优化提示词。同时，完全依赖大模型进行实时决策，可能会带来延迟和成本问题。一个折中的策略是“混合智能”：常见的、稳定的操作路径用传统脚本固化；遇到未知情况或需要理解语义时，再调用大模型。这需要在架构设计时就考虑好决策路由机制。

3.2 非结构化文档的理解与信息抽取

处理合同、发票、报告等非结构化文档是RPA的痛点，也是大模型的强项。Astron-RPA在这方面会有显著优势。

传统OCR + 大模型理解流水线：

文档解析：使用OCR引擎（可能是讯飞自研的）将PDF、图片中的文字信息提取出来，并尽可能保留版面位置信息。
大模型信息结构化：将OCR提取的原始文本，连同一些元信息（如“这是一张增值税发票”）作为提示词的一部分，提交给大模型。指令可以是：“请从以下文本中，提取出‘开票日期’、‘发票号码’、‘购买方名称’、‘价税合计（大写）’、‘价税合计（小写）’等信息，并以JSON格式输出。”
后处理与验证：对大模型输出的JSON进行格式校验，必要时可以设计一个“置信度”评分，或通过规则进行二次校验，确保关键数据（如金额、编号）的准确性。

高级应用场景：

智能审核：不仅仅是抽取字段，还能进行逻辑判断。例如，审核报销单时，大模型可以判断“发票日期是否在出差期间内”、“报销金额是否超出标准”、“票据类型是否符合规定”。
文档摘要与问答：针对长篇报告，RPA机器人可以指令大模型生成摘要，或回答特定问题，如“本季度华东区的销售额同比增长了多少？”

实现要点：针对不同的文档类型（发票、简历、财报），需要准备不同的提取模板（Prompt Template）。这些模板定义了需要提取的字段、格式要求以及可能遇到的变体。建立一个高质量的文档处理流水线，需要收集和标注大量各种样式的文档数据，用于微调大模型或优化提示词。

4. 典型应用场景与实战流程构建

4.1 场景一：智能客服工单自动处理与升级

背景：电商客服每天收到大量工单，内容杂乱，包括退货、换货、投诉、咨询等。初级客服需要先阅读工单内容，手动分类，再根据类型分派给不同处理小组或按规则回复，耗时耗力。

Astron-RPA解决方案流程：

触发：当新的工单进入系统（如通过邮件、API或数据库记录），Astron-RPA机器人被自动触发。
理解与分类：机器人读取工单的标题和详细描述。调用大模型服务，分析文本内容。提示词可以是：“请判断以下客户工单的核心诉求是什么？选项：A. 退货申请 B. 换货申请 C. 物流投诉 D. 产品咨询 E. 价格争议 F. 其他。同时，判断客户情绪是‘平静’、‘焦虑’还是‘愤怒’。”
信息提取：根据分类结果，提取关键信息。例如，如果是退货申请，则提取“订单号”、“商品SKU”、“退货原因”；如果是物流投诉，则提取“快递单号”、“问题描述”。
决策与执行：
- 规则化处理：对于简单的咨询（如“什么时候发货？”），机器人可以直接从知识库匹配答案，并自动在客服系统回复。
- 复杂问题升级：对于情绪愤怒的投诉或复杂争议，机器人会将其标记为“高优先级”，并自动分配给“资深客服组”或特定负责人，同时在工单中附上它提取的关键信息摘要。
- 自动创建子任务：对于换货申请，机器人可以在完成信息提取后，自动在企业内部的仓储管理系统（WMS）中创建一个换货出库任务，并将工单与出库任务关联。
记录与通知：所有操作记录在案，并自动通知相关客服人员。

价值：将客服人员从重复的阅读、分类、简单回复中解放出来，专注于处理真正需要人工介入的复杂、高情绪价值的问题，提升效率和客户满意度。

4.2 场景二：跨系统数据填报与一致性校验

背景：大型企业内，同一份数据往往需要在多个系统中录入，如项目信息既要填入项目管理平台（如Jira），又要同步到财务系统（如SAP）进行预算关联，还要在内部的Wiki上更新状态。手动操作易出错、不同步。

Astron-RPA解决方案流程：

设定单一数据源：规定项目管理平台为权威数据源。当其中创建或更新了一个项目任务时，触发Astron-RPA机器人。
智能数据抓取：机器人访问该任务页面。传统RPA需要为每个字段编写抓取规则。而Astron-RPA可以利用大模型对网页的语义理解，即使页面布局调整，也能通过描述（如“抓取‘项目负责人’字段，它通常在标题下方，是一个人名下拉框旁边显示的名字”）相对稳定地获取数据。它抓取项目名称、负责人、截止日期、预算金额等关键字段。
上下文理解与填充：机器人登录财务系统。在复杂的SAP界面中，找到正确的事务代码和屏幕。大模型可以帮助理解屏幕上的字段标签（可能有些是德文缩写），并将抓取到的数据映射到对应字段。例如，理解“项目负责人”在财务系统中可能需要映射为“成本中心负责人”。
自动校验与告警：数据填充后，机器人可以执行一致性检查。例如，从财务系统界面再读回刚填入的预算金额，与源数据进行比对。如果不一致，则触发告警，通知相关人员，并记录日志。
同步更新Wiki：机器人再访问内部Wiki页面，利用大模型的文本生成能力，根据项目数据的变化，自动生成或更新一段项目状态描述，并发布。

价值：彻底杜绝多系统间数据不一致的“脏数据”问题，保证数据同源同频，极大减少人工核对时间，提升数据质量。

5. 开发、部署与运维的核心考量

5.1 开发模式：低代码与代码协同

Astron-RPA可能会提供两种开发模式，以适应不同背景的开发者。

智能引导式低代码开发：对于业务人员或初级开发者，可以通过自然语言描述想要自动化的流程。系统后台调用大模型，尝试自动生成一个流程草图或推荐可用的组件。用户可以在图形化设计器中对这个草图进行拖拽调整、配置参数。例如，用户说“每天下午5点，把销售日报从邮箱下载下来，汇总后发到群里。”系统可能自动生成一个包含“定时触发器”、“邮件收取”、“附件处理”、“数据汇总”、“群消息发送”等节点的流程。
专业代码开发模式：对于复杂逻辑、高性能要求或需要深度集成的场景，支持直接用Python等语言编写脚本。Astron-RPA的SDK会提供丰富的API，让开发者可以灵活调用其AI能力（如文档理解、决策判断）和执行控制功能。这种模式下，大模型可以作为代码中的一个函数库来调用。

最佳实践：建议采用“低代码搭建主体框架，代码嵌入复杂逻辑”的混合模式。用设计器快速搭建主干流程，对于其中需要智能判断、复杂计算或调用特殊API的环节，用代码组件来实现。

5.2 部署架构：云边端协同

RPA机器人的部署位置直接影响性能、成本和数据安全。

云端部署（机器人即服务，RaaS）：Astron-RPA的控制台、AI引擎、流程管理部署在云端。执行机器人可以是以容器形式运行在云服务器上。适合处理基于Web应用、API调用、不涉及本地敏感数据的流程。优点是弹性伸缩、易于管理、无需维护本地环境。
边缘/本地部署：将执行机器人部署在员工个人的电脑或部门服务器上。适合需要操作本地桌面软件（如古老的C/S架构客户端、特定驱动软件）、处理涉密数据或网络隔离的场景。Astron-RPA需要提供轻量化的机器人安装包和本地与控制中心的安全通信机制。
混合部署：这是最实际的模式。将AI认知引擎、调度管理等放在云端，而将执行机器人根据流程需要，分别部署在云端和本地。例如，处理网页和邮件的机器人放云端，操作本地财务软件的机器人放本地。

部署决策 checklist：

考量因素	云端部署	本地部署
数据敏感性	低/中，数据可加密传输	高，数据不出本地
应用类型	Web应用、云服务、API	桌面软件、本地数据库、硬件接口
IT管控能力	弱，依赖云服务商	强，完全自主控制
初始投入成本	低，按需付费	高，需采购服务器/终端
长期运维成本	中，持续订阅费	中高，需IT人员维护
网络依赖	强，断网则瘫痪	弱，可离线执行部分流程

5.3 监控、调试与持续优化

智能RPA引入了不确定性，因此监控和调试比传统RPA更重要。

可观测性建设：
- 全链路日志：记录机器人每一步执行的操作、调用的AI服务、输入输出、耗时、成功/失败状态。日志需要结构化，便于搜索和分析。
- 大模型交互追踪：特别记录每次调用大模型的提示词（Prompt）和返回结果（Completion）。这是调试AI决策错误的关键。
- 屏幕录像与快照：在关键步骤或发生错误时，自动截屏或录制短时间操作录像。这是复现和诊断UI层面问题的“黑匣子”。
智能告警与自愈：
- 不仅监控流程是否失败，还要监控关键指标是否异常，如单步骤耗时激增、大模型调用成本异常、信息抽取准确率下降等。
- 设计简单的自愈机制。例如，当“登录”步骤失败，可以尝试清除缓存后重试；当元素定位失败，可以触发备用定位策略或调用大模型重新识别。
流程性能优化：
- AI调用优化：分析流程，将可以批量处理的任务合并后一次性提交给大模型，减少调用次数以节约成本和延迟。例如，处理100份简历时，不要每份单独调用一次模型，而是设计一个能批量处理多份简历的提示词。
- 缓存策略：对于一些相对稳定的信息（如公司内部的部门架构、产品目录），可以建立缓存，避免机器人每次都通过大模型去查询或理解。
- 流程挖掘与重构：通过分析历史运行数据，发现流程中的瓶颈步骤或冗余操作，持续优化流程设计。

6. 面临的挑战与未来展望

尽管前景广阔，Astron-RPA这类智能RPA在落地过程中也面临诸多挑战。

1. 成本与性能的平衡大模型API调用是一笔持续的成本。处理一个复杂任务可能需要多次调用（规划、感知、决策），成本可能远超传统RPA。企业需要在“自动化带来的价值”和“AI调用成本”之间找到平衡点。解决方案包括：使用性价比更高的中小模型处理特定任务；优化提示词以减少token消耗；对非实时任务采用队列批量处理。

2. 准确性与可靠性大模型存在“幻觉”（生成错误但看似合理的内容）问题。在自动化流程中，一个关键数据的误读可能导致严重后果。不能完全信任AI的输出，必须建立**“人在环路”（Human-in-the-loop）** 的校验机制。对于高风险操作（如支付、审批），设置必须由人工确认的环节；对于数据提取，设计多轮校验或与规则引擎结合使用。

3. 安全与合规机器人拥有系统操作权限，如果被恶意利用或提示词被注入攻击，风险很大。必须严格管控机器人的权限，遵循最小权限原则。所有涉及大模型处理的数据，需考虑数据出境和隐私保护问题。流程设计和AI模型的使用必须符合行业监管要求。

4. 技能门槛与组织变革开发和维护智能RPA，需要既懂业务流程、又懂RPA工具、还对AI有一定了解的复合型人才。企业需要培养或引进这样的“公民开发者”或“人机协同训练师”。同时，业务流程本身可能需要进行重构，以更好地适应人机协同的模式。

未来展望，我认为Astron-RPA所代表的“模型即流程”（Model-as-a-Process）范式会越来越普及。未来的RPA开发，可能更像是在“训练”一个数字员工：你通过自然语言告诉它目标，给它看一些例子，纠正它的错误，它就能越来越熟练地处理一类工作。RPA平台会演变为企业基础模型（Enterprise Foundation Model）的核心应用入口之一，将大模型的通用能力，安全、可控、高效地转化为企业各个角落的具体生产力。对于开发者而言，现在深入理解如何将大模型与自动化技术结合，设计出稳定、可靠、易用的智能流程，无疑是在抢占一个极具价值的技能高地。

查看全文

http://www.jsqmd.com/news/760813/