当前位置：首页 > news >正文

影刀RPA图像识别与处理：找图截图比颜色识别实战

news 2026/6/18 4:30:28

影刀RPA图像识别与处理：找图、截图比对、颜色识别实战

作者：林焱 | 日期：2026-06-09 | 关键词：影刀RPA图像识别、找图匹配、截图比对、颜色识别、视觉自动化

摘要

当网页元素无法用选择器定位时，图像识别是RPA的"最后一道防线"。本文将系统讲解影刀RPA的图像识别能力：模板匹配（找图）、截图比对（相似度检测）、颜色识别、条形码/二维码识别，以及如何处理分辨率变化、界面皮肤更换等实际难题。

阅读收益：

掌握影刀RPA图像识别的4种核心方法
学会处理"元素捕获失效"的终极方案
获得5个可直接复用的图像识别实战案例
理解图像识别的准确率提升技巧

一、为什么需要图像识别？

1.1 元素捕获的局限性

元素捕获失效的场景（❌ 无法用选择器定位）： 1. 远程桌面（RDP/VNC）： → 网页元素无法被直接捕获 → 只能看到整个桌面图像 2. 旧版桌面应用（如老式ERP）： → 不使用标准UI框架 → 无法获取控件树 3. 游戏界面、CAD软件： → 元素捕获完全失效 → 只能通过图像识别操作 4. 网页 Canvas/Flash 内容： → 元素在Canvas内部 → 无法用XPath/CSS选择器定位 5. 界面皮肤动态变化： → 按钮位置不变，但颜色/样式变化 → 选择器可能失效

1.2 图像识别的适用场景判断

适合图像识别（✅）： → 界面元素无法通过常规方式捕获 → 目标元素具有明显的视觉特征（独特的图标/颜色） → 界面布局相对固定（按钮位置不变） → 对准确率要求不是100%（允许偶尔失败，有重试机制） 不适合图像识别（❌）： → 界面频繁变化（如新闻网站首页） → 目标元素没有独特视觉特征（如纯文本链接） → 对准确率要求100%（金融/医疗等关键场景） → 界面分辨率/缩放比例不固定

二、核心方法一：模板匹配（找图）

2.1 模板匹配的原理

原理： 1. 准备一张"模板图片"（如一个按钮的截图） 2. RPA对当前屏幕截图 3. 在屏幕截图中搜索"模板图片"的位置 4. 找到 → 返回坐标；找不到 → 返回失败 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/5762d83d6f0142929befcc95953f0847.png#pic_center) 关键参数： - 相似度阈值（0-1之间，推荐0.8-0.9） - 搜索区域（全屏 or 指定区域） - 多尺度匹配（支持目标缩放±20%）

2.2 影刀RPA找图指令详解

[找图] 指令详解： 模板图片路径：C:\rpa\images\submit_button.png 搜索区域： □ 全屏（默认） ☑ 指定区域（x, y, width, height） 匹配参数： 相似度阈值：0.85（推荐范围0.8-0.95） 是否使用灰度匹配：是（提高抗干扰能力） 多尺度匹配：是（支持±15%缩放） 最大匹配数量：1（找第一个匹配的） 输出： 找到的位置（x, y）→ 保存到变量 {{match_x}}, {{match_y}} 是否找到 → 保存到变量 {{found}}

2.3 实战案例：远程桌面的按钮点击

场景：需要操作远程桌面里的旧版ERP系统，元素捕获完全失效。

解决方案：使用图像识别点击按钮 [步骤1：截取按钮模板图片] 1. 连接到远程桌面 2. 导航到目标界面 3. 使用截图工具（如Snipaste）截取"提交"按钮 4. 保存为：submit_button.png（建议PNG格式，背景透明） [步骤2：编写找图点击流程] [找图] 模板图片：submit_button.png 搜索区域：全屏 相似度：0.85 输出变量：{{found}}, {{match_x}}, {{match_y}} [条件判断] IF {{found}} == True： [点击位置] 坐标：{{match_x}} + 10, {{match_y}} + 10 （点击按钮中心） 点击方式：左键单击 ELSE： [截图保存] 文件路径：C:\rpa\logs\找不到按钮_{{timestamp}}.png [记录日志] "找不到提交按钮，已截图保存" [抛出异常] "找不到提交按钮" [步骤3：添加重试机制] [循环] 最多重试3次： [找图] ...（同上） IF 找到： 点击按钮 跳出循环 ELSE： 等待1秒 继续循环（下一次重试） [循环结束后] IF 仍然找不到： 发送告警邮件给操作员 停止流程

2.4 模板图片的制作技巧

店群矩阵自动化突破运营极限！

✅ 好的模板图片特征： 1. 具有独特性（与其他界面元素区别明显） 2. 不受背景影响（尽量截取按钮本身，不含背景） 3. PNG格式，背景透明（如果按钮是规则形状） 4. 尺寸适中（太小 → 识别不准；太大 → 容易受干扰） 5. 截取"稳定"的状态（按钮不被按下、不被禁用的状态） ❌ 不好的模板图片： 1. 包含太多背景（背景变化会导致匹配失败） 2. 文字内容会变化（如"提交订单"在订单提交后变成"已提交"） 3. 颜色会变化（如按钮有hover效果、按下效果） 4. 尺寸太小（< 20×20像素 → 识别准确率大幅下降）

三、核心方法二：截图比对（相似度检测）

3.1 截图比对的原理

原理： 1. 预先截取一张"标准截图"（如：正常状态的页面） 2. 运行过程中，截取当前屏幕的"当前截图" 3. 比较两张截图的相似度 4. 相似度 > 阈值 → 页面状态符合预期 相似度 < 阈值 → 页面状态异常（如：弹出了错误提示） 应用场景： - 验证页面是否加载完成（与"完成状态"截图比对） - 检测是否弹出错误提示（与"正常状态"截图比对） - 验证数据是否提交成功（与"提交前"截图比对）

3.2 影刀RPA截图比对指令详解

[截图比对] 指令详解： 标准截图路径：C:\rpa\baseline\page_loaded.png 当前截图区域： □ 全屏 ☑ 指定区域（如只比对内容区，排除时钟等动态元素） 比对参数： 相似度算法： - 像素级比对（精确，但受分辨率/缩放影响大） - 结构相似度（SSIM，推荐，抗干扰能力强） - 感知哈希（pHash，适合检测"大致相同"） 相似度阈值：0.95（推荐范围0.9-0.98） 输出： 相似度分数 → 保存到变量 {{similarity_score}} 是否相似 → 保存到变量 {{is_similar}}

3.3 实战案例：检测页面是否加载完成

场景：某些老旧网站，没有明确的"加载完成"标志（如没有loading消失的提示），只能用图像识别判断。

解决方案：截图比对检测页面状态 [步骤1：制作标准截图] 1. 手动导航到目标页面 2. 等待页面完全加载 3. 截取页面内容区（排除顶部的时钟、动态通知等） 4. 保存为：page_loaded_baseline.png [步骤2：编写等待页面加载流程] [子流程：等待页面加载] 输入参数：{{max_wait_seconds}} = 30 [循环] 每2秒执行一次，最多执行 {{max_wait_seconds}}/2 次： 1. [截图] 截取区域：页面内容区（x=200, y=100, w=1200, h=800） 保存为：current_screenshot.png 2. [截图比对] 标准截图：page_loaded_baseline.png 当前截图：current_screenshot.png 算法：结构相似度（SSIM） 阈值：0.92 3. [条件判断] IF {{is_similar}} == True： [记录日志] "页面加载完成（相似度：{{similarity_score}}）" 返回 "成功" ELSE： [记录日志] "页面尚未加载完成（相似度：{{similarity_score}}），继续等待..." [等待] 2秒 [循环结束后] IF 超时仍未加载完成： [截图保存] 文件路径：timeout_screenshot.png [记录日志] "页面加载超时！已保存当前截图" 返回 "失败"

3.4 排除动态元素的干扰

问题：页面上有动态元素（如时钟、滚动新闻、实时数据），导致截图比对总是失败 解决方案：只比对"静态区域" [截图比对（排除动态元素）] 标准截图：baseline.png 当前截图区域： ☑ 指定多个区域（只选择静态内容区域） 静态区域示例： ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/17d3650559ad438090753b24f4ea9420.png#pic_center) 区域1：页面标题栏（x=0, y=0, w=1200, h=50） 区域2：表单区域（x=200, y=100, w=800, h=500） 区域3：底部版权信息（x=0, y=900, w=1200, h=50） 动态区域（排除）： - 右上角时钟（总是变化） - 左侧实时消息通知（随时弹出） - 中间滚动新闻（内容变化）

四、核心方法三：颜色识别

4.1 颜色识别的原理

原理： 1. 指定屏幕坐标（x, y） 2. 获取该坐标像素的RGB颜色值 3. 与目标颜色比较 4. 匹配 → 条件成立；不匹配 → 条件不成立 应用场景： - 检测按钮是否变成"可点击"颜色（如从灰色变成蓝色） - 检测表单验证错误（如输入框变红） - 检测进度条是否完成（如进度条颜色从蓝色变成绿色） - 检测系统状态（如指示灯：绿色=正常，红色=异常）

4.2 影刀RPA颜色识别指令详解

[获取颜色] 指令详解： 坐标： x：500 y：300 （或者使用变量：{{target_x}}, {{target_y}}） 输出： RGB颜色值 → 保存到变量 {{color_r}}, {{color_g}}, {{color_b}} 十六进制颜色值 → 保存到变量 {{color_hex}} 是否匹配目标颜色 → 保存到变量 {{color_match}} [颜色匹配] 目标颜色： 方式1：指定RGB值（如 R=0, G=120, B=215，对应蓝色） 方式2：指定十六进制值（如 #0078D7） 容差（Tolerance）： 0 = 精确匹配（RGB完全相同） 10 = 轻微容差（允许每个通道±10） 30 = 较大容差（推荐用于抗锯齿/渐变色的场景）

4.3 实战案例：检测按钮是否可点击

场景：某些网页表单，提交按钮在表单未填写完毕时是灰色的（不可点击），填写完毕后变成蓝色（可点击）。需要检测按钮颜色来判断是否可以提交。

解决方案：颜色识别 [步骤1：获取按钮位置] （可以用找图方法获取按钮坐标，假设已经获取） {{button_x}} = 500 {{button_y}} = 600 [步骤2：循环检测按钮颜色] [循环] 每2秒检测一次，最多检测30次（等待60秒）： 1. [获取颜色] 坐标：{{button_x}} + 10, {{button_y}} + 10 （按钮中心） 输出：{{color_r}}, {{color_g}}, {{color_b}} 2. [颜色匹配] 目标颜色：R=0, G=120, B=215（蓝色） 容差：20 3. [条件判断] IF {{color_match}} == True： [记录日志] "提交按钮已变成可点击状态（蓝色）" [点击位置] {{button_x}}+10, {{button_y}}+10 跳出循环 ELSE： [记录日志] "提交按钮仍为灰色（不可点击），继续等待..." [等待] 2秒 [循环结束后] IF 超时仍未变成可点击状态： [记录日志] "等待超时！按钮仍未激活" [截图保存] 文件路径：button_timeout.png 返回 "失败"

4.4 实战案例：检测表单验证错误

场景：表单提交后，如果验证失败，输入框会变成红色边框。需要检测是否出现红色边框来判断是否提交成功。

解决方案：颜色识别检测错误状态 [步骤1：提交表单] [点击元素] 选择器："//button[text()='提交']" [等待] 2秒 （等待表单验证） [步骤2：检测是否出现红色边框] 1. [获取颜色] 坐标：{{input_x}} - 2, {{input_y}} - 2 （输入框左上角，应该是边框位置） 输出：{{border_r}}, {{border_g}}, {{border_b}} 2. [颜色匹配] 目标颜色：R=255, G=0, B=0（红色） 容差：30 3. [条件判断] IF {{color_match}} == True： [记录日志] "检测到红色边框，表单验证失败！" [获取错误信息] 使用找图方法，找到错误提示图标（通常是黄色感叹号） 提取旁边的错误文本 [记录日志] "错误原因：{{error_text}}" 返回 "验证失败" ELSE： [记录日志] "未检测到红色边框，表单提交成功！" 返回 "成功"

五、核心方法四：条形码/二维码识别

5.1 条形码/二维码识别的原理

原理： 1. 截取包含条形码/二维码的图像 2. 使用专用解码库（如ZXing、OpenCV）解析 3. 返回解码结果（字符串） 应用场景： - 快递单号自动识别（条形码） - 微信/支付宝收款码识别（二维码） - 商品条码自动录入（条形码） - 会议签到二维码扫描（二维码）

5.2 影刀RPA条形码/二维码识别指令详解

[识别条形码/二维码] 指令详解： 输入： □ 从屏幕区域识别（实时截图） ☑ 从图片文件识别（指定路径） 图片路径：C:\rpa\images\barcode_sample.png 识别参数： 码类型： ☑ 条形码（Code128, EAN13, UPC-A等） ☑ 二维码（QR Code, Data Matrix等） 尝试多种类型：是（自动检测码类型） 输出： 识别成功 → 解码内容保存到变量 {{barcode_text}} 识别失败 → 错误信息保存到变量 {{barcode_error}}

5.3 实战案例：快递单号自动识别

场景：电商仓库，需要手动录入快递单号到系统。使用RPA自动识别快递单上的条形码，自动录入。

解决方案：条形码识别 [步骤1：获取快递单图片] 方式A：使用摄像头拍照 [调用外部程序] 打开摄像头拍照程序 [等待用户操作] 提示："请拍摄快递单条形码，拍摄完成后按回车继续" [获取最新文件] 目录：C:\Photos\ → 最新图片保存到 {{barcode_image}} 方式B：从文件选择 [打开文件对话框] 筛选器："图片文件|*.png;*.jpg" → 选择结果保存到 {{barcode_image}} [步骤2：识别条形码] [识别条形码/二维码] 图片路径：{{barcode_image}} 码类型：自动检测 输出变量：{{barcode_text}}, {{barcode_error}} [条件判断] IF {{barcode_text}} != ""： [记录日志] "条形码识别成功：{{barcode_text}}" [步骤3：录入系统] [打开网页] URL: "https://warehouse.example.com/inbound" [输入文本] 选择器："//input[@id='tracking_no']" 文本：{{barcode_text}} [点击元素] 选择器："//button[text()='查询']" [等待元素出现] 选择器："//div[@id='result']" 超时：10秒 [提取文本] 选择器："//div[@id='result']" → 保存到 {{result_text}} [记录日志] "快递单号 {{barcode_text}} 录入成功：{{result_text}}" ELSE： [记录日志] "条形码识别失败：{{barcode_error}}" [截图保存] 文件路径：barcode_fail.png [显示提示] "识别失败，请重新拍摄或手动录入"

六、实战案例汇总：5个图像识别应用场景

6.1 场景1：远程桌面的自动化操作

完整方案： 1. 使用"找图"定位所有可操作元素（按钮、输入框、下拉框） 2. 使用"颜色识别"检测操作结果（如按钮是否变灰、是否出现成功提示） 3. 使用"截图比对"验证每个步骤是否执行成功 4. 异常时截图保存，发送告警邮件 关键技巧： - 远程桌面的分辨率要固定（如始终使用1920×1080） - 远程桌面的颜色深度要固定（如32位真彩色） - 模板图片要在相同的远程桌面环境下截取

6.2 场景2：游戏脚本自动化

完整方案： 1. 使用"找图"定位游戏界面中的按钮（如"攻击"、"背包"） 2. 使用"颜色识别"检测角色状态（如血量条颜色：绿色=安全，红色=危险） 3. 根据角色状态自动决策（血量<30% → 使用药水） 4. 使用"截图比对"检测是否进入战斗/副本 ⚠️ 注意： - 游戏公司通常禁止外挂/脚本，使用前请确认合规 - 本文仅供学习RPA图像识别技术，请勿用于违规场景

6.3 场景3：CAD/工业设计软件自动化

完整方案： 1. CAD软件通常是桌面应用，元素捕获困难 2. 使用"找图"定位工具栏按钮（如"直线"、"圆形"、"尺寸标注"） 3. 使用"颜色识别"检测是否选中了正确的图层 4. 使用"截图比对"验证绘制结果是否正确 关键技巧： - CAD软件有"命令快捷键"，优先考虑用快捷键操作（比图像识别更稳定） - 如必须用图像识别，建议把CAD界面调成"经典主题"（不要使用彩色主题）

6.4 场景4：KVM切换器环境下的操作

场景说明： KVM切换器允许多台电脑共用一套键盘鼠标显示器 RPA运行在一台电脑上，但需要操作另一台电脑（通过KVM切换） 完整方案： 1. 使用KVM切换器切换到目标电脑 2. 使用"找图"定位目标电脑屏幕上的元素 3. 使用"截图比对"验证切换是否成功 4. 操作完成后，切换回原电脑 关键技巧： - KVM切换可能有1-2秒延迟，找图前要等待足够时间 - 不同电脑的分辨率可能不同，需要为每个分辨率准备一套模板图片

6.5 场景5：移动设备投屏后的自动化

场景说明： 将手机/平板投屏到电脑（如使用Scrcpy、AirPlayer） RPA操作电脑上的投屏窗口，间接操作移动设备 完整方案： 1. 启动投屏软件（如Scrcpy） 2. 使用"找图"定位手机屏幕上的App图标 3. 使用"颜色识别"检测App状态（如微信是否有未读消息红点） 4. [video(video-wm4O087e-1781724396110)(type-csdn)(url-https://live.csdn.net/v/embed/524992)(image-https://v-blog.csdnimg.cn/asset/b59aed2f01d4fe8583467562aaf4dcfd/cover/Cover0.jpg)(title-temu店群自动化报活动案例)] 5. 使用"截图比对"验证操作是否成功（如是否成功发送消息） 关键技巧： - 手机分辨率多样，建议固定投屏分辨率（如总是缩放到720×1280） - 手机系统（iOS/Android）界面不同，需要分别准备模板图片

七、图像识别的准确率提升技巧

7.1 模板图片制作的10个最佳实践

1. 使用PNG格式（无损压缩） 2. 背景尽量透明（如果目标元素形状规则） 3. 尺寸适中（推荐 30×30 到 200×200 像素之间） 4. 截取"稳定"状态（不被按下、不被禁用、没有hover效果） 5. 避免截取文字内容（文字可能变化，导致匹配失败） 6. 如果必须截取文字，使用OCR识别文字内容（比图像匹配更可靠） 7. ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/3d77c3996b0d4caf98c07d777ae7e758.png#pic_center) 8. 为多分辨率准备多套模板图片（如 @1x, @2x, @3x） 9. 定期更新模板图片（界面改版后，旧模板会失效） 10. 给模板图片起有意义的名字（如 submit_btn_blue.png, not_submit_btn_gray.png） 11. 在版本控制系统中管理模板图片（和流程代码一起版本化）

7.2 多分辨率适配方案

问题：同一按钮，在不同分辨率下截图，大小不一样，导致模板匹配失败 解决方案1：多尺度匹配（推荐） 在"找图"指令中启用"多尺度匹配"，支持缩放±20% 优点：不需要准备多套模板 缺点：计算量大，速度慢 解决方案2：多套模板（精确） 为每种分辨率准备一套模板图片： /images/1920x1080/submit_button.png /images/1366x768/submit_button.png /images/2560x1440/submit_button.png 运行时，先获取屏幕分辨率，再选择对应的模板目录 优点：识别准确率高 缺点：需要维护多套模板 解决方案3：分辨率标准化（最推荐） 在RPA运行前，强制设置屏幕分辨率为固定值（如1920×1080） Windows命令： powershell -command "Set-DisplayResolution -Width 1920 -Height 1080" 优点：一套模板走天下 缺点：需要修改系统设置（可能需要管理员权限）

7.3 抗干扰技巧

干扰因素1：界面皮肤/主题变化 解决：使用"灰度匹配"（忽略颜色差异） 干扰因素2：按钮有hover效果（鼠标移上去会变色） 解决：截取"默认状态"的按钮（鼠标不在按钮上） 干扰因素3：背景有渐变/图案 解决：使用图像的"边缘检测"结果进行匹配（忽略背景） 干扰因素4：文字抗锯齿导致边缘模糊 解决：降低相似度阈值（如从0.95降到0.85） 干扰因素5：动态内容（如时钟、滚动新闻） 解决：只比对"静态区域"（排除动态区域）

八、总结与延伸学习

8.1 本文知识要点

知识点	掌握标准	相关文章
模板匹配（找图）	能独立完成远程桌面的按钮点击	本文
截图比对（相似度检测）	能检测页面加载完成状态	本文
颜色识别	能检测按钮是否可点击	本文
条形码/二维码识别	能完成快递单号自动录入	本文
多分辨率适配	能为3种分辨率准备模板图片	本文

8.2 图像识别 vs 元素捕获：如何选择？

优先使用元素捕获（✅）： → 能用XPath/CSS选择器定位的，坚决不用图像识别 → 原因：元素捕获更准确、更快、不受分辨率影响 万不得已才用图像识别（⚠️）： → 元素捕获失效时（远程桌面、旧版桌面应用、Canvas内容） → 原因：图像识别准确率有限、速度慢、维护成本高 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/5e0817c2d7914122adb093941d2f3aaf.png#pic_center) 混合使用（🏆 推荐）： → 优先尝试元素捕获 → 捕获失败时，自动降级到图像识别 → 两种都失败时，人工介入

8.3 下期预告

第46篇：《影刀RPA滑块验证与验证码处理：反爬虫突破实战》
将深入讲解RPA在应对反爬虫机制方面的高级技巧：滑块验证码、图片验证码、短信验证码、其行为验证码的识别与处理方案。

附录

附录A：图像识别准确率测试清单

测试前检查： □ 模板图片是否清晰？（放大200%检查边缘是否模糊） □ 是否使用了PNG格式？（避免使用JPG，有压缩失真） □ 相似度阈值是否合理？（推荐0.8-0.9） □ 是否启用了灰度匹配？（提高抗干扰能力） □ 是否准备了多套模板？（不同分辨率/不同皮肤） 测试中： □ 在3种不同分辨率下测试（如1366×768, 1920×1080, 2560×1440） □ 在2种不同皮肤/主题下测试（如浅色主题、深色主题） □ 测试动态内容干扰（如页面上有时钟、滚动新闻时，是否会影响识别） □ 测试执行速度（单张图片识别耗时应 < 1秒） 测试后： □ 记录准确率（识别成功次数 / 总测试次数） □ 准确率 > 95% → 可以投产 □ 准确率 90-95% → 需要增加重试机制 □ 准确率 < 90% → 需要优化模板图片或调整参数

附录B：常用图像识别工具的对比

工具/库	优点	缺点	适用场景
影刀RPA内置找图	可视化配置，上手简单	功能相对基础	简单按钮查找
OpenCV模板匹配	功能强大，支持多尺度	需要写代码	复杂图像识别
Tesseract OCR	开源免费，支持多语言	准确率一般	文字识别
百度OCR API	准确率高，支持多种场景	需要付费	高精度文字识别
ZXing（条形码）	开源免费，支持多种码制	图像质量差时准确率下降	条形码/二维码识别