当前位置：首页 > news >正文

我们做了个实验：让AI和人类测试同一个系统，结果……

news 2026/6/30 20:26:01

我们选择了一个中等复杂度的电商优惠券系统作为被测对象。这个系统有着典型的三层架构，业务规则盘根错节：满减券、折扣券、叠加与非叠加规则、指定商品与全品类适用、有效期与库存的动态计算。我们精心埋下了25个缺陷，涵盖了功能、逻辑、接口、性能、安全、易用性等不同维度，并准备了详尽的需求文档、接口文档和UI设计稿。

人类测试团队由三位经验在3-8年的资深测试工程师组成，他们代表着我们行业的中坚力量。AI测试方，我们部署了一个当前最先进的大语言模型驱动的测试智能体，它被接入了需求文档、接口定义、数据库Schema，并具备了自主生成测试用例、执行接口调用、验证数据库状态和前端截图的能力。

实验开始了，结果并非一边倒的胜利，而是一场充满启发的博弈。

第一回合：功能与逻辑的正面交锋

人类工程师的表现堪称经典。他们从需求文档出发，运用等价类划分、边界值分析、判定表等传统测试设计方法，快速构建了一个覆盖主要业务流程的测试用例集。他们对“满100减20，可与折扣券叠加，但折扣券后金额需满足门槛”这类隐含逻辑极其敏感。测试过程中，他们发现了14个缺陷，其中大部分是核心业务逻辑错误，例如叠加计算时未考虑折扣券先计算导致的精度误差、库存扣减在高并发下的幂等性问题等。他们的优势在于基于理解的因果推断。当一个订单支付失败时，他们会像侦探一样，从日志、数据库状态、前端表现层层回溯，最终精准定位到是优惠券服务与订单服务之间关于“已使用”状态同步的时序问题。这种端到端的、基于业务上下文和直觉的追踪能力，是人类的强项。

AI测试智能体则展现了完全不同的作战风格。它在数分钟内便生成了超过500个测试用例，覆盖了所有API的参数组合、边界值和异常类型。它不知疲倦地以毫秒级的速度执行这些用例，并严格比照接口文档校验返回的HTTP状态码、响应体结构和字段类型。它发现了18个缺陷，数量上超过了人类。其中，大量是接口层面的健壮性缺陷：如传入一个超长字符串导致服务崩溃、一个本该为整型的参数传入了负数却返回了200 OK、在特定字符编码下数据库写入乱码等。AI的杀手锏是穷举式的、无遗漏的模式匹配。它能瞬间发现“当优惠券类型为折扣券，且折扣率为空，且指定商品SKU列表包含特殊字符时，接口返回500”这种人类几乎不可能通过正向思维设计出的组合场景。它没有思维定势，不会因为“这个场景不常见”而跳过测试。

第二回合：探索性测试的迷宫

当我们要求双方不依赖预先设计的用例，进行一小时的探索性测试时，差异变得更加微妙。

人类测试员开始像真正的用户一样“把玩”这个系统。一位工程师发现，在优惠券即将过期的前1秒下单，支付完成后优惠券状态变为“已使用”，但订单因支付回调延迟而取消，优惠券却未能回退。这个缺陷藏匿于时间窗口和分布式事务的夹缝中，是任何需求文档都不会明确描述的“暗逻辑”。另一位工程师则注意到，当用户反复添加、删除使用了不同优惠券的商品时，购物车页面的优惠分摊计算会出现闪烁和短暂的错误显示，这虽然不影响最终下单，却足以动摇用户的信任感。这是基于同理心和体验直觉的测试，他们测试的不是代码，而是“用户会怎么想”。

AI的探索性测试则表现为一种“启发式暴力美学”。它基于模型对Web应用常见漏洞和错误模式的理解，开始进行一系列“疯狂”的尝试：快速连续点击“提交订单”按钮、在支付流程中模拟浏览器后退与前进、在文本输入框注入各种SQL和XSS变体、上传一个伪装成图片的可执行文件。它发现了一个隐蔽的存储型XSS漏洞，当管理员在后台查看使用了特定命名优惠券的订单时，恶意脚本会被执行。这种基于海量知识图谱的攻击性测试，是人类难以凭经验全面覆盖的。

第三回合：测试资产的构建与维护

这是AI展现压倒性优势的领域。实验结束后，人类团队需要花费半天时间整理测试报告、归档缺陷、更新用例库。而AI智能体在测试停止的瞬间，就自动生成了一份结构清晰、图表并茂的测试报告，包含了每个缺陷的复现步骤、请求与响应体、数据库快照，甚至自动为每个失败用例生成了基于Gherkin语法的BDD测试用例。当需求发生变更，比如“满减券不可与折扣券叠加”这条规则被删除时，人类需要仔细评估影响范围，手动修改大量用例。而AI只需接收新的需求文档，便能在几分钟内重新生成一整套与变更后逻辑对齐的测试集，并标记出所有受影响的旧用例。测试代码和用例的维护成本，这个长期困扰我们的痛点，在AI面前似乎迎刃而解。

深度反思：我们测试的究竟是什么？

这场实验的结果，不是AI发现了18个缺陷，人类发现了14个，所以AI更强。真相要复杂得多。

人类发现的缺陷中，有8个是AI完全遗漏的，它们全部与复杂的业务规则、用户体验和分布式一致性相关。AI发现的缺陷中，有12个是人类遗漏的，它们集中在接口健壮性、边界异常和安全漏洞上。只有6个缺陷被双方共同发现。

这揭示了一个深刻的事实：人类和AI在测试中，本质上是在执行两种不同维度的质量保障活动。人类测试的是“系统是否按照业务预期工作”，其核心是正确性和体验。AI测试的是“系统在多大范围和程度上不会崩溃”，其核心是鲁棒性和安全性。

我们的思维模式决定了我们的测试盲区。人类的盲区在于生理和认知的极限——我们无法穷举，会感到疲劳，会基于经验形成思维定势，从而忽略那些“不可能发生”的场景。而当前AI的盲区，在于它无法真正理解“业务价值”。它不知道对于一个电商系统来说，一次错误的优惠分摊显示比一个特定格式下的服务报错要严重得多，因为前者直接导致用户流失和财务纠纷。它能发现“订单金额为负数时系统未拦截”，但它无法理解“这可能导致资损”这个后果的严重性。它缺乏对现实世界因果链和价值网络的体感。

未来已来：测试工程师的进化之路

所以，软件测试从业者的未来在哪里？绝不是被AI取代，而是与AI共生，实现一次彻底的职业进化。我们的角色将从“测试执行者”和“用例设计者”，转变为“测试架构师”和“质量守护者”。

我们需要掌握新的核心技能：AI训练与调优能力，学会如何为特定业务场景提供高质量的数据和反馈，微调模型，让它更懂我们的业务；测试策略设计能力，将人类的探索性、业务性测试与AI的覆盖性、鲁棒性测试在策略层面进行整合，设计人机协作的最佳流程；质量模型定义能力，将模糊的“用户体验”、“业务风险”转化为可供AI理解和执行的、可量化的质量属性和校验规则。

想象一下未来的工作场景：你接到一个需求，首先将文档输入AI，它瞬间生成一份初版测试策略和数千个用例。你审阅这份策略，凭你的业务直觉，在关键的业务转折点和复杂的交互流程上，补充探索性测试的Charter。AI执行完海量用例后，将可疑点推送给你。你不再需要花费数小时去复现一个偶发Bug，因为AI已经为你准备好了完整的“犯罪现场”。你聚焦于那些高价值的、需要人类智慧判断的缺陷，深入分析其根因，并与开发、产品探讨解决方案。你更多的时间，将花在思考如何预防缺陷，而不是发现缺陷；花在优化测试策略和流程，而不是机械地执行用例。

查看全文

http://www.jsqmd.com/news/786626/