当前位置：首页 > news >正文

当 AI Coding 进入复杂企业系统，为什么提效远没有宣传里那么美好？

news 2026/7/12 7:25:23

以 Claude Code、Codex 为代表的自主编码智能体（Coding Agents），正在以惊人的速度席卷软件开发者生态。与此同时，类似“10 倍开发效率”“普通人也能随手构建软件”“程序员即将失业”的说法，也随处可见。

这种不分场景、不分用户要求、不分模型能力，随意夸大模型与智能体能力的现象，本质上是对软件工程客观规律的漠视。它不仅在基层开发者中制造了严重的职业焦虑，也在管理层和客户群体中催生了许多不切实际的期望。

不能否认，“氛围编程”（Vibe Coding）在某些类型的软件开发中，确实展现出了惊人的效率提升。但如果把视野扩大到整个软件生命周期，尤其是放到复杂的企业软件场景中，故事就远没有宣传中那么轻松美好。

01 不同的软件世界，不同的问题

AI Coding 的很多宣传成立于一个隐含前提：

软件需求边界清晰、依赖关系简单、失败代价低，验证成本几乎可以忽略。

在这种场景里，模型确实很容易显得强大。它可以快速生成一个网站、一个知识库系统、甚至全栈应用，很容易制造“开发方式被颠覆”的视觉冲击。对个人开发者、创业原型、内部工具、低风险自动化脚本来说，它们可能是 AI Coding 最先释放生产力的地方。

但大型的企业软件不是这样的场景。

它往往运行在多年演进的系统之上，背后有老框架、私有中间件、组织权限、审计要求、跨系统接口、历史兼容要求、审批流程等等。

比如，同样一个管理功能，在某个简单项目中，可能只是一个 UI 页面加几个 API 接口；但企业系统架构里，背后可能牵动微服务、分布式协调、权限校验、规则引擎、读写分离、多端兼容、操作日志等。

这是管理层和工程团队最容易产生错位的地方：

管理层看见的是 UI 和生成速度，工程团队面对的是系统工程与后果。

领导会问：“为什么 AI 都能写出来了，你还要这么久”，但工程师知道，真正耗时的往往不是写出一段代码，而是设计契约、处理边缘场景、配置参数、测试验证，并确保它能在真实系统里长期稳定运行。

一个看到的是局部输出效果，一个需要承担的是端到端责任。

AI Coding 的神话，很多时候不是模型夸大了自己，而是组织把某一类场景中的成功经验，误读成了所有软件开发场景都适用的普遍规律。

02 上下文工程：企业 AI Coding 的“前提税”

在企业软件的世界里，AI 要写对代码，首先必须理解现有业务与系统。

问题在于，企业系统中的关键知识，很少完整、清晰、结构化地摆在那里。很多知识散落在内部文档、历史事故记录、接口说明、配置规范里，甚至存在于口头约定和工程师的“脑袋”中。

但对模型来说，凡是不能被检索与引用、不能被明确提供的知识，就等于不存在。

在小项目里，模型扫一眼几个文档或现有代码，通常就能建立一个足够可用的上下文；但在企业系统里，事情远没有这么简单：

订单“可发货”是只看库存，还是要结合渠道、质检、客户信用？

某段看似奇怪的规则，是不是为了兼容特殊客户、或监管要求？

这一段看似冗余的旧代码，为什么不能轻易删除？

如果是从零建设企业系统，AI 必须知道业务边界、流程、规则、权限和技术选型等。否则，它就不可能生成一个真正可交付的系统。

存量系统更复杂。

AI 不仅要知道“应该怎么做”，还要理解“现在长啥样，为什么长这样”。

旧代码中的客户定制、兼容逻辑、数据口径、接口依赖、权限边界和异常流程，往往不是扫一遍代码就能自然理解的。

以笔者参与的一个 AI Coding 项目为例：一个中等规模需求，需要先后参考几十份上下文材料，覆盖系统架构、私有框架、编码约定、接口协议和数据模型等内容。即便如此，在实际 Coding 过程中，仍然需要不断回到已有代码中寻找参照，确认它和现有系统的实现方式是否一致。

更重要的是，这些知识不是静态的。

一旦新的业务规则、接口约定、或历史兼容逻辑没有同步进上下文，AI 就可能基于过时甚至错误的知识，生成错误的代码。

因此，企业软件 AI Coding 的上游，本质上是一项持续性的知识工程。

这笔“前提税”既存在于存量系统升级中，也存在于新项目中。新项目需要的是业务建模和架构约束，存量项目则需要历史逻辑还原和挖掘隐性知识。

这笔上下文的“前提税”，常常被企业在评估 AI Coding ROI 时忽略。

让 AI 读懂复杂业务与系统，需要先把系统知识整理成 AI 能读懂的形式。这本身就是一项不小的工程。

03 即使有了上下文，模型也会犯错

有了上下文，不等于模型一定就真正理解了系统。

上下文工程可以降低模型“瞎猜”的概率，但不能保证模型一定正确。

很多时候，模型会根据上下文和已有代码识别模式，然后生成一个“最像正确答案”的实现。这个能力很有用，但也是风险来源。

让模型编写企业软件代码，最直接的方式是让它参考已有代码模式。但问题在于，模型有时确实参考了，也遵循了一部分上下文，却在关键分支、特殊规则、运行时约束上做出了错误推断。

错误类型	为什么看起来合理	为什么不易发现
套用相似流程	代码结构和既有模块很像	关键业务例外被忽视
误用参考代码	调用方式看起来有先例	代码适用场景不同
补全隐含约定	命名、注释、分层都自然	运行时约束没有被满足
局部契约对齐	单个接口能成功返回	端到端链路不闭合

这种问题很难完全避免。由于企业软件的业务语义复杂、历史约束多、上下游层次深，模型很难端到端的理解所有的代码逻辑，你也很难提供100%完整、准确的规则与上下文。

比如，你告诉模型某个字段必须传，它可能不知道这个字段还要在哪里做二次校验；你告诉它某个状态要更新，却漏了告诉它应该更新成哪个状态值；你让它参考一个已有模块，它可能学到了调用方式，却没理解那个模块背后的适用条件。

所以，“给 AI 多一些上下文和参考代码”只能降低风险，不能消灭风险。把局部相似误判成全局正确是模型在编程时容易犯的错。

因此，企业不能只检查 AI Coding 是否“写得像”，还要验证它是否真正满足业务需求、规则和约束。

最危险的不是模型完全不懂。完全不懂的错误往往很明显，测试和评审很容易暴露。真正危险的是它懂了一半，然后把剩下的一半补得很像对的。

上下文能减少胡猜，但不能把模式匹配变成系统理解；企业要防的，正是那些看起来懂、短期能跑、长期埋雷的错误。

04 看起来能跑，不等于可以上线

在企业软件工程里，还有更重要的一点是：

即使 AI Coding 的代码在业务逻辑上大体正确，也不等于它已经达到了可以上线的标准。

在企业系统里，明显错误反而不是最可怕的。编译失败、接口不存在、页面 404，这些问题通常容易被静态检查或测试工具发现。真正危险的是“差不多对”：编译通过，页面能打开，接口能返回，快速扫一眼也觉得没问题。

但企业软件真正能否上线，还需要关注一些不容易展示出来的细节：并发、幂等、异常兜底、安全风险、外部系统协作、版本兼容、回滚等。

一些看起来已经完成的代码，但真实上线还需要回答更多问题：

看起来完成了	真实还缺什么
页面能提交	是否校验了数据正确性、权限等
接口能返回	异常处理、错误码是否规范
数据能入库	是否考虑幂等、分布式事务、回滚等
流程能跑通	是否覆盖边界、并发、超时等情况

另外你会发现，AI 生成的代码天然带有“完整感”。

它可以一次输出许多文件、方法、带有优雅的注释，让你以为系统已经成型，但这并不等于生产可用。特别是在权限、交易、账务、监管合规等关键场景里，一个遗漏的边界条件就可能放大成系统风险。

而我们在 Review AI 代码时，很容易把注意力放在明显的 bug 和代码风格、能否跑通上，很多时候会忽略“这个分支为什么存在”，“这里是不是少一个异常兜底”。这就很容易让错误暴露在生产过程中，引发事故。

所以，不能把生成结果的“完整感”当成正确性证据。

越是一次性完成度很高的输出，越需要严格对照规格、契约和上线标准，审查异常、边界、安全、并发、回滚等生产级要求。

再次强调，“差不多对”比“明显错”更危险，因为它更容易混过初审，进入后续联调甚至生产环节。

企业 AI Coding 要警惕的，不仅是模型有没有写对业务逻辑，更要关注生成的代码是否经得起上线后的真实流量考验。

05 AI 让写代码变快，也让审代码变重

一旦“看起来能跑”的代码进入评审和联调，瓶颈就会自然后移。

很多团队引入 AI Coding 后，很快会遇到一个反直觉现象：代码生成变快了，工程师却似乎没有更轻松。原因很简单：

评审者面对的，不再是一段自己设计与实现出来的逻辑，而是一批需要理解和验证的实现结果。

每个文件都要判断：它为什么这样写，依赖是否合理，异常是否完整，命名是否合规，接口是否匹配等等。

生成越快，评审者需要消化的内容就越多。看起来是 AI 帮团队“省掉了写代码的时间”，实际上却可能把很多工作转移到了审查与验证环节。

如果企业没有同步提升规格质量、自动化测试、契约检查和评估流水线，AI 只是把编码劳动转化成审查劳动。

代码量增加了，不代表有效产出增加；PR 变多了、提交变快了，不代表交付更快；提交更密集，也不代表系统风险下降。

事实上，这也与一些测试机构对大量软件项目遥测的结果相符 — PR 提交效率提升了，但审查与合并的效率反而降低。

更现实的问题是：

审查 AI 代码并不一定比审查人工代码更轻松。

尽管 AI 代码很多时候更规范，更易于阅读；但人工代码有设计和责任归属，评审时你可以直接问作者；而 AI 代码则完全依赖于注释和自己判断。

因此，AI Coding 往往需要配备足够的自动化机制帮助过滤低级错误，工程师才可能从重复劳动中解放。否则，可能会变成 AI 代码的清理队。

如果没有足够的验证与测试体系辅助，AI Coding 可能只是把负担做了转移（甚至可能是更贵的工程师）。

06 生成更快，不代表真的便宜

企业在讨论 AI Coding 的ROI，最容易只算一笔账：原来需要几个人天，现在模型几十分钟就生成了初稿。这个算法的问题在于：

它只看见了编码阶段的局部速度，没有看见成本如何回流到上下文准备、验证、评审、修复、治理和维护阶段。

Token 成本

复杂的企业任务，天然需要长上下文、多轮交互和多工具调用。需求说明、设计文档、接口契约、历史代码、测试结果、人工意见，都可能被反复喂给模型，自然会带来更多 token 消耗。

最近一批激进的智能体不断推高推理和长上下文需求，模型厂商也在持续重估价格体系。对企业来说，这意味着一个很现实的压力：当 token 单价上升，AI Coding 的单位经济性也会受到考验。

返工成本

即使 AI Coding 的结果已经可以作为有价值的初稿，它仍然需要工程师修复关键问题、补齐测试、验证异常链路。这也意味着，AI 的净收益还取决于生成之后还需要多少返工。

长期维护成本

ROI 还必须考虑长期维护，这包括上下文的维护和 AI 产出代码的维护。

在代码层面，AI Coding 容易引入重复的业务逻辑实现、过度封装、隐式约定和局部最优设计。短期看，它可能确实加快了开发速度；但长期看，也可能把新的技术债务带进系统，形成“屎山代码”。

在上下文层面，知识也必须持续回流。新的业务规则、接口变更、API 实现，如果不能及时沉淀进上下文，后续 AI Coding 就可能继续基于过时知识生成代码。这同样是一项持续性的工程负担。

真正理性的 ROI，不能只看 AI 写了多少、采纳了多少代码，而是要看它最终减少了多少真实工作量，又制造了多少返工、风险和维护成本。

07 建议路线：分级应用、约束下的人机协作

企业 AI Coding 的正确路线，不是一刀切推广，也不是放任模型自由发挥，而是同时做：

一是按风险分级使用 AI，二是把 AI 放进规格约束下的人机协作流程里。

【分级应用】

AI Coding 的效果，不能在所有场景中一视同仁。

越接近新系统、辅助模块、标准化任务、低风险内部工具、测试草稿、文档整理和样板代码，它越容易兑现价值。因为这些任务边界相对清楚、失败代价较低、验证链路较短，模型即使出错，也更容易被发现和修正。

相反，越接近存量系统、复杂架构、核心业务、高可用生产、跨团队接口和强监管系统，AI 就越必须被严格约束。

这并不意味着 AI 不能进入关键系统开发，而是：

必须有严格的边界、约束与人类审核机制。AI 可以参与流程，但不能绕过需求分析、设计评审、代码评审、测试验证、上线审批和事故责任链。

因此，低风险任务可以允许快速生成、Vibe Coding 和轻量评审；高风险任务则采用更严格的过程控制，比如规格驱动开发（SDD）、明确的上下文管理、规范的评审机制和高效的验证流水线。

【人机协作】

可行的 AI Coding 协作方式：

先明确需求目标、非目标、架构约定、异常链路、数据契约、权限规则、兼容范围和验收标准等，再让 AI 在这些边界内做辅助设计与编码。

总的来说，AI 更适合当实现加速器，不适合当主导和裁判。

如果希望在企业系统里实现一个“需求进去，系统出来”的理想型 AI 管道，多半是不现实且风险巨大的。

更合理的流程或许是：

流程环节	人负责	AI 负责
需求阶段	定目标、边界、非目标；补充业务知识等	总结材料、提出遗漏问题、发现上下文缺口等
设计阶段	架构取舍、技术决策、责任划分；补充遗留系统知识	生成候选设计方案、待确认问题等
实现阶段	编码规范与要求；控制接口、数据契约等	生成代码、单元测试；配置、部署脚本等
验证阶段	人类质量把关、端到端测试、判断是否可上线	自动化门禁、辅助分析日志和失败原因、代码修复
沉淀阶段	更新规范、上下文迭代	抽取新知识，比如可复用接口、整理变更说明