亚马逊内部数据曝光:6 个工程师 76 天干了 30 人一年半的活
这周 Swami(亚马逊云科技 Agentic AI VP)发了一篇文章,公开了亚马逊内部团队用 AI 编程的真实数据。不是营销稿,是跑了几百个团队实验后的总结。
几个数字先看:
- 6 个工程师,76 天,重写了 Amazon Bedrock 推理引擎——原本计划 30 人干 12-18 个月
- Amazon Stores 团队的中位生产力提升 4.5 倍(按部署频率归一化计算),部分团队超过 10 倍
- Perfect Order Experience 团队:从两周一个 feature → 一个下午交付
- WW Grocery 团队:设计文档从 5 天 → 几小时
这些不是实验室数据,是在 Amazon 内部生产环境跑出来的。
五个核心实践
文章总结了成为"前沿团队"的五个方法。我翻译成人话:
1. 先建 Agent Context,再写代码
别上来就让 AI 写代码。先投入时间做这些:
- 写清楚的 steering files(引导文件)
- 统一编码标准
- 结构化的代码仓库
# 一个好的 steering file 示例(放在项目根目录)## 项目架构
- 服务类型:微服务,Python FastAPI
- 数据库:DynamoDB single-table design
- 部署:CDK + Lambda
- 测试:pytest,覆盖率 > 80%## 编码规范
- 函数不超过 50 行
- 所有外部调用加 retry + timeout
- DynamoDB 操作封装在 repository 层
- 错误处理用自定义 Exception 类## 禁止事项
- 不用 print 调试,用 structlog
- 不在 Lambda handler 里写业务逻辑
- 不硬编码配置,全走环境变量
这些前置投入看起来慢,但 AI agent 有了这些上下文后,产出质量会有质的飞跃。
2. 接受初期变慢
重构工作流程的前 2-3 周,效率可能反而下降。这很正常——需要时间:
- 把隐性知识文档化
- 建立 agent 能理解的任务分解方式
- 调整 code review 流程适应 AI 产出
关键是坚持穿越这个阶段,不要因为短期变慢就退回老路。
3. 保持稳定的任务积压
Agent 需要持续有活干。如果 backlog 空了或者任务定义不清晰,agent 就会空转。
实际操作:
- 保持 20-30 个 well-scoped 的任务在 backlog 里
- 每个任务有清晰的输入/输出/验收标准
- Agent 可以并行跑多个任务,不需要人盯着
# 一个 agent-ready 的任务定义
task: "添加 S3 文件版本控制支持"
input:- 当前 S3 操作的 repository 层代码- DynamoDB 表结构- 接口规范文档
output:- 新增 version_id 字段到所有 S3 操作- 更新 DynamoDB schema- 补充单元测试(覆盖正常流 + 异常流)
acceptance:- pytest 全通过- 无 type error- 接口向后兼容
4. 先明确意图,再生成代码
不要给 AI 一句模糊的描述就让它动手。先用结构化规格把意图说清楚:
- 要解决什么问题
- 约束条件是什么
- 不做什么(这个经常被忽略)
- 验收标准
这和 Kiro 的 Specs 理念一致——先写清楚要什么,agent 的产出才能一次到位。
5. 测试前移
让 agent 能自己跑测试、自己修 bug,不要等代码进了 CI pipeline 才发现问题。
# Agent 工作流中嵌入测试
# 1. 生成代码
# 2. 立刻跑测试
pytest tests/ -x --tb=short
# 3. 如果失败,agent 自行修复
# 4. 循环直到通过
# 5. 跑 lint + type check
mypy src/ --strict
ruff check src/
# 6. 全通过后才提交
这样人只需要 review 最终结果,不需要来回打回修改。
对我们有什么启发
1. Context 文件投入产出比极高
写一份好的 ARCHITECTURE.md + CODING_STANDARDS.md,可能花半天时间。但接下来每次让 AI 干活都会受益。这个投入是一次性的,收益是持续的。
2. 任务粒度决定 AI 效率
"帮我把这个项目从 Python 2 迁移到 Python 3"——这种任务太大,AI 容易跑偏。
"把 user_service.py 里的所有 print 语句换成 structlog.info,保持现有日志内容不变"——这种任务 AI 能一次做对。
3. 人的角色在变
从"写代码的人"变成"定义任务 + review 结果的人"。
这不是说开发者不需要懂代码了——恰恰相反,你需要更懂才能定义好任务、判断 AI 产出的质量。但重复性的编码工作确实在被自动化。
4.5 倍效率提升意味着什么
换算一下:
- 以前 4 个人的活,现在 1 个人 + AI 就能干
- 或者:同样的团队规模,产出变成以前的 4.5 倍
对技术管理者来说,这改变了团队规划的方式:
- 项目估时要重新校准
- "多招人"不再是解决产出瓶颈的默认答案
- 工程师的价值从"产出代码量"转向"定义问题和质量把关"
落地建议
如果你想在团队里试试:
- 先选一个小项目试点(不要一上来全员铺开)
- 花一周建 context(steering files + 编码规范 + 仓库结构)
- 准备好 2-3 周的适应期(效率可能先降再升)
- 量化跟踪(PR 数、部署频率、bug 率)
- 固定 backlog 供给(让 agent 一直有事做)
工具层面,亚马逊云科技的 Kiro IDE 就是按这个理念设计的——Specs 定义意图、Agent 跑任务、自动测试验证。如果你在用 Bedrock 做 AI agent,同样的原则也适用:给 agent 足够的 context,定义清晰的 task,让它自己验证。
原文链接:https://aws.amazon.com/blogs/machine-learning/how-frontier-teams-are-reinventing-ai-native-development/
