背景
Bedrock 推理请求在流量尖峰时可能触发 ThrottlingException。之前需要应用层自行实现多区域重试逻辑。
5 月亚马逊云科技为 Bedrock 引入了跨区域推理路由,通过 Inference Profile 配置实现自动 failover。
工作原理
应用 → Inference Profile → 主区域(正常时)→ 备用区域(限流/不可用时,自动切换)
应用代码无需修改,只需指向 Inference Profile 的 ARN。
配置示例
{"inferenceProfileName": "prod-claude","modelSource": {"copyFrom": "arn:aws:bedrock:us-east-1::foundation-model/anthropic.claude-sonnet-4-20250514-v1:0"},"routingConfiguration": {"primaryRegion": "us-east-1","fallbackRegions": ["us-west-2", "eu-central-1"]}
}
适用场景
- 流量尖峰撞限额
- 区域级别故障
- 多团队共享限额导致互相影响
注意事项
| 维度 | 考虑点 |
|---|---|
| 数据驻留 | 备用区域须在合规范围内 |
| 延迟 | 同洲 +20-50ms,跨洲 +100-200ms |
| 模型可用性 | 备用区域须部署相同模型 |
| 监控 | 切换频率高说明主区域限额需提升 |
建议
生产工作负载建议配置至少一个同洲备用区域。
来源:亚马逊云科技 2026/5 月 Bedrock 更新
