当前位置: 首页 > news >正文

2025 年 MaaS 市场竞争激烈,火山引擎份额稳固,AI 云飞轮加速转动!

2025 年中国 MaaS 市场竞争激烈,火山引擎份额稳固

中国 MaaS(模型即服务)市场正迅速扩张,从狭小市场变为极具潜力的业务增长点。市场调研机构 IDC 最新数据显示,2025 年中国企业级 MaaS 市场大模型调用量同比增长 16 倍,达 1941 万亿 Token,且预计 2026 年增速更快。

2025 年,尤其是下半年,中国云计算厂商和大模型公司纷纷入局,投入更多算力、销售和产品资源,提升 MaaS 业务优先级,市场竞争愈发激烈。

常理而言,快速扩容的新兴市场,后来者集中入场后,领跑者份额易被稀释。在 MaaS 市场,外界曾认为大模型 API 难以形成黏性,开发者改几行代码就能更换底层模型或云平台。

但 IDC 最新数据给出反直觉结果:2025 年,火山引擎在中国 MaaS 市场份额稳固,从上半年的 49.2% 提升至全年的 49.5%。这意味着,在竞争最激烈的下半年,火山引擎不仅未被后来者瓜分份额,反而随市场扩容扩大了领先优势,中国公有云上每产生两个大模型 Token,就有近一个来自火山引擎。

外界常将此归因于其激进定价策略。2024 年 5 月,火山引擎发布豆包大模型 MaaS 服务时,将价格降至较行业通用水平低 99.3%。但单纯补贴无法解释其份额持续扩张,行业内其他厂商很快也压低了 MaaS 服务价格。真正决定低价能否持续的,是调用规模和推理工程能力。

模型能力同样关键。MaaS 市场快速扩容,源于模型能力提升打开新场景:模型编程能力提升推动 Vibe Coding 和 Agent 走热,视频生成模型进入短剧、漫剧和广告制作流程,放大 Token 消耗。

这表明,MaaS 更偏向增量市场的速度竞争。谁能更快将模型能力产品化,提供性价比高且稳定的服务,谁就能承接新增场景,在市场扩容中扩大份额。

从豆包大语言模型到 Seedance 视频生成模型,豆包系列模型能力不断迭代。在此基础上,火山引擎加速将积累的 Token 规模转化为更完整的竞争力:更低推理成本、更高工程效率,以及围绕 Agent 运行所需的基础设施,一个大模型时代的云计算飞轮正在成型。

低价背后,是规模和工程能力

云计算是高固定成本、低边际成本行业。服务器、网络、研发和运维体系需前期大量投入,但新增调用的边际成本会下降。规模越大,研发和基础设施投入越易被摊薄。

规模也会放大工程优化的价值。火山引擎总裁谭待曾举例:“1 万台服务器利用率优化一个点,和 100 万台服务器优化一个点,收益差 100 倍。可以组建强大的团队做得更好。”

规模是火山引擎发力 MaaS 的关键。它不是简单卖模型接口,而是尽快做大 Token 调用量。

为此,火山引擎将 Token 消耗量作为业务核心指标,调整销售团队业绩考核方式:同样销售额的 MaaS 产品,在内部考核中的激励权重是传统云服务的数倍。

随着业务优先级提升,火山引擎在模型推理方向的技术投入也增加。MaaS 成本主要取决于 Token 生成效率,服务器利用率、缓存命中率、算力调度效率提高,成本就可能下降。

谭待谈到定价策略时说:“更低的成本能催生更多应用,可以把盘子做大。看到能靠技术把成本降下来,就决定一次降彻底。”

支撑火山引擎降价的关键技术是较早大规模应用的 PD 分离和 KV Cache。PD 分离是将大模型推理的“理解问题”(Prefill)和“生成答案”(Decode)拆开,匹配更合适的算力单元;KV Cache 则是缓存模型生成过程中的历史状态,避免重复计算上下文,节省显存带宽和推理成本。

但这些技术依赖规模。小规模调用时,维护复杂缓存和调度系统成本高,甚至可能抵消节省的算力。随着这些技术在行业扩散,Token 价格逐渐趋同。缺乏规模效应的跟随者对标低价会面临更大成本压力,甚至亏损。

调用规模大的火山引擎成本压力小,有更多空间优化推理技术,形成可持续的低价能力。

火山引擎还在技术和工程之外寻找降成本途径:一方面,根据 Context 长度区间差异化定价,让客户自主选择;另一方面,推出“节省计划”,合并计算客户在不同模型上的用量,客户在语言模型上的规模折扣可对冲视频生成等新业务的试错成本。

IDC 最新中国 MaaS 报告显示,火山引擎市场份额(调用量份额)最高,收入份额也排名第一,但比调用量份额低几个百分点,说明其每个 Token 单价低于行业均值。

需注意,IDC 对中国 MaaS 市场的统计,主要涵盖公有云上企业调用模型情况,不包括字节跳动开发的豆包、即梦等 AI 应用,以及抖音、飞书等内部业务部署大模型产生的 Token。这些调用量虽不纳入市场份额统计,但会影响火山引擎的成本结构和工程效率。

Agent 让 MaaS 变成了基础设施生意

OpenAI CEO 山姆·阿尔特曼近期访谈表示,AI 下一阶段将从“用户提供文本、大模型返回文本或代码”转向“Agent 在公司内部运行,完成各类工作”,OpenAI 还在与 AWS 合作开发类似“虚拟同事”的产品。

MaaS 正从标准化供应模型接口转变为企业基础设施,黏性更强。企业 Agent 运行需要身份认证、权限控制、记忆系统、工具调用、沙箱环境、日志记录、安全治理等组件,以及与企业内部系统的连接。

这也是大模型行业重视 Agent Harness 的原因。Harness 原意是“马具”或“套具”,在 Agent 语境中,指与基础模型配合的工程系统。MaaS 提供稳定模型能力,Harness 将推理转化为可约束、可追踪、可持续运行的工作流。

云平台提供大模型服务的方式也在变化。Anthropic 和多家云厂商合作,以及今年 4 月 OpenAI 与 AWS 合作,不仅将模型接口放到云平台,还封装进云平台的原生 Agent 环境,让企业能在云平台开发、运营生产级 Agent。

火山引擎过去几年的产品演进也符合这一趋势:提升 MaaS 竞争力的同时,将大模型服务扩展为覆盖开发和运营 Agent 的基础设施。

谭待去年底接受访谈称:“我们是国内第一个推出全套 Agent 产品,把 Agent 开发简化的。客户写几行代码,就能做出复杂的 Agent,就跟以前开发复杂网站一样,只是现在需要新的 AI 中间件。”

他认为,以前写代码是定义工作流,现在基于模型开发 Agent,开发者更多写提示词,流程规划、任务拆解、创建子 Agent 等环节更多由模型完成,这也是 OpenClaw 这类产品的底层逻辑。

所以火山引擎今年初能在支援央视春晚活动时,迅速推出 OpenClaw 产品 ArkClaw,提升安全能力,开源为 Agent 长期记忆设计的上下文数据库 OpenViking,让 ArkClaw 更好用。

他们将“ArkClaw 个人版”定义为“敏态 Agent”,先让员工快速实验提高业务效率的想法,再将有效能力沉淀为“稳态 Agent”,对应火山引擎 2024 年上线的 Agent 开发和运营平台 HiAgent。

到今年 4 月,火山引擎上累计消耗万亿 Tokens 的企业从去年底的 100 家增至 140 家,越来越多 MaaS 大客户与火山引擎的合作更深入。

AI 云飞轮,开始转起来了

商业分析中,飞轮效应是解释全球最大云计算平台 AWS 成功的核心逻辑:规模摊薄成本,降价吸引客户,客户增长带来反馈、现金流和更强生态,推动技术和服务迭代。

火山引擎正构建类似的 AI 时代飞轮,但不完全遵循传统云计算逻辑。传统云计算飞轮围绕算力、存储、网络和软件生态,MaaS 飞轮则增加了模型能力、Token 使用方式、Agent 场景和真实业务反馈。

火山引擎飞轮的第一层是模型能力、调用规模和推理成本的循环。字节跳动内部模型研发团队 Seed 为火山引擎稳定供应第一梯队模型。模型越强,调用规模越易扩大;调用规模越大,越能用工程技术降低成本;成本下降又能吸引更多客户。这与传统云计算规模飞轮类似,只是计量单位变为 Token。

第二层飞轮来自真实场景反馈。字节体系内,每天上亿人使用的豆包、快速增长的即梦,以及抖音、飞书等数十个内部业务线和外部客户,都通过火山引擎开发和使用大模型,为其提供高频、复杂、真实的产品反馈。

这些反馈一方面流向 Seed 模型团队,助力基础模型迭代;另一方面流向火山引擎的 Agent 团队,提升产品能力。

Agent 产品尤其依赖这些反馈。Anthropic 多篇技术文章提到,Agent 能力提升不仅靠模型能力,内部员工、外部用户、生产监控、A/B 测试、用户研究和客户部署需求,共同推动 Claude Code 等产品迭代。

2025 年,火山引擎在中国 MaaS 市场份额接近一半,这只是其飞轮转动后的阶段性成果。

当前 Agent 热潮推高市场需求,行业出现算力供不应求,部分公司选择涨价优化短期财务表现,火山引擎表示不会跟进。

这种定价克制源于火山引擎对行业阶段的判断:当前扩大调用规模、降低使用门槛、增加真实场景,让飞轮加速转动,比获取短期利润更重要。

正如谭待所说,AI 云竞争是马拉松,才跑完一公里,现在的份额不代表最终结果,“比速度更重要的是加速度”。

http://www.jsqmd.com/news/778302/

相关文章:

  • Remnic:为AI智能体构建本地持久记忆系统的完整指南
  • 基于React与Tailwind CSS的轮毂偏移量计算器开发实践
  • 靠谱好用的心理APP推荐!2026治愈情绪内耗,日常压力自愈必备 - 健成星云
  • 2026电线电缆推广指南:去哪打广告客户最多 - 品牌推荐大师
  • 掌握Casbin工具函数:轻松实现高效权限控制的实用指南
  • RWKV-Runner全栈工具箱:简化大语言模型部署与实验
  • 从HTML到Word格式错乱:AI生成内容导出的“最后一公里”问题与工程化解法
  • 怎么快速获取城市必吃外卖榜攻略?外卖必点榜覆盖全品类满足各类用餐需求 - 资讯焦点
  • 2026年4月塑料管供应商推荐,九孔格栅管/雄安硅芯管/城建管道/通信管道/雄安格栅管,塑料管公司推荐 - 品牌推荐师
  • 终极Python NLP库对比指南:spaCy vs NLTK vs gensim深度评测
  • 如何快速了解 Kubernetes 的整体架构?
  • 油猴屏蔽百度热搜 - 冷夜
  • 一看就懂的HPH构造与核心部件解析
  • 零配置代码质量工具链Ultracite实战:Biome、ESLint、Oxlint对比与AI集成
  • 2026最新护理学校/高等专科推荐!华中优质院校权威榜单发布,专业靠谱湖南衡阳等地院校实力突出 - 博客万
  • 26年6月体重管理师官方考试指南|健康人才培养工程权威认证 - 品牌策略主理人
  • 深圳地区靠谱墨西哥物流服务商排行及核心能力解析 - 奔跑123
  • 90%代码由AI生成,31万行复杂业务系统如何重构?美团技术团队分享实战经验
  • WordPress低成本建站全攻略(新手友好,低成本高适配) - 麦麦唛
  • Qwen3-VL-Reranker-8B完整指南:32k长上下文多模态重排序实战
  • RAG质量评估实施RAG工程核心步骤
  • 像素幻梦·创意工坊部署指南:sequential_cpu_offload显存优化配置详解
  • 基于Golang的ESP32物联网服务器:轻量高并发后端设计与实践
  • CANoe里用SOME/IP_IL库做通信仿真,这几个CAPL函数你用过吗?
  • 技术博文:基于 PyTorch 实现经典 LeNet-5 手写数字识别
  • 2026年郑州汽车贴膜行业横向测评:5家主流门店深度对比 - 贴膜攒钱买霍希
  • gh_mirrors/in/invoice错误排查手册:常见问题与解决方案大全
  • DeepWay冲刺港股:年营收近40亿亏6.5亿 刚融资超3亿美元 百度与中东资本加持
  • AI原生代码审查知识库BeforeMerge:结构化规则赋能高效开发
  • Unity中解决Windows构建可寻址捆包后,程序加载时提示‘build target is 13’(对应安卓)出错问题解决方案