当前位置：首页 > news >正文

AI的下一场战争：从算力到存力

news 2026/6/7 2:02:53

子玥酱（掘金 / 知乎 / CSDN / 简书同名）

大家好，我是子玥酱，一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂，目前在某国企负责前端软件研发相关工作，主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验，日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案，
在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向：前端 / 跨端 / 小程序 / 移动端工程化
内容平台：掘金、知乎、CSDN、简书
创作特点：实战导向、源码拆解、少空谈多落地
文章状态：长期稳定更新，大量原创输出

我的内容主要围绕前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读展开。文章不会停留在“API 怎么用”，而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍，希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨
👋 如果你正在做前端，或准备长期走前端这条路
📚 关注我，第一时间获取前端行业趋势与实践总结
🎁 可领取11 类前端进阶学习资源（工程化 / 框架 / 跨端 / 面试 / 架构）
💡 一起把技术学“明白”，也用“到位”

持续写作，持续进阶。
愿我们都能在代码和生活里，走得更稳一点 🌱

文章目录

- 引言
- 一、为什么“算力崇拜”正在失效
- 二、AI为什么越来越依赖“存力”
- 三、Attention为什么会把存力问题彻底放大
- 四、长上下文为什么会引爆存力危机
- 五、Agent时代正在把存力推向核心位置
- 六、多Agent系统会导致状态爆炸
- 七、GPU为什么越来越像数据设备
- 八、AI Runtime正在成为新的操作系统
- 九、端侧AI会最先进入存力瓶颈
- 十、AI产业正在进入State Scaling时代
- 总结

引言

过去几年，AI 行业最核心的竞争关键词，一直都是：

算力（Compute）

从 GPT-3 到 GPT-4、从 Claude 到 Gemini、从 DeepSeek 到各种开源大模型。

整个行业几乎都围绕同一个目标展开竞争：

更多GPU 更大集群 更多FLOPS

甚至很多人默认认为：

AI 的未来，本质上就是一场无限扩张的算力竞赛。

于是过去几年里，我们看到：

参数规模越来越大 训练集群越来越大 GPU数量越来越多

行业最关心的问题始终是：

如何获得更多计算资源

因为在 Transformer 发展的早期阶段，最大的瓶颈确实来自：

Compute

但当大模型真正开始进入生产环境以后，一个新的问题开始出现。

越来越多团队发现：

GPU并没有算满

反而大量时间消耗在：

等待数据 等待内存 等待网络 等待状态同步

于是行业开始意识到：

现代 AI 最大的问题，已经不再只是“算不动”。

而是：

存不下 搬不动 同步不了

也就是说：

AI 正在从“算力时代”，进入“存力时代”。

这里的存力（Memory Power），并不仅仅意味着：

内存容量

而是：

Memory Bandwidth Cache State Runtime

未来 AI 的竞争，很可能不再是谁拥有最多 GPU。而是谁能够管理最庞大的状态系统。

一、为什么“算力崇拜”正在失效

过去几年有一个非常流行的观点：

算力就是 AI 的生产力。

这句话在过去是成立的，因为：

模型能力 ≈ 计算能力

模型越大，算力越强、效果越好。例如：

GPT-2 ↓ GPT-3 ↓ GPT-4

背后本质上都是：

Compute Scaling

但问题是：GPU 并不是无限快；更重要的是：GPU 不是孤立存在的。

它需要：

CPU供给数据 内存供给状态 网络供给同步

例如：

forbatchindataloader:output=model(batch)

很多人以为时间花在：

model(batch)

实际上在大型系统里：

DataLoader

往往才是真正的性能瓶颈，因为：

读取数据 传输数据 同步数据

开始占据越来越高的比例，于是现代 AI 系统越来越像：

GPU等待CPU CPU等待IO IO等待网络

形成一条长长的数据流水线。真正限制系统性能的，已经不再只是：

Compute Throughput

而是：

Data Throughput

二、AI为什么越来越依赖“存力”

传统软件和 AI 软件有一个本质区别。传统系统大多数属于：

请求 ↓ 处理 ↓ 结束

例如：

@app.route("/login")deflogin():return"success"

请求结束、状态释放、系统回到初始状态。但 AI 系统完全不同，现代 AI 需要长期维护：

上下文 记忆 推理历史 任务状态 工具调用记录

例如一个简单 Agent：

classAgent:def__init__(self):self.memory=[]defchat(self,msg):self.memory.append(msg)returnself.memory

随着时间推移：

Memory

会持续增长，现实系统里还会包含：

Vector Memory Task State Tool History Runtime Cache

于是系统真正复杂的问题变成：

状态怎么存？ 状态怎么查？ 状态怎么恢复？

此时：

计算

反而变成相对简单的问题，越来越多团队开始意识到：

AI 不再只是计算系统，而是状态系统。

三、Attention为什么会把存力问题彻底放大

Transformer 的成功来自：

Attention

Attention 的本质是：

不断读取历史状态

为了避免重复计算，现代模型会维护：

KV Cache

例如：

seq_len=32000hidden_size=4096layers=80bytes_per_value=2kv_cache_size=(seq_len*hidden_size*2*layers*bytes_per_value)print(kv_cache_size/1024/1024/1024)

结果接近：

40GB+

也就是说：

一个用户

就可能占据几十 GB 的状态空间，于是：

GPU越来越快

但：

KV Cache越来越大

最终系统进入状态：

Memory Bound

所以：

FlashAttention PagedAttention SparseAttention

本质上都在解决同一个问题：

如何降低状态管理成本。

四、长上下文为什么会引爆存力危机

未来 AI 想真正实现：

长期记忆 复杂推理 自治任务

就必须拥有：

超长上下文

问题在于，每增加一个 Token。系统都会新增：

KV Cache Attention State Runtime State

例如：

context=1000000state_size=8*1024memory=(context*state_size)print(memory/1024/1024/1024)

结果达到数 GB，于是很多长上下文模型真正卡住的原因不是：

算不动

而是：

存不下

因此：

Memory Compression Sparse Attention State Pruning

开始成为热门方向。

五、Agent时代正在把存力推向核心位置

LLM 解决的是：

生成

Agent 解决的是：

执行

但执行意味着：

状态持续存在

例如：

classAgentState:def__init__(self):self.tasks=[]self.memory=[]self.logs=[]

随着运行时间增长：

任务增加 记忆增加 日志增加

系统压力会越来越大，于是 Agent Runtime 最大的问题变成：

如何管理状态

而不是：

如何调用模型

六、多Agent系统会导致状态爆炸

未来最热门的方向之一：

Multi-Agent

但多个 Agent 意味着：

更多上下文 更多记忆 更多状态

例如：

agent_count=1000memory_per_agent=100print(agent_count*memory_per_agent)

结果：

100000 MB

即：

100GB+

而且还没计算：

同步 通信 共享记忆

因此：

Multi-Agent 的核心挑战其实是状态管理。

七、GPU为什么越来越像数据设备

过去 GPU 竞争的是：

TFLOPS

未来竞争的是：

HBM Bandwidth NVLink

因为：

数据搬运

正在成为系统最大成本，未来 GPU 架构会越来越偏向：

Memory-Centric

而非：

Compute-Centric

八、AI Runtime正在成为新的操作系统

未来 Runtime 需要管理：

任务 状态 缓存 Agent 资源

例如：

classRuntime:defschedule(self):passdefrecover(self):passdefallocate(self):pass

越来越像：

Operating System

区别只是，传统 OS 管理：

CPU Memory Process

AI Runtime 管理：

Model Context Agent State

九、端侧AI会最先进入存力瓶颈

云端还能扩 GPU，但资源有限，如：

手机 机器人 AR眼镜 车机

未来最大的限制往往不是：

CPU不够

而是：

Memory不够

因此：

INT4 KV Compression Incremental Inference

会越来越重要。

十、AI产业正在进入State Scaling时代

AI 的发展路径正在变化：

第一阶段：

Compute Scaling

第二阶段：

Model Scaling

第三阶段：

State Scaling

未来决定系统上限的，越来越不是：

参数规模

而是：

状态规模

总结

过去十年，AI 行业追逐的是：

FLOPS

大家认为：

算力决定未来

但随着：

长上下文 Agent 持续推理 多智能体

不断出现，行业正在经历一次新的范式转移，未来真正决定 AI 上限的资源可能不再是：

Compute

而是：

Memory Bandwidth Runtime State

因为现代 AI 已经越来越不像：

一次性的计算程序

而越来越像：

持续运行的智能系统

当 AI 开始拥有：

长期记忆 复杂协作 自治执行

真正昂贵的事情就不再是：

计算一次答案

而是：

维持智能持续存在

所以 AI 的下一场战争，很可能不是：

谁拥有更多GPU

而是：

谁能够更高效地存储状态、管理状态、调度状态，并支撑一个长期运行的智能世界。

从这个角度看，AI 正在从：

Compute Scaling

走向：

State Scaling

而这，或许才是未来十年 AI 基础设施最重要的一场革命。

查看全文

http://www.jsqmd.com/news/965207/

简单的仓库管理系统

避开反向传播的‘坑’：Hinton论文里没明说，但新手必知的5个训练细节

2026年选粉机好用吗，三分离选粉机的优势有哪些？ - 工业品牌热点

2026年百度代理商品牌排名，山东热门口碑佳 - myqiye

2026年东莞有实力的项链直销厂家选择策略与重点推荐 - 2026年企业资讯

CSDN AI GEO内容格式不是可选项，是准入门槛：来自平台架构师的内部PPT节选（含4级格式校验流程图）

保姆级教程：用QGIS 3.28切好瓦片，再用CesiumJS 1.107一步调用成功

Java语言程序开发笔记

2026年百度代理商服务口碑排名，山东热门等公司上榜 - myqiye

Android风险环境检测 —— 签名校验

靠谱的耐辐射镜头厂家

2026年仿古面砖性价比排名，古瓦园林上榜 - 工业品牌热点

股票代码命名规则大揭秘：从000001平安银行到900957凌云B股，一文看懂A/B股、创业板、科创板代码规律

五无工程检测鉴定技术解析：自建房安全排查/钢结构安全检测/五无工程检测鉴定/屋顶光伏安全检测鉴定/工程质量检测鉴定/选择指南 - 优质品牌商家

西门子S7：西门子CPU模块、西门子PLC模块销售、西门子S71200模块、西门子S71500模块、西门子S7200模块选择指南 - 优质品牌商家

2026房屋抗震检测技术解析：房屋结构鉴定、承载力专项检测鉴定、抗震性专项检测鉴定、校舍安全鉴定、灾后房屋质量检测选择指南 - 优质品牌商家

避开ANSYS SOLID65钢筋定义的坑：从实常数R/RMORE到材料TB，完整配置流程详解

2026年Q2西门子集成控制柜可靠品牌排行盘点：西门子S71500模块、西门子S7200模块、西门子集成控制柜选择指南 - 优质品牌商家

从QDialog的默认行为说起：深入理解Qt模态对话框的设计哲学与最佳实践

从瓦格纳的“怪杰”性格，聊聊技术圈那些才华与争议并存的“大神”们

2026年国内消光比测试仪主流品牌实力排行：声光调制器/多模光衰减器/多通道光功率计/插回损测试仪/波长可调谐激光器/选择指南 - 优质品牌商家

智能饮食助手——开发方案设计

Python+pyecharts 制作 B 站同款世界人口动态排序柱状轮播图（1960-2024 完整版）

深圳张拉膜结构供应商如何选择 - mypinpai

2026年希沃一体机触控租赁好用吗，性价比排名分析 - 工业品牌热点

leetcode数据结构与算法1~4

Windows 11 LTSC一键安装微软商店：3分钟完成企业级系统功能扩展终极指南

2026年Q2建筑工程地基基础检测机构实测评测：建筑工程地基基础检测/房屋安全鉴定/房屋完损检测/房屋检测/房屋消防检测/选择指南 - 优质品牌商家

琉璃瓦费用多少？古瓦园林定价实在 - 工业品牌热点

保姆级教程：用MQTT.fx模拟硬件，5分钟搞定OneNET平台数据上报与命令下发