当前位置: 首页 > news >正文

AI的下一场战争:从算力到存力

子玥酱(掘金 / 知乎 / CSDN / 简书 同名)

大家好,我是子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案
在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向:前端 / 跨端 / 小程序 / 移动端工程化
内容平台:
掘金、知乎、CSDN、简书
创作特点:
实战导向、源码拆解、少空谈多落地
文章状态:
长期稳定更新,大量原创输出

我的内容主要围绕前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读展开。文章不会停留在“API 怎么用”,而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍,希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨
👋 如果你正在做前端,或准备长期走前端这条路
📚 关注我,第一时间获取前端行业趋势与实践总结
🎁 可领取11 类前端进阶学习资源(工程化 / 框架 / 跨端 / 面试 / 架构)
💡 一起把技术学“明白”,也用“到位”

持续写作,持续进阶。
愿我们都能在代码和生活里,走得更稳一点 🌱

文章目录

    • 引言
    • 一、为什么“算力崇拜”正在失效
    • 二、AI为什么越来越依赖“存力”
    • 三、Attention为什么会把存力问题彻底放大
    • 四、长上下文为什么会引爆存力危机
    • 五、Agent时代正在把存力推向核心位置
    • 六、多Agent系统会导致状态爆炸
    • 七、GPU为什么越来越像数据设备
    • 八、AI Runtime正在成为新的操作系统
    • 九、端侧AI会最先进入存力瓶颈
    • 十、AI产业正在进入State Scaling时代
    • 总结

引言

过去几年,AI 行业最核心的竞争关键词,一直都是:

算力(Compute)

从 GPT-3 到 GPT-4、从 Claude 到 Gemini、从 DeepSeek 到各种开源大模型。

整个行业几乎都围绕同一个目标展开竞争:

更多GPU 更大集群 更多FLOPS

甚至很多人默认认为:

AI 的未来,本质上就是一场无限扩张的算力竞赛。

于是过去几年里,我们看到:

参数规模越来越大 训练集群越来越大 GPU数量越来越多

行业最关心的问题始终是:

如何获得更多计算资源

因为在 Transformer 发展的早期阶段,最大的瓶颈确实来自:

Compute

但当大模型真正开始进入生产环境以后,一个新的问题开始出现。

越来越多团队发现:

GPU并没有算满

反而大量时间消耗在:

等待数据 等待内存 等待网络 等待状态同步

于是行业开始意识到:

现代 AI 最大的问题,已经不再只是“算不动”。

而是:

存不下 搬不动 同步不了

也就是说:

AI 正在从“算力时代”,进入“存力时代”。

这里的存力(Memory Power),并不仅仅意味着:

内存容量

而是:

Memory Bandwidth Cache State Runtime

未来 AI 的竞争,很可能不再是谁拥有最多 GPU。而是谁能够管理最庞大的状态系统。

一、为什么“算力崇拜”正在失效

过去几年有一个非常流行的观点:

算力就是 AI 的生产力。

这句话在过去是成立的,因为:

模型能力 ≈ 计算能力

模型越大,算力越强、效果越好。例如:

GPT-2 ↓ GPT-3 ↓ GPT-4

背后本质上都是:

Compute Scaling

但问题是:GPU 并不是无限快;更重要的是:GPU 不是孤立存在的。

它需要:

CPU供给数据 内存供给状态 网络供给同步

例如:

forbatchindataloader:output=model(batch)

很多人以为时间花在:

model(batch)

实际上在大型系统里:

DataLoader

往往才是真正的性能瓶颈,因为:

读取数据 传输数据 同步数据

开始占据越来越高的比例,于是现代 AI 系统越来越像:

GPU等待CPU CPU等待IO IO等待网络

形成一条长长的数据流水线。真正限制系统性能的,已经不再只是:

Compute Throughput

而是:

Data Throughput

二、AI为什么越来越依赖“存力”

传统软件和 AI 软件有一个本质区别。传统系统大多数属于:

请求 ↓ 处理 ↓ 结束

例如:

@app.route("/login")deflogin():return"success"

请求结束、状态释放、系统回到初始状态。但 AI 系统完全不同,现代 AI 需要长期维护:

上下文 记忆 推理历史 任务状态 工具调用记录

例如一个简单 Agent:

classAgent:def__init__(self):self.memory=[]defchat(self,msg):self.memory.append(msg)returnself.memory

随着时间推移:

Memory

会持续增长,现实系统里还会包含:

Vector Memory Task State Tool History Runtime Cache

于是系统真正复杂的问题变成:

状态怎么存? 状态怎么查? 状态怎么恢复?

此时:

计算

反而变成相对简单的问题,越来越多团队开始意识到:

AI 不再只是计算系统,而是状态系统。

三、Attention为什么会把存力问题彻底放大

Transformer 的成功来自:

Attention

Attention 的本质是:

不断读取历史状态

为了避免重复计算,现代模型会维护:

KV Cache

例如:

seq_len=32000hidden_size=4096layers=80bytes_per_value=2kv_cache_size=(seq_len*hidden_size*2*layers*bytes_per_value)print(kv_cache_size/1024/1024/1024)

结果接近:

40GB+

也就是说:

一个用户

就可能占据几十 GB 的状态空间,于是:

GPU越来越快

但:

KV Cache越来越大

最终系统进入状态:

Memory Bound

所以:

FlashAttention PagedAttention SparseAttention

本质上都在解决同一个问题:

如何降低状态管理成本。

四、长上下文为什么会引爆存力危机

未来 AI 想真正实现:

长期记忆 复杂推理 自治任务

就必须拥有:

超长上下文

问题在于,每增加一个 Token。系统都会新增:

KV Cache Attention State Runtime State

例如:

context=1000000state_size=8*1024memory=(context*state_size)print(memory/1024/1024/1024)

结果达到数 GB,于是很多长上下文模型真正卡住的原因不是:

算不动

而是:

存不下

因此:

Memory Compression Sparse Attention State Pruning

开始成为热门方向。

五、Agent时代正在把存力推向核心位置

LLM 解决的是:

生成

Agent 解决的是:

执行

但执行意味着:

状态持续存在

例如:

classAgentState:def__init__(self):self.tasks=[]self.memory=[]self.logs=[]

随着运行时间增长:

任务增加 记忆增加 日志增加

系统压力会越来越大,于是 Agent Runtime 最大的问题变成:

如何管理状态

而不是:

如何调用模型

六、多Agent系统会导致状态爆炸

未来最热门的方向之一:

Multi-Agent

但多个 Agent 意味着:

更多上下文 更多记忆 更多状态

例如:

agent_count=1000memory_per_agent=100print(agent_count*memory_per_agent)

结果:

100000 MB

即:

100GB+

而且还没计算:

同步 通信 共享记忆

因此:

Multi-Agent 的核心挑战其实是状态管理。

七、GPU为什么越来越像数据设备

过去 GPU 竞争的是:

TFLOPS

未来竞争的是:

HBM Bandwidth NVLink

因为:

数据搬运

正在成为系统最大成本,未来 GPU 架构会越来越偏向:

Memory-Centric

而非:

Compute-Centric

八、AI Runtime正在成为新的操作系统

未来 Runtime 需要管理:

任务 状态 缓存 Agent 资源

例如:

classRuntime:defschedule(self):passdefrecover(self):passdefallocate(self):pass

越来越像:

Operating System

区别只是,传统 OS 管理:

CPU Memory Process

AI Runtime 管理:

Model Context Agent State

九、端侧AI会最先进入存力瓶颈

云端还能扩 GPU,但资源有限,如:

手机 机器人 AR眼镜 车机

未来最大的限制往往不是:

CPU不够

而是:

Memory不够

因此:

INT4 KV Compression Incremental Inference

会越来越重要。

十、AI产业正在进入State Scaling时代

AI 的发展路径正在变化:

第一阶段:

Compute Scaling

第二阶段:

Model Scaling

第三阶段:

State Scaling

未来决定系统上限的,越来越不是:

参数规模

而是:

状态规模

总结

过去十年,AI 行业追逐的是:

FLOPS

大家认为:

算力决定未来

但随着:

长上下文 Agent 持续推理 多智能体

不断出现,行业正在经历一次新的范式转移,未来真正决定 AI 上限的资源可能不再是:

Compute

而是:

Memory Bandwidth Runtime State

因为现代 AI 已经越来越不像:

一次性的计算程序

而越来越像:

持续运行的智能系统

当 AI 开始拥有:

长期记忆 复杂协作 自治执行

真正昂贵的事情就不再是:

计算一次答案

而是:

维持智能持续存在

所以 AI 的下一场战争,很可能不是:

谁拥有更多GPU

而是:

谁能够更高效地存储状态、管理状态、调度状态,并支撑一个长期运行的智能世界。

从这个角度看,AI 正在从:

Compute Scaling

走向:

State Scaling

而这,或许才是未来十年 AI 基础设施最重要的一场革命。

http://www.jsqmd.com/news/965207/

相关文章:

  • 简单的仓库管理系统
  • 避开反向传播的‘坑’:Hinton论文里没明说,但新手必知的5个训练细节
  • 2026年选粉机好用吗,三分离选粉机的优势有哪些? - 工业品牌热点
  • 2026年百度代理商品牌排名,山东热门口碑佳 - myqiye
  • 2026年东莞有实力的项链直销厂家选择策略与重点推荐 - 2026年企业资讯
  • CSDN AI GEO内容格式不是可选项,是准入门槛:来自平台架构师的内部PPT节选(含4级格式校验流程图)
  • 保姆级教程:用QGIS 3.28切好瓦片,再用CesiumJS 1.107一步调用成功
  • Java语言程序开发笔记
  • 2026年百度代理商服务口碑排名,山东热门等公司上榜 - myqiye
  • Android风险环境检测 —— 签名校验
  • 靠谱的耐辐射镜头厂家
  • 2026年仿古面砖性价比排名,古瓦园林上榜 - 工业品牌热点
  • 股票代码命名规则大揭秘:从000001平安银行到900957凌云B股,一文看懂A/B股、创业板、科创板代码规律
  • 五无工程检测鉴定技术解析:自建房安全排查/钢结构安全检测/五无工程检测鉴定/屋顶光伏安全检测鉴定/工程质量检测鉴定/选择指南 - 优质品牌商家
  • 西门子S7:西门子CPU模块、西门子PLC模块销售、西门子S71200模块、西门子S71500模块、西门子S7200模块选择指南 - 优质品牌商家
  • 2026房屋抗震检测技术解析:房屋结构鉴定、承载力专项检测鉴定、抗震性专项检测鉴定、校舍安全鉴定、灾后房屋质量检测选择指南 - 优质品牌商家
  • 避开ANSYS SOLID65钢筋定义的坑:从实常数R/RMORE到材料TB,完整配置流程详解
  • 2026年Q2西门子集成控制柜可靠品牌排行盘点:西门子S71500模块、西门子S7200模块、西门子集成控制柜选择指南 - 优质品牌商家
  • 从QDialog的默认行为说起:深入理解Qt模态对话框的设计哲学与最佳实践
  • 从瓦格纳的“怪杰”性格,聊聊技术圈那些才华与争议并存的“大神”们
  • 2026年国内消光比测试仪主流品牌实力排行:声光调制器/多模光衰减器/多通道光功率计/插回损测试仪/波长可调谐激光器/选择指南 - 优质品牌商家
  • 智能饮食助手——开发方案设计
  • Python+pyecharts 制作 B 站同款世界人口动态排序柱状轮播图(1960-2024 完整版)
  • 深圳张拉膜结构供应商如何选择 - mypinpai
  • 2026年希沃一体机触控租赁好用吗,性价比排名分析 - 工业品牌热点
  • leetcode数据结构与算法1~4
  • Windows 11 LTSC一键安装微软商店:3分钟完成企业级系统功能扩展终极指南
  • 2026年Q2建筑工程地基基础检测机构实测评测:建筑工程地基基础检测/房屋安全鉴定/房屋完损检测/房屋检测/房屋消防检测/选择指南 - 优质品牌商家
  • 琉璃瓦费用多少?古瓦园林定价实在 - 工业品牌热点
  • 保姆级教程:用MQTT.fx模拟硬件,5分钟搞定OneNET平台数据上报与命令下发