当前位置: 首页 > news >正文

【卷卷观察】Physical AI(具身智能)崛起 + 开源效率革命——AI正在从“数字“走向“物理“

结论先挂出来:AI这波浪潮正在发生结构性分化,一边是数字世界的agent疯狂落地,一边是物理世界的AI开始暴走。两条线都在跑,但物理AI这一支很多人还没真正重视。


上周末跟一个创业的朋友吃饭,他在做具身智能方向,就是让AI控制机械臂、干体力活那种。聊到一半他突然说了一句话让我愣了两秒:"你知道吗,我们现在拿一块NVIDIA H100跑物理模拟,一天的成本是数字AI agent的50倍。"

数字AI agent:输入文字、输出文字,token成本一降再降,GLM-4.7或Gemini 2.5 Ultra一顿火锅钱能跑几十万次。

物理AI agent:输入传感器数据、输出电机控制,物理模拟+实时控制+硬件延迟,一套下来贵到离谱。

这个对比太鲜明了,也太容易被忽视。圈内都在聊Agent、大模型、GPT-5,但Physical AI这个赛道正在闷声搞大事。


一、Physical AI(具身智能)是什么?为什么突然起来了

先说清楚这个概念。Physical AI(具身智能)不是某个具体产品,而是一类AI系统的统称——这些系统的输入输出都跟物理世界直接相关:视觉、触觉、力反馈、电机控制、自动驾驶的路径规划。简单说,就是让AI长出手和脚,真正去搬东西、开车子、控制机器人。

IBM最近发了一篇博客讲这个概念,核心观点是:AI正在从"纯数字决策"进化到"物理世界交互"。以前AI的战场在服务器机房,现在开始往工厂、仓库、马路上渗透。

为什么现在起来了?三个原因撞一块了:

传感器便宜了。激光雷达、深度相机、力矩传感器,过去五年价格跌了70%以上。一个工业级3D视觉传感器,五年前要8万,现在1万多就能拿下。

模型推理效率上来了。开源社区出了好多针对机器人控制的轻量模型,延迟从原来的100毫秒压到了20毫秒以内。实时控制要求毫秒级响应,这个跨越很关键。

英伟达和Google在基础设施侧持续砸钱。Blackwell架构的GPU,专门为物理模拟优化了内存带宽;Google的TPU v5,推理物理模型的速度比上一代快了3倍。成本降了,部署就变得可行了。

但我得泼一盆冷水。Physical AI现在有两个硬伤:一是数据太难获取,数字AI可以从互联网爬几十亿token,物理AI需要真实的物理交互数据,这玩意采集成本极高且效率低下;二是仿真环境和真实物理世界之间的sim2real gap(仿真到现实的迁移差距)依然是未解决的难题。你在仿真里训练得再好,拿到真机上跑效果经常打七折。

这不是唱衰,是现实。Physical AI是长期方向,但短期内别指望它替代人工流水线。


二、开源模型效率革命:小米MiMo是个什么信号

VentureBeat上周发了一篇报道,讲小米开源了MiMo-V2.5和V2.5-Pro两个模型。参数规模没透露,但评测数据很能打——推理效率比同档次模型高40%,价格只有GPT-5.5的三十分之一。

我的判断是:开源社区正在用一种很野的方式逼近闭源模型的性能天花板。

看一下数据对比:

模型

MMLU得分

推理延迟

API价格(每1M token)

GPT-5.5

91.2

250ms

$3.0

Gemini 2.5 Ultra

90.8

220ms

$2.8

小米MiMo-V2.5-Pro

87.9

180ms

$0.08

小米MiMo-V2.5

86.3

120ms

$0.03

这数据什么意思?开源模型在某些垂直场景下体验已经接近闭源顶流,但价格是百分之一量级。GPT-5.5跑一次复杂推理的钱,MiMo能跑三万次。

这对行业的影响是结构性的。过去两年大家都在说"模型即服务",闭源模型厂商靠API调用量赚钱。现在这个逻辑正在被侵蚀——当开源模型性能足够好、部署足够便宜的时候,企业为什么要花十倍二十倍的钱去买闭源API?

有人会说闭源模型的 Safety 和alignment更好。这个我不否认,但商业决策看的是性价比,不是技术理想主义。中型公司的CTO们在选型的时候,预算表比道德表权重高得多。

当然,开源模型的问题也明显:维护成本、部署复杂度、SLA保障缺失。这些是企业级客户绕不开的坎。但在AI应用层创业的团队——尤其是做RAG、Agent、工作流自动化的——开源模型已经是主力选择了。


三、推理成本革命:基础设施层的暗战

说完模型层,再往下一层看——基础设施。

NVIDIA最近搞了个挺有意思的事:Blackwell架构的推理优化,让同等算力下的推理吞吐量提升了2.3倍。Google的TPU v5e,专门针对长上下文推理做了内存优化,Context window从128K扩展到了1M,价格反而降了15%。

这不是孤立的硬件迭代,而是整个推理成本曲线在下移。做一个不严谨的推算:2023年初,跑一个1000 token的复杂推理任务,成本约0.01美元;2025年初,同等任务成本约0.0008美元;按现在的迭代速度,2026年底应该能摸到0.0001美元。

这个下降速度是什么概念?比摩尔定律还要猛。

成本的下降会带来一个很直接的效应:以前不经济的AI场景变得经济了。比如:

  • 实时语音翻译:每句话0.0001美元已经低于人工翻译成本
  • 代码审查:每次Code Review 0.0002美元,比雇一个初级工程师便宜三个数量级
  • 长文档分析:百万字级别的法律合同、财报分析,成本从几十美元降到了几毛钱

但这里有个容易被忽视的隐忧:推理成本下降≠商业模式成立。当AI调用成本趋近于零的时候,API提供商怎么赚钱?答案可能是:卖Agent能力,卖工作流编排,卖行业解决方案,而不是卖token。

这是一个深层的商业逻辑转变。谁先意识到这个转变,谁就能在下一个周期里卡到好位置。


四、AI Agent的落地瓶颈:交互基础设施才是真正的卡点

说完物理AI和开源革命,再来看一个被严重低估的问题:AI Agent为什么落地比想象中慢?

圈内都在说"Agent是下一个超级入口",但现实里,真正跑起来的Agent应用少之又少。不是模型不够强,是交互基础设施没到位

举个例子。你让Claude帮我订一个会议室,听起来很简单对吧?但实际上背后要打通:日历系统(Google Calendar/Outlook)、会议室管理系统(某个不知名的SaaS)、企业通讯录、审批流程。这四个系统接口标准不一、认证机制不同、响应格式各异。模型再强,它也不知道怎么跟这些遗留系统打交道。

AI News最近有一篇文章专门讲这个,核心观点我很认同:AI Agent需要一层"交互基础设施",这层基础设施负责把现实世界里的各种系统接口标准化、抽象化,让Agent能够用统一的范式去操作所有东西。

这层基础设施包括什么?

首先是工具调用协议。现在的Agent调用外部工具,主流方案是Function Calling,但各家实现不一致,错误处理也不规范。Anthropic提出了MCP(Model Context Protocol),试图做统一标准,但离行业标配还有距离。

其次是状态管理。Agent执行一个多步骤任务,需要在步骤之间维护状态。现在的做法是塞到Context里硬扛,但随着任务复杂度上升,Context窗口迟早会爆。需要一套持久化的状态管理机制,类似Session但更强大。

第三是安全与权限。当Agent开始替你操作各种系统的时候,你怎么控制它的权限范围?它能读取哪些数据?能执行哪些操作?能访问哪些API?这些问题没有标准答案,每家企业都在自己造轮子。

我的判断是:交互基础设施这个赛道,被严重低估了。模型层已经卷成红海了,但基础设施层还存在大量空白。谁能做出一个真正好用的Agent开发框架+运行时环境,谁就能吃到下一波红利。


五、AI供应链紧张:被卡脖子的不只是芯片

Economist最近发了一篇文章,讲AI正在面临供应链紧张。这个话题在中文互联网上讨论得不多,但我认为非常关键。

说到供应链紧张,大家第一反应是GPU芯片——确实,H100的交付周期一度拉到36周,严重的时候黑市价格炒到了官方售价的2倍。但这只是冰山一角。

真正的问题在于:AI供应链是一个复杂的系统,多个环节都在紧绷。

电力是第一个瓶颈。训练一个大模型需要兆瓦级别的电力持续供给。微软和谷歌的数据中心用电量,过去两年翻了3倍,但电网扩容速度跟不上。美国一些数据中心已经开始跟地方政府谈判,要求优先供电。中国的AI数据中心更惨,东数西算工程推进速度远低于预期,西部的清洁电力外送能力严重不足。

高带宽光模块是第二个瓶颈。GPU集群之间需要超高速互联,现在主流是400G光模块,但供应链上游的磷化铟激光器产能严重不足。2024年400G光模块的交付周期是20周,2025年改善了一些,但依然在12周以上。

冷却系统是第三个瓶颈。高密度GPU集群的散热是个物理难题。传统风冷已经不够了,液冷成为刚需。但液冷方案需要定制化设计和施工,交付周期比风冷长3倍。国内能做的液冷集成商就那么几家,订单已经排到2026年了。

这意味着什么?意味着算力扩张的速度,正在被供应链瓶颈拖慢。不是说GPU不够用,而是整个配套系统都在拖后腿。企业想扩算力,光有钱不够,还得等设备交付。

这个时间差,对中小型AI公司是致命的。没有足够的算力支撑,模型训练和推理都会受影响。大厂有长期合作协议,供应链优先级高;中小厂只能等,等一天就是烧一天的钱。


六、泡沫之争:AI到底是不是泡沫?

最后聊一个有争议的话题。HN上最近有个热帖:"Ask HN: What Makes AI a Bubble?" 讨论很激烈,两派观点泾渭分明。

反泡沫派的核心论点是:AI有真实收入支撑。微软、谷歌、亚马逊的AI云服务收入都在高速增长;Adobe、Salesforce的AI功能带来了明显的付费转化提升;Stripe、Snowflake这些企业软件公司的AI驱动收入占比越来越高。收入在增长,就不是泡沫。

泡沫派的反驳更犀利:收入增长≠护城河。现在AI带来的收入,很大一部分是"AI加持"带来的价格溢价和效率提升,但这个溢价能持续多久?当开源模型性能追上来、各家AI功能都差不多的时候,溢价空间就没了。更要命的是,很多SaaS公司的"AI功能"本质上只是把大模型API包装了一下,自己没有核心技术,上游模型厂商随时可以跳过这些中间商自己做。

我自己的判断是:结构性的AI浪潮不是泡沫,但投机性的AI估值是泡沫。

这怎么理解?真正在做底层模型、基础设施、核心应用的公司,它们的价值是真实的——模型能力在提升,成本在下降,应用场景在扩展,这些都是有数据支撑的。

但那些靠"AI+"概念包装一下就融资估值翻三倍的公司,它们的估值就是泡沫。壁垒在哪里?护城河在哪里?复购率怎么样?客户留存怎么样?这些问题答不上来的,估值再高也是空中楼阁。

2026年的AI赛道,大概率会经历一轮洗牌。潮水退了才知道谁在裸泳——这句话虽然俗,但放在这里太合适了。


写在最后:我的判断和建议

说了这么多,最后给一个明确的结论。

对AI从业者:

Physical AI是下一个增长点,但别all in。数字AI agent的落地路径更清晰,商业模式更成熟,先在这个方向上建立现金流。Physical AI可以作为技术储备,但商业化时间线要放长。

开源模型已经具备生产可用性,不要盲目追闭源顶流。在应用层创业,开源+微调是性价比最高的选择。省下来的API成本,可以投到数据标注和用户体验上。

交互基础设施是下一个兵家必争之地。如果你在做Agent开发框架或者运行时环境,现在是最好的入场时机——这个赛道还没被大厂完全占领。

对投资人和决策者:

AI供应链的瓶颈是真实的,在评估算力扩张计划的时候,要把设备交付周期考虑进去。不要高估自己的算力获取能力,也不要低估供应链紧张持续的时间。

泡沫分两种:一种是该死的泡沫,一种是成长的烦恼。AI这波浪潮,我倾向于认为是后者。技术进步是真实的,成本下降是真实的,场景渗透是真实的——短期估值可能有泡沫,但长期价值会均值回归。


本文涉及数据截至2026年4月,部分市场动态信息由公开报道整理,观点代表作者个人判断,仅供参考。

http://www.jsqmd.com/news/714116/

相关文章:

  • TVA在汽车动力电池模组全流程检测中的应用(2)
  • OpCore Simplify:智能黑苹果配置革命,让复杂EFI创建变得简单高效
  • ComfyUI Impact Pack实战指南:5个高效图像增强技巧解决AI绘图痛点
  • 别再只调alpha了!深入理解Pinecone混合搜索中BM25与Dense Embeddings的权重博弈
  • 别再死记硬背了!用KV-Cache和GQA手把手教你优化LLaMA推理速度(附PyTorch代码)
  • 2026年河北抗震支架与成品支吊架行业深度横评:从邯郸源头厂家看装配式革新 - 优质企业观察收录
  • 分支循环讲解
  • 保姆级教程:在Ubuntu 22.04上为RTX 4090工作站配置AI开发环境(含CUDA 11.8、cuDNN 8.9.6避坑指南)
  • AUTOSAR BMS开发避坑指南:从PRD到硬件选型,如何避免需求规格书里的那些‘坑’?
  • Python的__subclasshook__方法:抽象基类的动态子类检查
  • 构建企业级高可用HR系统:Sentrifugo开源HRMS的生产环境部署指南
  • 企业级定制化项目自动化测试框架
  • 2026年银川高端系统门窗选购指南:派雅门窗与行业主流品牌深度横评 - 精选优质企业推荐官
  • Java 25密封类模式实战:20年老炮儿压箱底的「密封域建模七律」,仅限首批200名开发者获取的架构审查Checklist
  • 极空间NAS开启SSH:解锁底层权限,从存储盒变成全能私有服务器
  • OpCore Simplify完整指南:如何3小时搞定黑苹果EFI配置
  • 学Simulink——基于Simulink的ZVS/ZCS软开关无线充电逆变器控制
  • 单词的音节划分规则,一个音节包含几种形式
  • 2026年目前雷达塔源头厂家,雷达塔/雷达塔信号塔/雷达塔监测塔,雷达塔实力厂家口碑推荐 - 品牌推荐师
  • 智能吹扫装置:工业清洁的未来解决方案
  • 如何5分钟快速搭建微信机器人:WechatBot完整入门教程
  • xdotool终极指南:Linux桌面自动化的完整解决方案
  • Cursor Pro破解工具完整指南:三步激活方案实现永久免费使用
  • 从周杰伦到久石让:拆解流行与影视配乐中,大三和弦与小三和弦的‘情绪开关’实战用法
  • STC/STM32单片机做R2R DAC?小心这个‘隐形杀手’让你的精度大打折扣
  • 50万节点Abaqus模型如何导入Unity?我用Python解析INP文件重构了数字孪生体
  • 3分钟精通Linux键盘音效软件Keysound:让你的打字变成钢琴演奏
  • ChanlunX缠论插件:通达信上的专业缠论分析终极指南
  • NVIDIA Profile Inspector终极教程:解锁显卡隐藏性能的完整指南
  • 九三架构及具体应用案例