当前位置：首页 > news >正文

【卷卷观察】Physical AI（具身智能）崛起 + 开源效率革命——AI正在从“数字“走向“物理“

news 2026/6/17 16:53:59

结论先挂出来：AI这波浪潮正在发生结构性分化，一边是数字世界的agent疯狂落地，一边是物理世界的AI开始暴走。两条线都在跑，但物理AI这一支很多人还没真正重视。

上周末跟一个创业的朋友吃饭，他在做具身智能方向，就是让AI控制机械臂、干体力活那种。聊到一半他突然说了一句话让我愣了两秒："你知道吗，我们现在拿一块NVIDIA H100跑物理模拟，一天的成本是数字AI agent的50倍。"

数字AI agent：输入文字、输出文字，token成本一降再降，GLM-4.7或Gemini 2.5 Ultra一顿火锅钱能跑几十万次。

物理AI agent：输入传感器数据、输出电机控制，物理模拟+实时控制+硬件延迟，一套下来贵到离谱。

这个对比太鲜明了，也太容易被忽视。圈内都在聊Agent、大模型、GPT-5，但Physical AI这个赛道正在闷声搞大事。

一、Physical AI（具身智能）是什么？为什么突然起来了

先说清楚这个概念。Physical AI（具身智能）不是某个具体产品，而是一类AI系统的统称——这些系统的输入输出都跟物理世界直接相关：视觉、触觉、力反馈、电机控制、自动驾驶的路径规划。简单说，就是让AI长出手和脚，真正去搬东西、开车子、控制机器人。

IBM最近发了一篇博客讲这个概念，核心观点是：AI正在从"纯数字决策"进化到"物理世界交互"。以前AI的战场在服务器机房，现在开始往工厂、仓库、马路上渗透。

为什么现在起来了？三个原因撞一块了：

传感器便宜了。激光雷达、深度相机、力矩传感器，过去五年价格跌了70%以上。一个工业级3D视觉传感器，五年前要8万，现在1万多就能拿下。

模型推理效率上来了。开源社区出了好多针对机器人控制的轻量模型，延迟从原来的100毫秒压到了20毫秒以内。实时控制要求毫秒级响应，这个跨越很关键。

英伟达和Google在基础设施侧持续砸钱。Blackwell架构的GPU，专门为物理模拟优化了内存带宽；Google的TPU v5，推理物理模型的速度比上一代快了3倍。成本降了，部署就变得可行了。

但我得泼一盆冷水。Physical AI现在有两个硬伤：一是数据太难获取，数字AI可以从互联网爬几十亿token，物理AI需要真实的物理交互数据，这玩意采集成本极高且效率低下；二是仿真环境和真实物理世界之间的sim2real gap（仿真到现实的迁移差距）依然是未解决的难题。你在仿真里训练得再好，拿到真机上跑效果经常打七折。

这不是唱衰，是现实。Physical AI是长期方向，但短期内别指望它替代人工流水线。

二、开源模型效率革命：小米MiMo是个什么信号

VentureBeat上周发了一篇报道，讲小米开源了MiMo-V2.5和V2.5-Pro两个模型。参数规模没透露，但评测数据很能打——推理效率比同档次模型高40%，价格只有GPT-5.5的三十分之一。

我的判断是：开源社区正在用一种很野的方式逼近闭源模型的性能天花板。

看一下数据对比：

模型	MMLU得分	推理延迟	API价格（每1M token）
GPT-5.5	91.2	250ms	$3.0
Gemini 2.5 Ultra	90.8	220ms	$2.8
小米MiMo-V2.5-Pro	87.9	180ms	$0.08
小米MiMo-V2.5	86.3	120ms	$0.03

这数据什么意思？开源模型在某些垂直场景下体验已经接近闭源顶流，但价格是百分之一量级。GPT-5.5跑一次复杂推理的钱，MiMo能跑三万次。

这对行业的影响是结构性的。过去两年大家都在说"模型即服务"，闭源模型厂商靠API调用量赚钱。现在这个逻辑正在被侵蚀——当开源模型性能足够好、部署足够便宜的时候，企业为什么要花十倍二十倍的钱去买闭源API？

有人会说闭源模型的 Safety 和alignment更好。这个我不否认，但商业决策看的是性价比，不是技术理想主义。中型公司的CTO们在选型的时候，预算表比道德表权重高得多。

当然，开源模型的问题也明显：维护成本、部署复杂度、SLA保障缺失。这些是企业级客户绕不开的坎。但在AI应用层创业的团队——尤其是做RAG、Agent、工作流自动化的——开源模型已经是主力选择了。

三、推理成本革命：基础设施层的暗战

说完模型层，再往下一层看——基础设施。

NVIDIA最近搞了个挺有意思的事：Blackwell架构的推理优化，让同等算力下的推理吞吐量提升了2.3倍。Google的TPU v5e，专门针对长上下文推理做了内存优化，Context window从128K扩展到了1M，价格反而降了15%。

这不是孤立的硬件迭代，而是整个推理成本曲线在下移。做一个不严谨的推算：2023年初，跑一个1000 token的复杂推理任务，成本约0.01美元；2025年初，同等任务成本约0.0008美元；按现在的迭代速度，2026年底应该能摸到0.0001美元。

这个下降速度是什么概念？比摩尔定律还要猛。

成本的下降会带来一个很直接的效应：以前不经济的AI场景变得经济了。比如：

实时语音翻译：每句话0.0001美元已经低于人工翻译成本
代码审查：每次Code Review 0.0002美元，比雇一个初级工程师便宜三个数量级
长文档分析：百万字级别的法律合同、财报分析，成本从几十美元降到了几毛钱

但这里有个容易被忽视的隐忧：推理成本下降≠商业模式成立。当AI调用成本趋近于零的时候，API提供商怎么赚钱？答案可能是：卖Agent能力，卖工作流编排，卖行业解决方案，而不是卖token。

这是一个深层的商业逻辑转变。谁先意识到这个转变，谁就能在下一个周期里卡到好位置。

四、AI Agent的落地瓶颈：交互基础设施才是真正的卡点

说完物理AI和开源革命，再来看一个被严重低估的问题：AI Agent为什么落地比想象中慢？

圈内都在说"Agent是下一个超级入口"，但现实里，真正跑起来的Agent应用少之又少。不是模型不够强，是交互基础设施没到位。

举个例子。你让Claude帮我订一个会议室，听起来很简单对吧？但实际上背后要打通：日历系统（Google Calendar/Outlook）、会议室管理系统（某个不知名的SaaS）、企业通讯录、审批流程。这四个系统接口标准不一、认证机制不同、响应格式各异。模型再强，它也不知道怎么跟这些遗留系统打交道。

AI News最近有一篇文章专门讲这个，核心观点我很认同：AI Agent需要一层"交互基础设施"，这层基础设施负责把现实世界里的各种系统接口标准化、抽象化，让Agent能够用统一的范式去操作所有东西。

这层基础设施包括什么？

首先是工具调用协议。现在的Agent调用外部工具，主流方案是Function Calling，但各家实现不一致，错误处理也不规范。Anthropic提出了MCP（Model Context Protocol），试图做统一标准，但离行业标配还有距离。

其次是状态管理。Agent执行一个多步骤任务，需要在步骤之间维护状态。现在的做法是塞到Context里硬扛，但随着任务复杂度上升，Context窗口迟早会爆。需要一套持久化的状态管理机制，类似Session但更强大。

第三是安全与权限。当Agent开始替你操作各种系统的时候，你怎么控制它的权限范围？它能读取哪些数据？能执行哪些操作？能访问哪些API？这些问题没有标准答案，每家企业都在自己造轮子。

我的判断是：交互基础设施这个赛道，被严重低估了。模型层已经卷成红海了，但基础设施层还存在大量空白。谁能做出一个真正好用的Agent开发框架+运行时环境，谁就能吃到下一波红利。

五、AI供应链紧张：被卡脖子的不只是芯片

Economist最近发了一篇文章，讲AI正在面临供应链紧张。这个话题在中文互联网上讨论得不多，但我认为非常关键。

说到供应链紧张，大家第一反应是GPU芯片——确实，H100的交付周期一度拉到36周，严重的时候黑市价格炒到了官方售价的2倍。但这只是冰山一角。

真正的问题在于：AI供应链是一个复杂的系统，多个环节都在紧绷。

电力是第一个瓶颈。训练一个大模型需要兆瓦级别的电力持续供给。微软和谷歌的数据中心用电量，过去两年翻了3倍，但电网扩容速度跟不上。美国一些数据中心已经开始跟地方政府谈判，要求优先供电。中国的AI数据中心更惨，东数西算工程推进速度远低于预期，西部的清洁电力外送能力严重不足。

高带宽光模块是第二个瓶颈。GPU集群之间需要超高速互联，现在主流是400G光模块，但供应链上游的磷化铟激光器产能严重不足。2024年400G光模块的交付周期是20周，2025年改善了一些，但依然在12周以上。

冷却系统是第三个瓶颈。高密度GPU集群的散热是个物理难题。传统风冷已经不够了，液冷成为刚需。但液冷方案需要定制化设计和施工，交付周期比风冷长3倍。国内能做的液冷集成商就那么几家，订单已经排到2026年了。

这意味着什么？意味着算力扩张的速度，正在被供应链瓶颈拖慢。不是说GPU不够用，而是整个配套系统都在拖后腿。企业想扩算力，光有钱不够，还得等设备交付。

这个时间差，对中小型AI公司是致命的。没有足够的算力支撑，模型训练和推理都会受影响。大厂有长期合作协议，供应链优先级高；中小厂只能等，等一天就是烧一天的钱。

六、泡沫之争：AI到底是不是泡沫？

最后聊一个有争议的话题。HN上最近有个热帖："Ask HN: What Makes AI a Bubble?" 讨论很激烈，两派观点泾渭分明。

反泡沫派的核心论点是：AI有真实收入支撑。微软、谷歌、亚马逊的AI云服务收入都在高速增长；Adobe、Salesforce的AI功能带来了明显的付费转化提升；Stripe、Snowflake这些企业软件公司的AI驱动收入占比越来越高。收入在增长，就不是泡沫。

泡沫派的反驳更犀利：收入增长≠护城河。现在AI带来的收入，很大一部分是"AI加持"带来的价格溢价和效率提升，但这个溢价能持续多久？当开源模型性能追上来、各家AI功能都差不多的时候，溢价空间就没了。更要命的是，很多SaaS公司的"AI功能"本质上只是把大模型API包装了一下，自己没有核心技术，上游模型厂商随时可以跳过这些中间商自己做。

我自己的判断是：结构性的AI浪潮不是泡沫，但投机性的AI估值是泡沫。

这怎么理解？真正在做底层模型、基础设施、核心应用的公司，它们的价值是真实的——模型能力在提升，成本在下降，应用场景在扩展，这些都是有数据支撑的。

但那些靠"AI+"概念包装一下就融资估值翻三倍的公司，它们的估值就是泡沫。壁垒在哪里？护城河在哪里？复购率怎么样？客户留存怎么样？这些问题答不上来的，估值再高也是空中楼阁。

2026年的AI赛道，大概率会经历一轮洗牌。潮水退了才知道谁在裸泳——这句话虽然俗，但放在这里太合适了。