当前位置: 首页 > news >正文

深度解读物理AI:人工智能的下一个主战场!

2026年5月14日,美国Figure AI做了一场全程无剪辑直播——Figure 03人形机器人连续工作33小时,分拣了超过4万件快递包裹。零人工干预,完全自主跑完整个轮班。

每秒处理0.37件,效率是人工的1.8倍,不规则包裹识别率99.7%。它自己换了电池,自己做了诊断,不需要人盯着。

这不只是机器替人的新闻。

这是人工智能正式从"说话"走向"动手"的标志性事件——整个行业正在发生一次根本性的范式迁移:从语言智能,到物理智能。

这个新范式,有一个名字:物理AI(Physical AI)。


01
什么是物理AI?

物理AI是让人工智能从"屏幕里说话"到"在真实世界里干活"的跨越。

现在的AI——ChatGPT、DeepSeek、豆包——本质上都是在处理信息。它们能写文章、能做分析、能对话,核心能力是对文本和图像的统计学习。你给它们一个指令,它们返回一个答案,仅此而已。

但当你把同样一个问题交给一台机器人——"把地上那个蓝色的箱子捡起来放到传送带上"——AI大模型就抓瞎了。因为它需要理解物理世界的运作规律:物体有多重?地面摩擦力多大?手臂该用多大的力?这些信息,文本里没有。

物理AI解决的就是这个问题。

它的核心,是在真实物理环境中构建一个完整的闭环:感知→决策→验证→执行→反馈。

机器人在真实环境里看(感知),然后思考该怎么办(决策),在动手之前先用模拟器验证一遍(验证),然后真正执行动作(执行),最后把结果反馈回来优化下一轮决策(反馈)。整个过程,像人一样——不是靠背程序,而是靠真正理解物理世界。

这就是物理AI和语言AI的根本区别:语言AI改变的是信息流动的方式,物理AI改变的是人与真实世界互动的方式。


02
核心技术:让AI长出"物理直觉"

物理AI能走到今天,靠的是三个核心技术突破。

第一代际:VLA——让机器人长出"眼睛和手"

VLA(Vision-Language-Action)模型,是物理AI的第一块基石。它的逻辑很直接:给机器人装上眼睛(Vision)看环境,装上大脑(Language)理解指令,装上手和脚(Action)执行动作——三个模块统一建模,端到端训练。

这意味着,机器人不需要被写好每一步的程序,你告诉它"把那个蓝色的零件放到传送带上",它自己能理解、能规划、能执行。

2023年,VLA路线开始成熟。加州大学伯克利分校的π0模型是这个方向最早的代表作。中国也有公司同期开始自研VLA,比行业巨头更早切入,而且用更小的模型规模,实现了接近的性能表现。

但第一代VLA有一个根本局限:它只能处理"当下",不能预测"未来"。

你告诉机器人"把快递分拣",它能执行。但你问它"如果这个包裹变形了怎么办",它就不知道了。它缺乏对物理世界未来状态的理解能力。

第二代际:世界模型——让AI拥有"想象力"

这就是世界模型(World Model)出现的意义。世界模型相当于给机器人装上了一个"物理模拟器"——它不只是看到当前环境,还能预测环境接下来会怎么变化。

举个例子:你把一个篮球抛向空中,没学过物理的人只知道球会落下来。学过物理的人能写出运动方程。而拥有世界模型的AI,它在内部构建了一个完整的物理模拟器——它知道重力是9.8米/秒²,知道空气阻力会随速度变化,知道球的旋转会影响轨迹,并且能在行动之前,先在模拟器里推演一遍"我这样抛,球会落到哪里"。

这就是世界模型的核心价值:从"反应式执行"变成"预测式行动"。

谷歌的Genie系列模型是这个方向的代表。英伟达发布了Cosmos平台,专门为机器人和自动驾驶生成高保真的合成数据——因为真实世界的物理数据太稀缺了,而世界模型可以在虚拟环境里大规模生成训练数据。

但第二代也有问题:世界模型和VLA是分开的两个模块,世界模型负责预测,VLA负责执行。模块之间的信息传递存在延迟和损耗——就像人的大脑和手之间,信号传递慢了半拍。

第三代际:融合——让预测和行动长在一起

2026年,真正决定性的突破出现了:世界模型和VLA开始深度融合,不是拼接,是长在一起。智平方发布的Video2Act,是这个方向的代表技术。它把世界模型直接嵌入VLA内部——模型在生成动作的同时,就能结合对未来状态的隐式推演做出决策。

简单说:机器人在"想"怎么行动的同时,已经在"预演"这个动作执行后的结果,并且同步调整策略。整个过程是端到端的,信息没有任何损耗。

这不是简单的技术升级。这是物理AI的"感知-预测-执行"一体化,是从"能用"到"好用"的临界跨越。


03

2026年为什么是关键转折年?

三个信号,说明物理AI的拐点已经来了。

信号一:真实场景的规模化验证

Figure 03的33小时直播,只是冰山一角。智平方的AlphaBot系列机器人,已经在真实生产力场景中规模化部署——核心部件无故障运行时间达到2万到5万小时,惠科1000台订单被摩根士丹利认定为"全球生产力型机器人最大的单一订单"。

当机器人在真实工厂里跑起来,并且能稳定地跑几千上万小时不出故障——这就是物理AI从"Demo"走向"产品"的标志。

更有意思的是:人类还没完全输。

5月17日,Figure AI又做了一场直播——1名人类实习生 VS 机器人团队,10小时分拣包裹对决。结果人类分拣12924个,机器人分拣12732个,人类以192个的微弱优势赢了。

但Figure AI创始人说了一句话:"这将是人类最后一次赢得比赛。"

这场人机对决的意义不在于谁赢谁输,而在于:机器人已经能和人类同台竞技了。下一次,当机器人的效率再提升20%、30%——胜负的天平,就会彻底倾斜。

信号二:技术路线收敛,基础设施成熟

2026年,VLA+世界模型融合成为行业主流方向。 英伟达Cosmos平台、谷歌Genie系列、阿里达摩院RynnBrain、蚂蚁灵波LingBot系列——全球科技巨头和中国的头部企业,都在往同一个方向使劲:让AI拥有对物理世界的理解、预测和操控能力。

沙利文数据显示,物理AI仿真及数据平台市场年复合增长率33.49%,2034年规模将突破685亿美元。 这不是小打小闹,这是一个正在快速形成的基础设施生态。

信号三:具身智能——人形机器人是物理AI的"终极载体"

物理AI的进化,和人形机器人的量产,形成了相互加速的正循环。

宇树科技出货5500台,Figure拿到宝马5000台订单,特斯拉Optimus在弗里蒙特工厂进行小批量测试——人形机器人从"炫技"走向"变现"。而人形机器人的规模化,又给物理AI提供了最丰富的真实训练场景。

Figure 03那场33小时的直播,背后是Helix 02系统——其中System 0用超过1000小时的人类运动数据训练,直接替代了109504行手工C++代码,实现真正的端到端"感知-行动"控制。

机器人在工厂里干活,干得越多,数据越多,AI越聪明,机器人越能干。这是一个正向飞轮。


04两种路线:谁才是物理AI的终态?

全球物理AI的竞争,目前形成了两条清晰的路。

美国路线:全栈定义,技术制高点。英伟达从芯片到Cosmos平台到自动驾驶,一整套技术栈全在自己手里。Figure AI专注具身智能,用Helix系统证明端到端融合的可行性。谷歌的Genie系列、世界模型和机器人控制全链路布局。

美国的逻辑是:我定义标准,我来搭平台,我来定规则。

中国路线:场景牵引,工程化落地。中国没有美国那样的芯片优势,但有全球最丰富的制造业场景、最完整的产业链、最活跃的机器人应用市场。宇树科技用5500台出货量证明规模化制造能力;优必选Walker S进了比亚迪、吉利、蔚来总装线;智平方的Video2Act在同类产品中表现领先。

中国的逻辑是:我先跑通场景,我先做到能用好用,再慢慢往上游走。

两条路线的底层驱动力不同,但目标一致:让AI真正进入物理世界,成为改变生产方式的力量。

如果把物理AI的产业化进程切开,它正在经历三个阶段。

第一阶段(2024-2026):技术验证与单点落地。Figure 03的33小时直播、智平方惠科千台订单、Figure宝马5000台合同——这些是本阶段的标志性事件。核心任务是"证明机器人能在真实场景里稳定干活"。

第二阶段(2027-2030):工厂规模化与成本杀手入场。成本需要从目前的20-50万人民币降到10万以内,才能触发制造业的大规模替代。一旦越过成本临界点,人形机器人在制造业的渗透速度,可能比当年新能源汽车还快。

第三阶段(2030+):走出工厂,走进物理世界的每一个角落。建筑业、农业、物流、医疗——任何一个需要"动手"的场景,都是物理AI的战场。长期市场规模预测是每年200万台出货,3万亿美元以上。


05 结语

2026年,物理AI的关键转折年。这不是人工智能发展的线性延伸,而是从"思考"到"行动"的根本性跨越。

Figure 03那场33小时的直播,分拣了4万件包裹,效率是人工的1.8倍——这只是开始。当这个效率变成5倍、10倍,当成本降到10万以内,当机器人在工厂里24小时不间断地跑——

物理AI改变的,不只是工厂里的流水线,而是整个社会生产的基础逻辑。

理解它,现在正是时候。

*部分图源网络,侵联删

走进具身智能真实场景,看懂物理AI的底层逻辑

走进宇树:看懂"开放生态"的组织逻辑

宇树的核心能力不是某一项技术,而是一套"快速迭代+低成本制造"的组织能力。它能把G1的价格压到亚$20,000,靠的不是偷工减料,是研发、生产、供应链的一体化效率。这种能力,源于宇树在四足机器人领域多年积累的制造经验。

走进优必选:看懂"场景定制"的组织逻辑

优必选不自己建最牛的机器人,它建的是"能稳定跑起来的机器人"。这背后需要的组织能力,是深入理解制造业场景、与客户深度共创、快速响应的定制能力。

http://www.jsqmd.com/news/852444/

相关文章:

  • 5分钟解锁音乐格式壁垒:Unlock Music开源工具深度解析与实践指南
  • 南京厌学心理咨询机构助力青少年重拾学习动力 - 品牌排行榜
  • 红米K70 Pro Root后能干嘛?分享几个Delta面具模块让你的澎湃OS更好用
  • 2026永城市本地人必选的瓷砖空鼓专业维修公司TOP5推荐!卫生间空鼓翘边,厨房空鼓翘边,客厅空鼓翘边,全天响应,免费上门,5月专业瓷砖空鼓修复公司持证上岗师傅排名最新深度调研方案) - 一休修缮
  • 2026闭眼入!5款AI论文平台亲测,专治选择困难,初稿框架5分钟搭好!
  • 学习GEO需要多长时间才能上手?
  • 园林养护企业如何做线上推广获客?2026全网获客指南与服务商盘点 - 优质企业观察收录
  • 前端开发入门到精通:从零搭建属于自己的网页世界
  • 2026年5月绵阳酒店排行榜TOP5出炉!品奢电竞酒店凭硬核实力稳居榜首 - damaigeo
  • Perplexity读书笔记生成突然失效?紧急排查清单:4类账户权限陷阱、3种PDF元数据兼容问题、2个版本迭代断点
  • 如何用SillyTavern创建你的第一个AI角色:3步掌握角色卡片魔法
  • 别再盲目信任Perplexity!一线研究员实测127条热点谣言,仅41%提供可验证信源(附核查清单)
  • OBS智能面部追踪插件:3分钟实现直播自动对焦的终极指南
  • 告别PS!用Python和Zero DCE++,5分钟搞定手机拍的夜景照片(附完整代码)
  • SMT产线工程师必看:用TSK-32应力测试仪,照着IPC-9704标准搞定PCB分板应力监控
  • 对比按需计费与套餐taotoken token plan在长期项目中的成本优势分析
  • DeepSeek模型下载安装到底要不要用Ollama?实测对比Docker容器化/conda裸机/llama.cpp量化三路径:延迟、显存、首token耗时全维度压测报告
  • 保姆级教程:用SigmaStudio+USBi搞定ADI A2B主从节点配置(AD2428WD/WB-EVB实测)
  • 终极免费方案:3分钟让GIMP拥有Photoshop专业界面
  • 【bug已解决】qt语言切换时部分界面没有实时更新翻译
  • asyncio 简单demo
  • 哪家GEO学习平台或工具最实用?
  • Linux下多同型设备硬件通道固定:基于udev的稳定通信解决方案
  • 2026 年广东广州汽车维修保养及车衣改色五大公司排名及解析 - 十大品牌榜
  • Cadence Virtuoso计算器函数面板:从仿真波形到关键指标,手把手教你提取运放GBW和相位裕度
  • Cursor试用限制突破:3步解决设备识别限制的技术指南
  • DeepSeek + AWS Bedrock混合推理架构首曝:如何用Custom Model Gateway绕过区域限制,实现全球低延迟响应(含Terraform代码包)
  • 亲测:2026年5月真力时官方售后服务中心深度评测与第三方佐证报告(含迁址新开) - 亨得利官方服务中心
  • 如何高效使用FlashDB:嵌入式开发者的完整实战指南
  • 别再硬编码client_secret了!DeepSeek OAuth 安全集成的4层防护体系(含FIPS 140-2认证实践)