当前位置：首页 > news >正文

自变量发布新一代机器人进家庭计划，WALL - B 架构革命开启机器人服务家庭新征程

news 2026/7/14 23:40:31

【自变量发布新一代机器人进家庭计划】

4月21日自变量机器人举行发布会，推出新一代机器人进家庭计划。一个月后的机器人，将搭载新一代自研具身智能基础模型WALL - B 。这是全球首个基于世界统一模型架构（World Unified Model，WUM）的具身智能基础模型，标志着具身基础模型从VLA架构向原生多模态融合架构的重大跨越。

【WALL - B技术解读与家庭入驻计划】

自变量创始人兼CEO王潜、联合创始人兼CTO王昊全面解读了WALL - B的技术架构、数据策略和训练机制等，并宣布35天后搭载WALL - B的新一代机器人将首批入驻真实家庭，开启机器人服务家庭生活的成长之旅。

【家庭场景：具身智能的“考场”】

家庭场景是具身智能真正的“考场”。王潜以“早上七点，闹钟响了。你从床上爬起来，走到客厅。拖鞋不知踢到哪里，厨房的碗还没洗，孩子的书包扔在地上，猫打翻了一杯水”这一日常描述开场，直观揭示了家庭环境的本质——随机、碎片、不断变化。目前全球没有任何一台机器人可以在无遥控操作的情况下独立完成上述场景中的综合整理任务，这与公众的普遍认知形成反差。舞台上的后空翻、跳街舞、写毛笔字等机器人演示虽视觉冲击力强，但本质是预设轨迹的“命令行机器人”，每一个动作都经过预先编程或遥控操作。工厂中已部署的工业机器人也不构成可比案例，工厂环境下一个动作可重复一万次且每次条件相同，而家庭中一万个动作每个可能只做一次，每次环境条件都不同。当前机器人的核心瓶颈不在本体，而在智能，家庭环境中的随机性和碎片化是现有技术无法处理的，机器人进入家庭被视为“这个时代最难的技术问题之一”。

【从WALL - A到WALL - B：VLA架构的局限与突破】

自变量机器人从成立之初便聚焦于为机器人构建“大脑”，即端到端的具身智能基础模型。2024年底，公司发布基于VLA（视觉 - 语言 - 动作）架构的第一代具身基础模型WALL - A，25年9月，将同样思路架构下的轻量化模型版本WALL - OSS开源。自变量与58同城合作，将搭载WALL - AS模型的机器人送入真实家庭，与保洁阿姨协同作业，实现全球首次机器人进入家庭，并服务人类复杂的家居生活，这也是首次机器人在C端复杂环境的大规模落地。正是这些真实家庭的部署，让团队看到了VLA架构的“天花板” 。王昊解释道，VLA架构本质上是三个独立模块的拼接，数据在模块之间逐级传递会发生信息损耗和延迟，且VLA模型只能模仿训练数据中的轨迹，无法真正理解物理世界的规律。WALL - B是对这一困局的回应，它是一次从底层架构到训练范式的全面重写。

【世界统一模型（WUM）：从“VLA”到“统一整体”】

WALL - B真正区别于行业其他方案的核心，是其从VLA到WUM的架构革命。该架构的设计思路类似于Apple Silicon的统一内存架构，在苹果M1芯片之前的Mac上，CPU 、GPU 、内存各自独立，数据搬运产生的延迟和损耗成为性能瓶颈，苹果通过统一内存架构让所有处理单元共享同一块内存，性能大幅提升。在机器人领域，VLA就类似于M1之前的笔记本电脑架构，视觉模块、语言模块、动作模块各自为政，数据在模块之间搬来搬去会丢信息。WALL - B采用的WUM核心理念是将视觉、语言、动作、物理预测等所有能力，放在同一个网络中从零开始联合训练、融为一体，消除模块间的边界和数据搬运损耗。基于这一架构，WALL - B实现了三项区别于行业现有模型的核心技术特征。

第一，原生多模态。WALL - B从训练第一天起，即对视觉、听觉、语言、触觉、动作等多模态数据进行同步标注与联合训练，实现“ 多模态进、多模态出” ，这意味着模型不需要通过“传话” 的方式在不同模块间转译信息，它看到杯子的同时就已经在准备伸手，感觉到重量的同时就已经在调整力度。这种架构还首次赋予了模型一种被称为“ 原生本体感 ” 的能力，WALL - B无需持续观察自身全身或依赖大量外部传感器，即可内在地感知自身的空间尺寸，如高度、宽度、手臂伸展范围，并判断能否通过某个空间或触及某个物体，这是一种内生的空间感知能力，而非通过外部测量或建模获得，王昊指出，这一点甚至许多动物都不具备。

第二，物理世界的“世界观”。WALL - B能够感知并预测重力、惯性、摩擦力、速度等基本物理规律。在从未见过的场景中，例如一个盘子一半悬空在桌沿外，模型可以推断出盘子掉落摔碎，从而采取预防动作。这种对物理规律的理解为零样本泛化提供了基础，日常生活中，物理规律在不同环境中均保持一致，WALL - B在任何一个它从未去过的家庭中，都能利用对基本物理常识的理解来应对新场景，不需要针对每个家庭重新训练。

第三，与世界交互并自我进化。这是WUM架构区别于所有现有VLA模型的最根本特征。目前主流机器人在任务失败后通常直接停止，返回错误信息，无法从失败中学习。WALL - B的行为模式则不同，它在失败后会调整策略再次尝试，如果成功，则将这次成功的经验直接更新到模型参数中。这种机制使模型在真实环境中完成自我迭代，无需工程师重新训练、无需人工注入新数据、无需返回实验室。王昊将其类比为人类学习使用筷子的过程，WALL - B克服了Transformer架构难以进行长期内化记忆的问题，所有经验以原生多模态记忆的方式，通过类似人脑记忆的机制实现自我更新。

【数据策略：从“糖水”到“牛奶”】

目前，行业内大多数训练模型的数据来自实验室，王昊将这类实验室数据比喻为“糖水数据”，干净、可控、量大，但与真实世界差距显著，尤其与家庭中随时变化的自然光、随意摆放的物品、孩子和宠物的随机动作完全不同，用这类数据训练出的模型，在真实环境中会迅速失效。与之相对的，王昊比喻为“牛奶数据”，即真实家庭环境中采集的嘈杂、多变、充满随机性的数据，也是自变量选择的数据道路。为了获取这类数据，自变量团队进入了数百个志愿者的真实家庭进行模型训练。每一户家庭的布局、灯光、物品摆放和混乱程度各不相同，这些变量在实验室中无法模拟，但却是家庭环境中的日常，是模型必须学会应对的真实条件。综合来看，自变量的数据策略可总结为：实验数据打底，真实场景提质。实验室数据用于建立基本能力，真实家庭数据用于让模型学会在不确定环境中生存，真实随机、不可预测的现实数据所驱动的数据飞轮，才是真正的壁垒。

【35天后新一代机器人入驻真实家庭】

机器人进入家庭的同时，隐私问题不容回避。王潜对此给出了自变量团队明确的解决方案：视觉脱敏，机器人在设备端对原始图像进行实时打码处理，原始图像不离开设备，机器人看到的已经是去除个人特征的场景数据；透明授权，用户主动按下同意键后方可开机，不存在“默认同意”，用户不同意则不开机；用途限定，绝不共享第三方，机器人只认一个主人，发现可疑指令立即锁定。王潜明确表示“承诺是便宜的，用户信任才是最贵的 ”。

在商业化落地方面，自变量的时间表也已经明确，35天后，新一代搭载WALL - B，并根据家居环境进行硬件升级的新一代机器人将入驻首批用户的家庭。王潜指出，当前模型仍处于“实习生”阶段，会犯错，需要远程协助，但其能够实现24小时不间断工作，且每工作一天都会因新数据的产生而变得更“聪明”。从即日起，自变量开始招募首进家庭机器人的家长，用户可通过官方渠道提交申请。

【结尾展望】

具身基础模型的持续进步，是自变量成立以来一直追求的目标。为机器人打造一个能够真正理解世界、并在真实世界中持续学习的机器人大脑，进入家庭服务人类每一天是自变量机器人的长久愿景。尽管进入家庭的机器人现在还很笨，走得很慢，经常犯错，但就像人类从婴儿时期迈出的第一步，每一个伟大的旅程，都是从踉踉跄跄的第一步开始的，如今，机器人已经在最复杂的地方开始了它学习和进化的征程。模型一直在迭代，WALL - B的具体细节及生态基座，将于4月27日在深圳举办的首届广东省人工智能应用对接大会上全面亮相。机器人能否在家庭场景中持续进化，不断提升服务能力呢？

查看全文

http://www.jsqmd.com/news/678476/