当前位置：首页 > news >正文

千问上车，“人车合一”的另一种境界

news 2026/4/28 14:09:03

作者：高飞

记得有那么几年，CES被叫做“披着科技展外衣的车展”，汽车厂商扎堆儿在拉斯维加斯发布概念车，汽车技术成了消费电子展上最大的展区，面积一年翻一倍。

风水轮流转。

2026年北京车展，38万平方米、首发新车181台、展车总数超过1400台，规模跃居全球车展首位。但具体看每一个展台，会发现AI才是主角，端到端大模型、L3量产落地、舱驾融合、车载智能体，早代替了马力、扭矩和百公里加速。几乎每家车企都在讲自己的AI方案，合资品牌也都在拼命补智能化的课。

在这些变化的底层，阿里云扮演了一个非常重要的角色。过去一年，阿里云全栈AI云，支撑全部中国车企智能化落地和全球化升级。60%中国智能驾驶AI算力跑在阿里云上。算力和基础设施看似在底层，但直接决定AI的性能上限和功能边界，也就直接了解车主的驾乘感知。

如今，两个汽车领域的老词，就在AI的加持下，呈现出新的内涵。一个是“人车合一”，一个是“第三空间”。具体的感知，可以从车展上的一个关键词说起，千问上车。

一句话办到底千问上车，是阿里云在这次车展上主打的IP。千问App这个名字大家不陌生，它是阿里巴巴面向C端用户的移动AI助手APP，服务超过3亿用户。

但车里的千问和手机上的千问有相同也有所不同。相同之处，底层都有千问大模型家族的承载；不同之处在于，千问上车是两股力量的组合：一是千问智能体，它是为座舱场景重新设计的云端AI助手，能理解意图、调用服务、替你办事；二是千问大模型，它不仅在云端支撑智能体的推理，更以Qwen-Omni的形态部署在端侧，让车本身具备感知物理世界的能力。

二者联手，才能实现接下来我们要讲的新“人车合一”。

我们拿车里最常见的场景，导航来举个例子。大家知道，曾经的导航，其实更像是地图的加强版，在A点和B点之间画线。但实际上，车辆的路径，源自于乘客的需求。这些需求，往往是模糊和不确定的，并非两点之间直线最短。

比如一种典型的需求是 “一会去亮马河，找个离上船码头最近的餐厅吃个饭，然后去三里屯太古里，但不想排队进地库，需要导航到附近的停车场”。

这一系列想法，人类司机自然是能理解的，但传统汽车导航就无能为力。我们只能手动将一个个地理坐标，先后录入到导航App中。

但千问智能体，现在已经能做到对这种模糊需求的精确理解了。

对于用户一口气说完的复杂需求，智能体可以把里面的四五个地点、偏好和约束条件全部解析，导航规划一次性完成。即使开到一半想加个途经点，也是说一句补充就行，导航直接在当前路线上插入新地点，不用重启。如果说导航是让车驶到某个坐标，用户实际上想要的是要在这个地理位置实现的某种需求，比如导航版去咖啡馆不是目的，喝一杯咖啡才是目的。

那么更进一步，智能体还能完成下一棒的接力，因为千问智能体可以调用购物技能。

具体来说，淘宝闪购能在云端完成定位、商家筛选、商品匹配、生成订单，再交由支付宝识别用户声纹完成扣款。全程用户不用掏手机，不用跳到别的APP。从意图到执行到支付，一整套都在车端的千问智能体里面闭环了。

阿里云还引入了一个“有屏无操作”的设计逻辑。

因为行车中人最稀缺的两种资源是注意力和双手，传统APP那套弹卡片、手指点选、跳转支付的逻辑直接搬进汽车的智能座舱中，是行不通的。

语音在这个场景里不是更好的选项，而是唯一的选项。“有屏无操作”，意味着用户只要对着屏幕说话就可以了。

所以，我们过去说人车合一，说的是驾驶者踩油门车就走、打方向车就转，是肌肉和机械之间的默契。现在这种“你说车就办”，其实也是一种合一，只是从脚和手，换成了语言和脑。

物理世界加数字世界

一般来说，用户端的操作越简单，背后的架构设计就越复杂，技术含量越高。千问智能体也不例外，它由车内端侧的物理智能和云上的数字智能组合而成。

阿里云智能集团AI汽车行业总经理李强最近在智能电动汽车发展高层论坛（2026）上，对这套架构做了非常清晰的表述：端侧处理物理世界的交互需求，云端通过千问智能体承载数字世界的能力。物理世界加数字世界，合在一起才是座舱的完整服务版图。

先说物理世界这端。

千问上车在端侧的核心是千问大模型家族的Qwen-Omni，李强称之为“三进两出”的模型架构。这是千问系列中专门面向多模态感知的分支，今年三月底刚发布，能同时处理语音、图像、视频三种输入。它的工作不只是听你说了什么，语义层面的理解交给云端的大模型也行，端侧真正不可替代的能力是感知物理世界。

乘客的表情、语气、情绪，是疲惫还是兴奋，当我们说“找个安静的地方”到底是想去图书馆还是咖啡馆，这些非语义信号只有在车里、靠近用户的端侧模型才能捕捉到。

除了感知，端侧模型还有调度责任，哪些是端侧的工作，哪些需要云端的配合。

显然，当我们说“打开车窗”，端侧直接就能下发指令闭环。当我们讲一段模糊的导航意图，端侧判断之后就需要交给云端去搜索和推理。

要做到这个调度过程对用户的无感，非常考验端侧模型的响应速度和资源分配能力。

但这里面有一个关系容易被忽略，端侧是一个根本。

李强也讲过一个极限场景：弱网环境下的体验保障。隧道里、地库里、信号差的山路上，云端可能断了，但端侧的基本交互不能中断，“在保障用户隐私与安全的同时，必须确保在弱网环境下依然能处理物理世界的交互需求”。

另外，端侧感知如果不准，云端给出的服务就全部失配。打个比方，端侧像一位贴身管家。如果管家翻译错了，后面会全错。因此，端侧模型的质量，决定了整个体验链条的下限。

数字世界那端就是云端，决定了智能座舱体验的上限。

云端除了更大尺寸的模型推理和意图理解，还有一个不可或缺的能力拼图，是阿里的生态服务。

前面说的淘宝闪购、支付宝声纹支付，都是云端在接到端侧传过来的意图之后完成的生态组合拳。

以前我们讲“人车合一”，更多是人如何去理解车，实现更完美的驾驶；现在我们讲“人车合一”，更多是车如何更好理解人，交付更完美的体验。

一半是Hermes，一半是OpenClaw在和阿里云座舱的相关专家交流之后，我发现，这套体系，似乎还可以用今年AI圈最火的两个开源项目来类比。

一个是OpenClaw，一个是Hermes Agent。

我们先说后者。

Nous Research今年二月发布了Hermes Agent，两个月内GitHub星标突破九万，是2026年增长最快的AI Agent框架之一。它跟其他Agent框架最大的区别在于一个闭环学习机制：Hermes解决一个问题之后，会自动把解决过程沉淀为一个可复用的skill，下次遇到类似问题直接调用。

根据Nous Research的内部测试，积累了20个以上自建skill的Hermes Agent，完成同类研究任务的效率比全新实例快40%。越用越强。

千问座舱其实也有类似的逻辑。它通过持续对话学习车主画像，你喜欢安静的咖啡馆，你习惯走某条路，你下午三点左右总想买杯奶茶，这些信息沉淀下来之后，系统给出的建议会越来越贴合你。

这和早期的RAG知识库有本质的区别。

RAG式的“懂”是查询匹配，我们现在所说的“懂”是行为进化，系统理解了用户的偏好模式和意图习惯，主动调整自己的行为逻辑。千问座舱走的是后者这条路。

我们再来说OpenClaw，也就是龙虾。这个大家就更熟悉了。

Peter Steinberger去年底发布的这个项目，短短几个月拿下超过三十万GitHub星标。如果说Hermes Agent的特征是进化，OpenClaw的核心能力在于连接：它用标准化协议和内置skill把各种平台、各种服务串联起来。

显然，这个生态越大、接入越多，能办的事就越多。某种程度上，如果不是OpenClaw在前边的Skills开路，也就没有之后Hermes Agent的接力爆火。

无独有偶，生态性在千问上车的过程中也充分体现了优势。阿里生态上的高德、淘宝、支付宝，都已通过标准化接口接进千问智能体，未来还会更多。集团在各业务领域的广泛生态布局，使得这种连接优势在不同场景中都能发挥作用——生态越丰富、结合越广泛，带来的价值就越大。车企接入千问智能体，等于接入了这整张生态网络。

忘了车的存在2026北京车展开幕首日，长安、东风、北汽、比亚迪、吉利、长城、理想、上汽大众、上汽智己均宣布接入千问。

3月份，一汽红旗率先宣布接入千问，在车内可实现多模糊意图识别与复杂路径规划的服务闭环；4月份，广汽集团宣布接入千问后，座舱具备了极强的逻辑理解与长文本处理能力，并融入阿里巴巴“吃、住、行、游、购、娱”全生态，实现“一次指令、全部搞定”。

实现这个成果，背后原因，或许是单一维度的领先容易实现，但“自进化的深度”乘以“生态接入的广度”，这个乘积才构成真正的壁垒。

如我们在前边所讲，阿里在两端都有积累：千问APP的3亿用户沉淀了海量意图理解数据，集团的生态提供了国内最完整的生活服务矩阵。

当车里能做的事越来越多，点外卖、买咖啡、查药店、订酒店，它就不再只是一个出行工具了，它开始像一个你能在其中工作和生活的空间。

其实行业已经喊了好几年“第三空间”，但过去这个词约等于座舱里能聊天。加个大屏加个语音助手，能讲笑话能播歌。

但那不是空间，而是一个带轮子的音箱。车里真的能办事了，“第三空间”才开始有了更实质的意义。毕竟，我们在第一空间和第二空间，是要真做事，真享受生活的。

对了，最后说一个很巧合的事情。“人车合一”和“第三空间”这两个词都诞生在1989年。那一年，美国社会学家Ray Oldenburg出版了《The Great Good Place》，把咖啡馆和公园定义为家和办公室之外的"第三空间"，后来星巴克拿着这个概念做成了一门生意。同一年，马自达第一代MX-5的设计师说了一句后来被引用了无数次的话：“有那么一瞬间，我忘记了车的存在，我想这就是人车合一。”

37年后，这两句话都有了另一层意思，并且融为一体。在千问坐进副驾，车能替你办事、能读你的状态、能越用越懂你的时候，你也会忘记车的存在。只不过这一次，你忘记的不是操控的边界，而是“车”这个概念本身。因为它不再只是一辆车了，它变成了你的第三个生活空间。

查看全文

http://www.jsqmd.com/news/714155/