千问上车,“人车合一”的另一种境界
作者:高飞
记得有那么几年,CES被叫做“披着科技展外衣的车展”,汽车厂商扎堆儿在拉斯维加斯发布概念车,汽车技术成了消费电子展上最大的展区,面积一年翻一倍。
风水轮流转。
2026年北京车展,38万平方米、首发新车181台、展车总数超过1400台,规模跃居全球车展首位。但具体看每一个展台,会发现AI才是主角,端到端大模型、L3量产落地、舱驾融合、车载智能体,早代替了马力、扭矩和百公里加速。几乎每家车企都在讲自己的AI方案,合资品牌也都在拼命补智能化的课。
在这些变化的底层,阿里云扮演了一个非常重要的角色。过去一年,阿里云全栈AI云,支撑全部中国车企智能化落地和全球化升级。60%中国智能驾驶AI算力跑在阿里云上。算力和基础设施看似在底层,但直接决定AI的性能上限和功能边界,也就直接了解车主的驾乘感知。
如今,两个汽车领域的老词,就在AI的加持下,呈现出新的内涵。一个是“人车合一”,一个是“第三空间”。具体的感知,可以从车展上的一个关键词说起,千问上车。
一句话办到底千问上车,是阿里云在这次车展上主打的IP。千问App这个名字大家不陌生,它是阿里巴巴面向C端用户的移动AI助手APP,服务超过3亿用户。
但车里的千问和手机上的千问有相同也有所不同。相同之处,底层都有千问大模型家族的承载;不同之处在于,千问上车是两股力量的组合:一是千问智能体,它是为座舱场景重新设计的云端AI助手,能理解意图、调用服务、替你办事;二是千问大模型,它不仅在云端支撑智能体的推理,更以Qwen-Omni的形态部署在端侧,让车本身具备感知物理世界的能力。
二者联手,才能实现接下来我们要讲的新“人车合一”。
我们拿车里最常见的场景,导航来举个例子。大家知道,曾经的导航,其实更像是地图的加强版,在A点和B点之间画线。但实际上,车辆的路径,源自于乘客的需求。这些需求,往往是模糊和不确定的,并非两点之间直线最短。
比如一种典型的需求是 “一会去亮马河,找个离上船码头最近的餐厅吃个饭,然后去三里屯太古里,但不想排队进地库,需要导航到附近的停车场”。
这一系列想法,人类司机自然是能理解的,但传统汽车导航就无能为力。我们只能手动将一个个地理坐标,先后录入到导航App中。
但千问智能体,现在已经能做到对这种模糊需求的精确理解了。
对于用户一口气说完的复杂需求,智能体可以把里面的四五个地点、偏好和约束条件全部解析,导航规划一次性完成。即使开到一半想加个途经点,也是说一句补充就行,导航直接在当前路线上插入新地点,不用重启。如果说导航是让车驶到某个坐标,用户实际上想要的是要在这个地理位置实现的某种需求,比如导航版去咖啡馆不是目的,喝一杯咖啡才是目的。
那么更进一步,智能体还能完成下一棒的接力,因为千问智能体可以调用购物技能。
具体来说,淘宝闪购能在云端完成定位、商家筛选、商品匹配、生成订单,再交由支付宝识别用户声纹完成扣款。全程用户不用掏手机,不用跳到别的APP。从意图到执行到支付,一整套都在车端的千问智能体里面闭环了。
阿里云还引入了一个“有屏无操作”的设计逻辑。
因为行车中人最稀缺的两种资源是注意力和双手,传统APP那套弹卡片、手指点选、跳转支付的逻辑直接搬进汽车的智能座舱中,是行不通的。
语音在这个场景里不是更好的选项,而是唯一的选项。“有屏无操作”,意味着用户只要对着屏幕说话就可以了。
所以,我们过去说人车合一,说的是驾驶者踩油门车就走、打方向车就转,是肌肉和机械之间的默契。现在这种“你说车就办”,其实也是一种合一,只是从脚和手,换成了语言和脑。
物理世界加数字世界
一般来说,用户端的操作越简单,背后的架构设计就越复杂,技术含量越高。千问智能体也不例外,它由车内端侧的物理智能和云上的数字智能组合而成。
阿里云智能集团AI汽车行业总经理李强最近在智能电动汽车发展高层论坛(2026)上,对这套架构做了非常清晰的表述:端侧处理物理世界的交互需求,云端通过千问智能体承载数字世界的能力。物理世界加数字世界,合在一起才是座舱的完整服务版图。
先说物理世界这端。
千问上车在端侧的核心是千问大模型家族的Qwen-Omni,李强称之为“三进两出”的模型架构。这是千问系列中专门面向多模态感知的分支,今年三月底刚发布,能同时处理语音、图像、视频三种输入。它的工作不只是听你说了什么,语义层面的理解交给云端的大模型也行,端侧真正不可替代的能力是感知物理世界。
乘客的表情、语气、情绪,是疲惫还是兴奋,当我们说“找个安静的地方”到底是想去图书馆还是咖啡馆,这些非语义信号只有在车里、靠近用户的端侧模型才能捕捉到。
除了感知,端侧模型还有调度责任,哪些是端侧的工作,哪些需要云端的配合。
显然,当我们说“打开车窗”,端侧直接就能下发指令闭环。当我们讲一段模糊的导航意图,端侧判断之后就需要交给云端去搜索和推理。
要做到这个调度过程对用户的无感,非常考验端侧模型的响应速度和资源分配能力。
但这里面有一个关系容易被忽略,端侧是一个根本。
李强也讲过一个极限场景:弱网环境下的体验保障。隧道里、地库里、信号差的山路上,云端可能断了,但端侧的基本交互不能中断,“在保障用户隐私与安全的同时,必须确保在弱网环境下依然能处理物理世界的交互需求”。
另外,端侧感知如果不准,云端给出的服务就全部失配。打个比方,端侧像一位贴身管家。如果管家翻译错了,后面会全错。因此,端侧模型的质量,决定了整个体验链条的下限。
数字世界那端就是云端,决定了智能座舱体验的上限。
云端除了更大尺寸的模型推理和意图理解,还有一个不可或缺的能力拼图,是阿里的生态服务。
前面说的淘宝闪购、支付宝声纹支付,都是云端在接到端侧传过来的意图之后完成的生态组合拳。
以前我们讲“人车合一”,更多是人如何去理解车,实现更完美的驾驶;现在我们讲“人车合一”,更多是车如何更好理解人,交付更完美的体验。
一半是Hermes,一半是OpenClaw在和阿里云座舱的相关专家交流之后,我发现,这套体系,似乎还可以用今年AI圈最火的两个开源项目来类比。
一个是OpenClaw,一个是Hermes Agent。
我们先说后者。
Nous Research今年二月发布了Hermes Agent,两个月内GitHub星标突破九万,是2026年增长最快的AI Agent框架之一。它跟其他Agent框架最大的区别在于一个闭环学习机制:Hermes解决一个问题之后,会自动把解决过程沉淀为一个可复用的skill,下次遇到类似问题直接调用。
根据Nous Research的内部测试,积累了20个以上自建skill的Hermes Agent,完成同类研究任务的效率比全新实例快40%。越用越强。
千问座舱其实也有类似的逻辑。它通过持续对话学习车主画像,你喜欢安静的咖啡馆,你习惯走某条路,你下午三点左右总想买杯奶茶,这些信息沉淀下来之后,系统给出的建议会越来越贴合你。
这和早期的RAG知识库有本质的区别。
RAG式的“懂”是查询匹配,我们现在所说的“懂”是行为进化,系统理解了用户的偏好模式和意图习惯,主动调整自己的行为逻辑。千问座舱走的是后者这条路。
我们再来说OpenClaw,也就是龙虾。这个大家就更熟悉了。
Peter Steinberger去年底发布的这个项目,短短几个月拿下超过三十万GitHub星标。如果说Hermes Agent的特征是进化,OpenClaw的核心能力在于连接:它用标准化协议和内置skill把各种平台、各种服务串联起来。
显然,这个生态越大、接入越多,能办的事就越多。某种程度上,如果不是OpenClaw在前边的Skills开路,也就没有之后Hermes Agent的接力爆火。
无独有偶,生态性在千问上车的过程中也充分体现了优势。阿里生态上的高德、淘宝、支付宝,都已通过标准化接口接进千问智能体,未来还会更多。集团在各业务领域的广泛生态布局,使得这种连接优势在不同场景中都能发挥作用——生态越丰富、结合越广泛,带来的价值就越大。车企接入千问智能体,等于接入了这整张生态网络。
忘了车的存在2026北京车展开幕首日,长安、东风、北汽、比亚迪、吉利、长城、理想、上汽大众、上汽智己均宣布接入千问。
3月份,一汽红旗率先宣布接入千问,在车内可实现多模糊意图识别与复杂路径规划的服务闭环;4月份,广汽集团宣布接入千问后,座舱具备了极强的逻辑理解与长文本处理能力,并融入阿里巴巴“吃、住、行、游、购、娱”全生态,实现“一次指令、全部搞定”。
实现这个成果,背后原因,或许是单一维度的领先容易实现,但“自进化的深度”乘以“生态接入的广度”,这个乘积才构成真正的壁垒。
如我们在前边所讲,阿里在两端都有积累:千问APP的3亿用户沉淀了海量意图理解数据,集团的生态提供了国内最完整的生活服务矩阵。
当车里能做的事越来越多,点外卖、买咖啡、查药店、订酒店,它就不再只是一个出行工具了,它开始像一个你能在其中工作和生活的空间。
其实行业已经喊了好几年“第三空间”,但过去这个词约等于座舱里能聊天。加个大屏加个语音助手,能讲笑话能播歌。
但那不是空间,而是一个带轮子的音箱。车里真的能办事了,“第三空间”才开始有了更实质的意义。毕竟,我们在第一空间和第二空间,是要真做事,真享受生活的。
对了,最后说一个很巧合的事情。“人车合一”和“第三空间”这两个词都诞生在1989年。那一年,美国社会学家Ray Oldenburg出版了《The Great Good Place》,把咖啡馆和公园定义为家和办公室之外的"第三空间",后来星巴克拿着这个概念做成了一门生意。同一年,马自达第一代MX-5的设计师说了一句后来被引用了无数次的话:“有那么一瞬间,我忘记了车的存在,我想这就是人车合一。”
37年后,这两句话都有了另一层意思,并且融为一体。在千问坐进副驾,车能替你办事、能读你的状态、能越用越懂你的时候,你也会忘记车的存在。只不过这一次,你忘记的不是操控的边界,而是“车”这个概念本身。因为它不再只是一辆车了,它变成了你的第三个生活空间。
