当前位置: 首页 > news >正文

大模型架构新范式!NUS、复旦等发布首篇Latent Space系统综述

大模型的设计正迎来新的范式:从人类可读的离散显式符号空间,转向机器原生的连续潜在空间。

近期,新加坡国立大学、复旦大学、清华大学等国内外顶尖高校与科研机构,联合发布了大模型潜在空间领域首个统一系统性全景综述。

该综述以基础—>演进—>机制—>能力—>展望五大递进视角,系统性整合了该领域碎片化的研究成果,填补了潜在空间统一研究综述的空白。

论文题目:

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

论文链接:

https://arxiv.org/pdf/2604.02029

GitHub 链接:

https://github.com/YU-deep/Awesome-Latent-Space

基础:什么是潜在空间?

大模型潜在空间,是基于语言的大模型(含 LLM、VLM、VLA 等)经学习习得的连续非离散表征空间。

它会将文本、多模态信息中,未被显式 token 呈现的深层语义、句法规则、上下文关联、跨模态对应关系等核心信息编码其中,是适配模型运算逻辑的机器原生计算空间。

当前主流大模型仍以显式符号空间(语言 token 空间)作为核心运算载体,这一模式存在语言冗余、离散化瓶颈、序列解码低效、细粒度语义丢失等难以规避的结构性缺陷,在复杂推理、多模态交互、长时序任务等场景中表现受限。

核心差异对比

四大表征属性

可读性:显式空间由人类可读的离散语言符号构成,可直接被人类理解与核验;潜空间是机器原生的高维连续向量,人类无法直接解读,却能承载更丰富的表征信息。

存在形式:显式空间离散且固定,伴随大量语言冗余信息;潜空间连续且灵活,摒弃表层语言冗余,仅保留核心语义信息。

计算效率:显式空间采用逐 token 序列生成方式,需反复进行编码解码转换,算力浪费严重;潜空间直接执行向量运算,无额外表征转换开销,计算效率更高。

语义保留:显式空间受离散量化瓶颈限制,易丢失细粒度语义信息;潜空间无需离散化转码,可高保真保留完整语义与细节信息。

四大功能能力

可操作性:显式空间离散不可微分,仅能实现有限的 token 级间接操作;潜空间连续可微分,支持向量拼接、线性组合、语义导向操控等精细语义操作。

表达能力:显式空间受词汇量与语法规则约束,仅能表达语言可描述的内容;潜空间突破语言符号限制,可承载高维非语言信息与多模态特征,表达维度更广泛。

可扩展性:显式空间受序列长度与自回归解码模式严格限制,扩展难度大;潜空间表征紧凑且支持并行化处理,可轻松适配长推理轨迹、多智能体交互等复杂场景。

泛化能力:显式空间易被语言表层形式束缚,跨域泛化能力较弱;潜空间聚焦抽象语义结构,能捕捉底层通用规律,跨领域、跨任务的泛化性显著提升。

演化:潜在空间的发展历程?

大模型潜在空间的研究发展随技术迭代划分为四个递进阶段,从早期理论构想逐步走向全场景落地应用,依次为原型阶段、形成阶段、拓展阶段与爆发阶段。

2.1 原型阶段(此前—2025年3月)

该阶段为早期探索期,首次验证了模型推理可脱离自然语言显式符号,依托连续向量表征即可完成;初代潜在推理框架相继问世,整体仅停留在概念验证与可行性探索阶段,尚未形成系统化的技术方案。

2.2 形成阶段(2025年4月—7月)

研究进入理论奠基与技术成型期,搭建起潜空间的核心理论体系,通过数学证明严格验证了潜空间的计算与表达优势;技术研发以文本潜在推理为核心,同时初步试水多模态、具身场景,完成了从零散原型到理论化、体系化的转变。

2.3 拓展阶段(2025年8月—11月)

研究边界从纯文本全面拓展,覆盖视觉感知、多智能体协作、机器人具身操作等多元领域;领域专用技术走向成熟,潜空间方法开始从理论验证转向实际落地,实现了从单一文本范式到多领域跨场景的延伸。

2.4 爆发阶段(2025年12月—至今)

潜在空间正式成为大模型的原生独立计算空间与核心研究范式;面向潜空间的专属架构、精细化优化策略批量涌现,文本、视觉、具身智能、多智能体协作等全领域应用呈爆发式增长,潜空间范式迈入成熟与规模化应用的新阶段。

机制:潜在空间如何作用

潜在空间依托架构、表征、计算、优化四大协同维度,搭建起全流程运作体系,分别解决潜空间如何嵌入模型、如何承载信息、如何执行运算、如何全周期调优四大核心问题。

3.1 架构

架构维度定义了潜空间与模型的结合方式,分为三类:

主干内置:直接改造模型主干架构,通过循环、迭代、递归等结构,让模型原生具备潜空间计算能力;

插件组件:不改动原有模型主干,通过生成、投影、对齐、控制、存储等插件式模块,扩展潜空间功能;

辅助模型:借助外部独立的辅助模型提供监督信号或中间特征,引导主模型生成与使用潜空间。

3.2 表征

表征维度明确了潜空间的信息存储形式,分为四类:

内部表征:直接复用模型隐状态、词嵌入、KV 缓存等内部激活值,无需新增额外参数;

外部表征:使用冻结的外部预训练模型生成潜表征,再注入主模型作为条件输入或监督目标;

可学习表征:通过可训练模块(如连续虚拟 Token、轻量适配器)生成潜表征,与主模型端到端联合优化;

混合表征:结合可学习模块与外部注入的优势,先通过可学习模块构建专用潜表征,再以外部信号形式注入主模型。

3.3 计算

计算维度规定了潜空间的信息处理方式,分为四类:

压缩计算:对显式推理轨迹、内部缓存、多模态特征进行压缩,降低算力与内存消耗,同时保留核心语义;

扩展计算:通过循环、并行、结构拓展等方式扩充计算深度与宽度,提升潜空间的表达与推理能力;

自适应计算:根据输入复杂度动态分配计算资源,调整计算深度、宽度或终止时机,灵活平衡效率与性能;

交错计算:将显式离散 Token 与潜空间连续表征、文本与视觉潜信息、推理与记忆模块交错运算,融合双方优势。

3.4 优化

优化维度覆盖潜空间的全阶段调优,分为三个阶段:

预训练优化:模型从随机初始化开始训练,让模型从训练初期就原生具备潜计算能力;

后训练优化:在预训练模型基础上进行微调,优化潜空间以适配各类下游任务;

推理优化:固定模型参数,实时修正推理阶段的潜状态,直接优化最终输出效果。

能力:潜在空间实现什么能力?

潜空间彻底突破离散 token 的表达限制与计算瓶颈,全面激活推理、规划、建模、感知、记忆、协作、具身七大核心智能,大幅拓展大模型的能力边界。

4.1 推理能力

脱离显式语言的冗余约束,实现隐式推断、紧凑化推理轨迹、连续迭代修正、多分支路径并行探索,跨模态泛化能力大幅提升。

4.2 规划

支持可控的解题路径探索、高效的潜在解空间搜索,可自适应分配计算资源,动态优化长时序决策轨迹。

4.3 建模

可高效表达复杂计算逻辑,实现模型内部状态的自我检视与分析,能对模型行为进行鲁棒可控调控,同时显著提升计算的可拓展性。

4.4 感知

完整保留视觉的精细结构与细节信息,支持启发式视觉想象,让多模态感知结果更精准、更忠实于原始信息。

4.5 记忆

构建高效的工作记忆 retention 机制,实现知识的持久化存储与迭代进化,支持多模态信息的精准记忆与快速召回。

4.6 协作

实现智能体间高保真、无损的语义传输,构建多智能体共享认知空间,支持异构模型、跨模态的无障碍互通与协同。

4.7 具身

支持无监督场景下的动作落地,以内隐思考完成连续规划,具备未来场景预测与空间认知能力,赋能机器人实现跨硬件形态的泛化与迁移。

展望: 潜在空间发展方向?

未来大模型潜在空间的发展将聚焦四大核心方向,构筑下一代智能系统的核心范式:

5.1 构建统一理论体系

明晰潜空间的计算原理与表达边界,厘清其与显式空间的协同协作规则,建立标准化的评估基准、监督机制与验证体系;

5.2 深耕多模态原生计算

打造文本、视觉、动作等多模态统一的原生潜计算空间,摆脱文本中介的多模态处理瓶颈;

5.3 规模化落地下游任务

以潜空间为核心支撑,推动复杂推理、机器人控制、具身智能、多智能体协作等真实场景的落地应用;

5.4 实现可信可控治理

攻克潜空间的可观测、可操控、可解释难题,让潜空间计算可评估、可管控、可审计,从根本上解决模型的可信性与安全性问题。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

http://www.jsqmd.com/news/676288/

相关文章:

  • LRC Maker终极指南:5分钟从音乐小白到歌词制作专家
  • SLAM算法评测实战:除了轨迹误差,用evo分析A-LOAM还能看出什么门道?
  • 高真空乳化机选购指南 - 资讯焦点
  • 告别BeautifulSoup和lxml?试试Scrapy御用解析器Parsel的实战技巧
  • 网页传输相关内容
  • OFA图像描述模型内网穿透部署:实现本地模型的公网安全访问
  • TurtleBot3小车+Velodyne VLP-16实战:手把手教你用A-LOAM构建可复用的室内点云地图
  • Switch NAND管理实战指南:NxNandManager深度解析与高效应用
  • 阿里最强小钢炮上线!Qwen3.6-35B-A3B+OpenClaw本地部署全记录
  • 2026年4月 | 视觉拆垛机器人TOP8厂家推荐 - 资讯焦点
  • abaqus应该怎样学,重点罗列来了!
  • AI驱动的制品库高效管理:智能分类、自动化追踪与全生命周期优化
  • 思源宋体CN终极指南:7种字重免费开源中文字体的完整应用方案
  • C++11列表初始化:告别混乱的终极方案
  • Apple-Mobile-Drivers-Installer:Windows苹果设备驱动“三分钟连接术“
  • 出海必看:德国VDE 2510-50储能新规,你的BMS和电池包设计过关了吗?
  • Real Anime Z风格泛化能力测试:跨种族/跨年龄/跨服饰的真实感表现
  • 从SYNC到同步头:手把手调试JESD204B/C链路,附ADRV9026实战排错记录
  • 在树莓派4B(ARM64)上搞定PyQt5:从源码编译到解决Qt::ItemDataRole报错的完整记录
  • Navicat无限试用终极指南:macOS用户必备的14天限制解决方案
  • 3分钟解锁《经济研究》论文排版超能力
  • 别再手动写寄存器测试了!手把手教你用UVM寄存器模型(RGM)搭建自动化验证环境
  • 保姆级教程:在RK3128 Android 7.1上搞定红外遥控(从DTS到.kl文件全流程)
  • 品冠装饰设计:黄埔区住宅装饰设计哪家好 - LYL仔仔
  • 5分钟快速上手:Res-Downloader全网资源下载神器终极指南
  • Amphenol RJE1Y16915152401线束选型解析
  • SpringBoot 2.x 项目里手动添加webapp目录,解决JSP页面访问404和‘WEB-INF’路径警告
  • 浏览器图片格式转换难题的终极解决方案:Save Image as Type
  • Agent工作流卡住了?试试AFlow:用蒙特卡洛树搜索自动帮你重构工作流拓扑
  • 保姆级教程:在Ubuntu 18.04上为ORB-SLAM2添加彩色点云地图(含PCL库避坑指南)