当前位置：首页 > news >正文

大模型架构新范式！NUS、复旦等发布首篇Latent Space系统综述

news 2026/4/21 11:27:02

大模型的设计正迎来新的范式：从人类可读的离散显式符号空间，转向机器原生的连续潜在空间。

近期，新加坡国立大学、复旦大学、清华大学等国内外顶尖高校与科研机构，联合发布了大模型潜在空间领域首个统一系统性全景综述。

该综述以基础—>演进—>机制—>能力—>展望五大递进视角，系统性整合了该领域碎片化的研究成果，填补了潜在空间统一研究综述的空白。

论文题目：

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

论文链接：

https://arxiv.org/pdf/2604.02029

GitHub 链接：

https://github.com/YU-deep/Awesome-Latent-Space

基础：什么是潜在空间？

大模型潜在空间，是基于语言的大模型（含 LLM、VLM、VLA 等）经学习习得的连续非离散表征空间。

它会将文本、多模态信息中，未被显式 token 呈现的深层语义、句法规则、上下文关联、跨模态对应关系等核心信息编码其中，是适配模型运算逻辑的机器原生计算空间。

当前主流大模型仍以显式符号空间（语言 token 空间）作为核心运算载体，这一模式存在语言冗余、离散化瓶颈、序列解码低效、细粒度语义丢失等难以规避的结构性缺陷，在复杂推理、多模态交互、长时序任务等场景中表现受限。

核心差异对比

四大表征属性

可读性：显式空间由人类可读的离散语言符号构成，可直接被人类理解与核验；潜空间是机器原生的高维连续向量，人类无法直接解读，却能承载更丰富的表征信息。

存在形式：显式空间离散且固定，伴随大量语言冗余信息；潜空间连续且灵活，摒弃表层语言冗余，仅保留核心语义信息。

计算效率：显式空间采用逐 token 序列生成方式，需反复进行编码解码转换，算力浪费严重；潜空间直接执行向量运算，无额外表征转换开销，计算效率更高。

语义保留：显式空间受离散量化瓶颈限制，易丢失细粒度语义信息；潜空间无需离散化转码，可高保真保留完整语义与细节信息。

四大功能能力

可操作性：显式空间离散不可微分，仅能实现有限的 token 级间接操作；潜空间连续可微分，支持向量拼接、线性组合、语义导向操控等精细语义操作。

表达能力：显式空间受词汇量与语法规则约束，仅能表达语言可描述的内容；潜空间突破语言符号限制，可承载高维非语言信息与多模态特征，表达维度更广泛。

可扩展性：显式空间受序列长度与自回归解码模式严格限制，扩展难度大；潜空间表征紧凑且支持并行化处理，可轻松适配长推理轨迹、多智能体交互等复杂场景。

泛化能力：显式空间易被语言表层形式束缚，跨域泛化能力较弱；潜空间聚焦抽象语义结构，能捕捉底层通用规律，跨领域、跨任务的泛化性显著提升。

演化：潜在空间的发展历程？

大模型潜在空间的研究发展随技术迭代划分为四个递进阶段，从早期理论构想逐步走向全场景落地应用，依次为原型阶段、形成阶段、拓展阶段与爆发阶段。

2.1 原型阶段（此前—2025年3月）

该阶段为早期探索期，首次验证了模型推理可脱离自然语言显式符号，依托连续向量表征即可完成；初代潜在推理框架相继问世，整体仅停留在概念验证与可行性探索阶段，尚未形成系统化的技术方案。

2.2 形成阶段（2025年4月—7月）

研究进入理论奠基与技术成型期，搭建起潜空间的核心理论体系，通过数学证明严格验证了潜空间的计算与表达优势；技术研发以文本潜在推理为核心，同时初步试水多模态、具身场景，完成了从零散原型到理论化、体系化的转变。

2.3 拓展阶段（2025年8月—11月）

研究边界从纯文本全面拓展，覆盖视觉感知、多智能体协作、机器人具身操作等多元领域；领域专用技术走向成熟，潜空间方法开始从理论验证转向实际落地，实现了从单一文本范式到多领域跨场景的延伸。

2.4 爆发阶段（2025年12月—至今）

潜在空间正式成为大模型的原生独立计算空间与核心研究范式；面向潜空间的专属架构、精细化优化策略批量涌现，文本、视觉、具身智能、多智能体协作等全领域应用呈爆发式增长，潜空间范式迈入成熟与规模化应用的新阶段。

机制：潜在空间如何作用

潜在空间依托架构、表征、计算、优化四大协同维度，搭建起全流程运作体系，分别解决潜空间如何嵌入模型、如何承载信息、如何执行运算、如何全周期调优四大核心问题。

3.1 架构

架构维度定义了潜空间与模型的结合方式，分为三类：

主干内置：直接改造模型主干架构，通过循环、迭代、递归等结构，让模型原生具备潜空间计算能力；

插件组件：不改动原有模型主干，通过生成、投影、对齐、控制、存储等插件式模块，扩展潜空间功能；

辅助模型：借助外部独立的辅助模型提供监督信号或中间特征，引导主模型生成与使用潜空间。

3.2 表征

表征维度明确了潜空间的信息存储形式，分为四类：

内部表征：直接复用模型隐状态、词嵌入、KV 缓存等内部激活值，无需新增额外参数；

外部表征：使用冻结的外部预训练模型生成潜表征，再注入主模型作为条件输入或监督目标；

可学习表征：通过可训练模块（如连续虚拟 Token、轻量适配器）生成潜表征，与主模型端到端联合优化；

混合表征：结合可学习模块与外部注入的优势，先通过可学习模块构建专用潜表征，再以外部信号形式注入主模型。

3.3 计算

计算维度规定了潜空间的信息处理方式，分为四类：

压缩计算：对显式推理轨迹、内部缓存、多模态特征进行压缩，降低算力与内存消耗，同时保留核心语义；

扩展计算：通过循环、并行、结构拓展等方式扩充计算深度与宽度，提升潜空间的表达与推理能力；

自适应计算：根据输入复杂度动态分配计算资源，调整计算深度、宽度或终止时机，灵活平衡效率与性能；

交错计算：将显式离散 Token 与潜空间连续表征、文本与视觉潜信息、推理与记忆模块交错运算，融合双方优势。

3.4 优化

优化维度覆盖潜空间的全阶段调优，分为三个阶段：

预训练优化：模型从随机初始化开始训练，让模型从训练初期就原生具备潜计算能力；

后训练优化：在预训练模型基础上进行微调，优化潜空间以适配各类下游任务；

推理优化：固定模型参数，实时修正推理阶段的潜状态，直接优化最终输出效果。

能力：潜在空间实现什么能力？

潜空间彻底突破离散 token 的表达限制与计算瓶颈，全面激活推理、规划、建模、感知、记忆、协作、具身七大核心智能，大幅拓展大模型的能力边界。

4.1 推理能力

脱离显式语言的冗余约束，实现隐式推断、紧凑化推理轨迹、连续迭代修正、多分支路径并行探索，跨模态泛化能力大幅提升。

4.2 规划

支持可控的解题路径探索、高效的潜在解空间搜索，可自适应分配计算资源，动态优化长时序决策轨迹。

4.3 建模

可高效表达复杂计算逻辑，实现模型内部状态的自我检视与分析，能对模型行为进行鲁棒可控调控，同时显著提升计算的可拓展性。

4.4 感知

完整保留视觉的精细结构与细节信息，支持启发式视觉想象，让多模态感知结果更精准、更忠实于原始信息。

4.5 记忆

构建高效的工作记忆 retention 机制，实现知识的持久化存储与迭代进化，支持多模态信息的精准记忆与快速召回。

4.6 协作

实现智能体间高保真、无损的语义传输，构建多智能体共享认知空间，支持异构模型、跨模态的无障碍互通与协同。

4.7 具身

支持无监督场景下的动作落地，以内隐思考完成连续规划，具备未来场景预测与空间认知能力，赋能机器人实现跨硬件形态的泛化与迁移。

展望: 潜在空间发展方向？

未来大模型潜在空间的发展将聚焦四大核心方向，构筑下一代智能系统的核心范式：

5.1 构建统一理论体系

明晰潜空间的计算原理与表达边界，厘清其与显式空间的协同协作规则，建立标准化的评估基准、监督机制与验证体系；

5.2 深耕多模态原生计算

打造文本、视觉、动作等多模态统一的原生潜计算空间，摆脱文本中介的多模态处理瓶颈；

5.3 规模化落地下游任务

以潜空间为核心支撑，推动复杂推理、机器人控制、具身智能、多智能体协作等真实场景的落地应用；

5.4 实现可信可控治理

攻克潜空间的可观测、可操控、可解释难题，让潜空间计算可评估、可管控、可审计，从根本上解决模型的可信性与安全性问题。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

查看全文

http://www.jsqmd.com/news/676288/

LRC Maker终极指南：5分钟从音乐小白到歌词制作专家

SLAM算法评测实战：除了轨迹误差，用evo分析A-LOAM还能看出什么门道？

高真空乳化机选购指南 - 资讯焦点

告别BeautifulSoup和lxml？试试Scrapy御用解析器Parsel的实战技巧

网页传输相关内容

OFA图像描述模型内网穿透部署：实现本地模型的公网安全访问

TurtleBot3小车+Velodyne VLP-16实战：手把手教你用A-LOAM构建可复用的室内点云地图

Switch NAND管理实战指南：NxNandManager深度解析与高效应用

阿里最强小钢炮上线！Qwen3.6-35B-A3B+OpenClaw本地部署全记录

2026年4月 | 视觉拆垛机器人TOP8厂家推荐 - 资讯焦点

abaqus应该怎样学，重点罗列来了！

AI驱动的制品库高效管理：智能分类、自动化追踪与全生命周期优化

思源宋体CN终极指南：7种字重免费开源中文字体的完整应用方案

C++11列表初始化：告别混乱的终极方案

Apple-Mobile-Drivers-Installer：Windows苹果设备驱动“三分钟连接术“

出海必看：德国VDE 2510-50储能新规，你的BMS和电池包设计过关了吗？

Real Anime Z风格泛化能力测试：跨种族/跨年龄/跨服饰的真实感表现

从SYNC到同步头：手把手调试JESD204B/C链路，附ADRV9026实战排错记录

在树莓派4B（ARM64）上搞定PyQt5：从源码编译到解决Qt::ItemDataRole报错的完整记录

Navicat无限试用终极指南：macOS用户必备的14天限制解决方案

3分钟解锁《经济研究》论文排版超能力

别再手动写寄存器测试了！手把手教你用UVM寄存器模型（RGM）搭建自动化验证环境

保姆级教程：在RK3128 Android 7.1上搞定红外遥控（从DTS到.kl文件全流程）

品冠装饰设计：黄埔区住宅装饰设计哪家好 - LYL仔仔

5分钟快速上手：Res-Downloader全网资源下载神器终极指南

Amphenol RJE1Y16915152401线束选型解析

SpringBoot 2.x 项目里手动添加webapp目录，解决JSP页面访问404和‘WEB-INF’路径警告

浏览器图片格式转换难题的终极解决方案：Save Image as Type

Agent工作流卡住了？试试AFlow：用蒙特卡洛树搜索自动帮你重构工作流拓扑

保姆级教程：在Ubuntu 18.04上为ORB-SLAM2添加彩色点云地图（含PCL库避坑指南）

相关文章：