寻找/构建一种视觉听觉语言等的统一表示层
可以先关注 “从大语言模型到 NeRF 表达的直接转换” 这一方向的学术论文。目前最核心、最直接对应这一主题的研究是LLaNA(Large Language and NeRF Assistant)系列工作,它首次实现了将 NeRF 的 MLP 权重直接输入到大型语言模型中进行理解与推理,而无需渲染图像或提取显式 3D 数据结构。
以下是该方向的关键论文梳理:
1. 开创性工作:LLaNA
论文:LLaNA: Large Language and NeRF Assistant
作者:Andrea Amaduzzi, Pierluigi Zama Ramirez, Giuseppe Lisanti 等(University of Bologna)
发表:NeurIPS 2024
核心思想
该论文首次提出将NeRF 的 MLP 权重直接作为多模态大语言模型(MLLM)的输入模态。传统方法需要先将 NeRF 渲染为 2D 图像或提取为 3D 点云,再输入到视觉语言模型中;而 LLaNA 通过一个meta-encoder(基于 nf2vec)直接处理 NeRF 的权重矩阵和偏置,将其投影到预训练 LLM(如 LLaMA 2)的 token 嵌入空间中。
技术路径
- 输入:NeRF 的 MLP 权重(矩阵W\mathbf{W}W和偏置b\mathbf{b}b堆叠成矩阵M∈RS×H\mathbf{M} \in \mathbb{R}^{S \times H}M∈RS×H)
- 编码器:nf2vec meta-encoder,输出全局嵌入
- 投影层:可训练的线性层ϕ\phiϕ,将 NeRF 嵌入映射到 LLaMA 2 的词嵌入空间
- 特殊 token:用
<n_start>和<n_end>包裹 NeRF 嵌入,与文本 token 拼接后输入自回归 Transformer
关键优势
- 信息完整性:直接处理权重避免了渲染视角选择和分辨率损失的问题
- 计算效率:处理权重的时间与空间分辨率无关,而提取点云的时间随分辨率立方增长
- 性能优势:在 NeRF 描述(captioning)和问答(Q&A)任务上,LLaNA consistently 优于基于渲染图像或点云的基线方法
2. 扩展与规模化:Scaling LLaNA
论文:Scaling LLaNA: Advancing NeRF-Language Understanding Through Large-Scale Training
发表:arXiv 2025-04
主要进展
- 数据集扩展:从 ShapeNeRF-Text(40K 合成对象)扩展到ObjaNeRF-Text(280K NeRF,包含真实世界对象),规模扩大 7 倍,并引入人工撰写的高质量标注
- LLM 规模效应:系统研究了底层 LLM 尺寸对 NeRF 语言理解任务的影响
- 方法延续:保留了直接处理权重的核心范式,验证了该路线在更大规模数据上的可扩展性
3. 空间感知增强:Spatial LLaNA
论文:Spatially-aware Weights Tokenization for NeRF-Language Models(OpenReview, 2025)
核心创新
针对 LLaNA 使用全局嵌入导致空间推理能力受限的问题,该工作提出weights2space框架:
- 空间化 token:meta-encoder 不再输出单一全局向量,而是生成一组空间 token 序列,保留 NeRF 内部的几何与外观的空间结构信息
- Spatial LLaNA:基于空间化表示构建的 MLLM,能够进行细粒度的空间关系理解(如"按钮在屏幕的哪个位置")
- 新数据集:Spatial ObjaNeRF,包含 100 个具有挑战性的空间推理标注
4. 相关但不同的方向
需注意区分"LLM → NeRF 直接转换"与以下相关方向:
| 方向 | 代表工作 | 区别 |
|---|---|---|
| Text-to-3D via Diffusion | DreamFusion, Magic3D 等 | 使用 2D 扩散模型蒸馏到 NeRF,不直接处理 LLM 权重 |
| Language Grounding in NeRF | LERF, OV-NeRF | 将 CLIP/SAM 特征嵌入 NeRF 场,用于开放词汇分割,不涉及 LLM 理解 NeRF 权重 |
| LLM Agent for NeRF Code | NERFIFY | 用 LLM 多智能体将 NeRF 论文自动转换为代码,是代码生成而非表达转换 |
总结
这里是大语言模型直接理解/处理 NeRF 神经网络的权重参数,而非通过渲染中介,那么LLaNA 系列(尤其是 NeurIPS 2024 的原始论文和 2025 年的空间感知扩展)是目前最直接、最权威的学术来源。该方向属于新兴的“neural field as modality”领域,将训练好的神经网络权重本身视为一种可与语言对齐的数据模态。
