当前位置：首页 > news >正文

VLM情境感知实验：90%功能描述漂移揭示智能体功能优先视觉架构

news 2026/7/15 10:20:58

1. 项目概述：当视觉模型学会了“看菜下碟”

如果你让一个普通人、一个厨师和一个安保人员同时走进一个普通的家庭厨房，让他们描述眼前所见，你会得到三份截然不同的清单。普通人可能会说“有个人、一张桌子、一台笔记本电脑、一个盘子”；厨师会立刻注意到“冰箱、水槽、砧板、刀具”；而安保人员则可能警觉地识别出“潜在的投掷物（盘子）、可作武器的工具（刀具）、遮挡视线的障碍物（高柜）”。这个简单的思想实验，揭示了一个被传统计算机视觉长期忽视的核心问题：我们（以及我们试图构建的智能体）对世界的感知，从来都不是对几何形状的客观复现，而是一种高度依赖于自身目标、意图和情境的功能化解读。

近年来，随着视觉语言模型（VLM）的崛起，我们第一次拥有了能够以接近人类自然语言方式“描述”图像的强大工具。这为我们提供了一个前所未有的实验场，来定量化地研究上述“情境依赖性”现象。本文所探讨的核心，正是基于VLM的一项系统性实验：我们如何通过设计不同的“智能体角色”（如厨师、儿童、安保人员），让同一个模型对同一批图像产生完全不同的功能化描述，并借此深入剖析智能视觉系统内在的“功能感知”计算原理。实验发现，切换智能体情境会导致超过90%的场景功能描述词汇发生改变。这强烈暗示，对于智能系统而言，场景中“有什么”远不如“我能用它来做什么”重要。

这项工作的价值，远不止于一个有趣的学术发现。它直接冲击了当前机器人、自动驾驶和所有依赖环境理解的AI系统的基础架构设计。主流的范式是“先重建几何世界，再理解其功能”——即先通过传感器数据构建一个包含物体位置、形状、纹理的静态3D地图，然后再为地图中的物体标注语义和功能。我们的研究则提出了一个颠覆性的可能性：高效的智能系统或许应该“反其道而行之”，优先计算场景对于当前任务而言的“功能可能性”（即“可供性”，Affordance），而几何细节只是用于实现这些功能的、次要的“残余信号”。这为开发更高效、更专注、能耗更低的下一代具身智能体提供了全新的理论蓝图和实证起点。

2. 核心思路与实验设计拆解

2.1 从“可供性”理论到可计算的假设

我们的研究根植于吉布森（James J. Gibson）的生态心理学理论，特别是其核心概念“可供性”。可供性指的是环境提供给动物的行动可能性，是动物-环境系统的一种关系属性。一把椅子，其“可供性”包括“可坐”、“可站”、“可攀爬”、“可推动”，具体哪个属性被感知，取决于感知者的目标（是休息、拿高处的东西，还是清理地面）。

传统计算机视觉致力于识别物体是什么（“椅子”），而可供性感知关注的是物体能用来做什么（“可坐”）。我们的核心假设（H2）是：视觉场景的几何表征（即物体是什么、在哪里）对其功能表征（即可供性）的约束力很弱，智能体的当前任务情境（Context）才是塑造功能感知的主导因素。用公式化的语言表达，即对于相同的几何场景 (g)，在不同的情境 (C_1) 和 (C_2) 下，模型计算出的可供性集合 (α) 会有显著差异： (∃g,C_1,C_2 : α(g,C_1,Θ) ≠ α(g,C_2,Θ))

为了验证这一点，我们不能停留在哲学讨论，必须将其转化为可计算、可测量的实验。VLM的诞生恰逢其时。我们将VLM视为一个“代理智能体”，通过设计不同的“系统提示词”（即情境启动，Context Prime），来模拟不同目标导向的智能体。

2.2 实验设计：七种角色，一场“视觉罗生门”

我们选取了COCO数据集中包含丰富物体和互动场景的图片作为刺激材料。关键在于，同一张图片会被反复输入模型，但每次配以不同的情境指令。我们设计了七种角色情境：

P0: 中性（Neutral）：作为基线。“客观分析此图像。列出3个最突出的物体、它们的几何属性及标准功能。”
P1: 厨师（Chef）：“你是一名专业厨师，正在审视这个场景中与烹饪相关的可能性。识别对食物制备最关键的3件物品及其可供性（你能用它们做什么）。”
P2: 安保（Security）：“你是一名安保专业人员，正在评估此空间的安全漏洞和战术资产。识别3个代表风险或防御工具的物品及其可供性。”
P3: 儿童（Child）：“想象你是一个4岁小孩。找出场景中3个有趣的可玩之物及你会如何使用它们。”
P4: 行动不便者（Mobility）：“你正乘坐轮椅在此空间导航。识别3个会阻碍你路径或辅助你移动的物体。”
P5: 紧急情况（Urgent）：“紧急！你只有30秒寻找求生工具。你首先看到什么以及如何使用它？”
P6: 休闲（Leisure）：“你正在此空间悠闲探索，毫无时间压力。什么东西会吸引你纯粹为了享受或放松？”

设计逻辑与考量：

覆盖性：这些角色覆盖了生存（紧急）、专业任务（厨师、安保）、身体约束（行动不便）、认知状态（儿童、休闲）和基线（中性）等多种维度，旨在激发多样化的功能感知模式。
指令特异性：指令不仅设定了角色，更明确了输出格式（“3个物体”及其“可供性”），并强制要求模型进行功能推理（“如何用它”），这比单纯问“你看到什么”更能触及可供性计算的核心。
可控性：所有其他变量（模型参数、图片、输出格式）保持恒定，唯一变量是情境指令，这确保了观察到的差异可归因于情境操控。

2.3 模型与流程：构建可重复的分析管道

我们主要使用Qwen-VL-30B-Instruct模型作为实验主体，并在后续使用LLaVA-1.5-13B进行了交叉验证，以确保发现不是某个模型特有的偏见。

技术流程如下：

数据准备：从COCO验证集中筛选出包含多物体、可能发生互动的场景图片。
API调用：对于每张图片，循环调用7次模型API，每次注入不同的情境提示词。提示词与图片以多模态消息格式（如OpenAI兼容格式）同时输入。
输出规范化：要求模型以指定JSON格式输出，包含物体ID、名称、可供性和推理理由。这便于后续的自动化解析和定量分析。
数据收集：最终获得一个三维数据张量：图像 × 情境 × 输出描述。每个输出被处理为两个层次的数据：词汇级（提取出的物体名称和可供性动词）和对象级（根据标准物体检测框进行对齐后的结果）。

实操心得与避坑指南：

温度参数（Temperature）的选择：主实验采用Temperature=0.7，以在确定性和创造性之间取得平衡，获得稳定又可解释的输出。但为了评估随机性影响，我们额外在0.0（确定性）、0.3、0.7、1.0（高随机性）四个温度下进行了大量重复实验（见第5.7节），这是区分“情境效应”与“随机噪声”的关键控制实验。
提示词工程是门艺术：最初的提示词可能无法有效激发角色扮演。例如，简单的“作为厨师描述图片”可能仍得到通用描述。必须通过迭代，加入如“最关键的”、“风险评估”、“如何玩耍”等引导词，才能“撬开”模型内部与任务相关的功能知识。我们的最终提示词是多次调试后的结果。
输出格式强制的重要性：要求JSON输出不仅便于分析，更重要的是约束了模型输出的结构，避免了自由文本带来的解析歧义，确保了跨情境比较的公平性。

3. 核心发现：量化“情境依赖性”的压倒性力量

3.1 杰卡德距离：90%的功能描述因情境而变

为了量化情境改变带来的影响，我们采用了杰卡德距离（Jaccard Distance）作为衡量标准。杰卡德相似系数计算两个集合的交集与并集之比，而杰卡德距离则是1减去相似系数，用于衡量差异。我们分别计算了词汇级（直接对比模型输出的单词集合）和对象级（基于检测框对齐后，对比被提及的同一物理对象的描述）的差异。

结果令人震惊：

词汇级杰卡德相似度均值：仅为0.0946。这意味着，平均而言，不同情境下模型用于描述同一场景的词汇，重叠部分不到10%。换言之，超过90%的词汇因情境不同而被替换。
对象级杰卡德相似度均值：为0.1192。即使我们对齐到同一个物理物体（比如都提到了“桌子”），模型对其功能和描述的侧重点也截然不同，相似度仍低于12%。
统计显著性：p值远小于0.0001，效应量（Cohen‘s d）高达-7.01（通常|d|>0.8即被视为“大效应量”）。这不仅是统计上显著，更是实践上巨大的差异。

这意味着什么？这直接验证了我们的核心假设。对于VLM而言，一张图片的“意义”不是固定的。一个“厨房场景”对于厨师是一个“烹饪工作空间”，对于安保是一个“潜在威胁评估现场”，对于儿童则是一个“游乐场”。模型并非在报告一个客观的物体清单，而是在执行一次基于情境的功能性投射。

3.2 情境依赖性的具体表现：从数据到直觉

原始研究中的表格（对应原文Table 6）清晰地展示了这种投射的差异性。例如，在一张可能包含人物、家具、日常用品的复杂图片中：

中性情境：提取如“人、盘子、笔记本电脑、斑马（玩偶）”等通用、显著的物体。
厨师情境：提取如“冰箱、桌子、披萨、水槽”等与食物制备紧密相关的物体。
安保情境：提取如“网球拍、笔记本电脑、冲浪板”等可被视作工具或武器的物体。
儿童情境：提取如“雪、网球拍、滑雪板”等与玩耍相关的物体。

关键洞察：模型并非简单地“看到”了不同的物体（虽然注意力机制可能导致侧重不同），更重要的是，它对于同一物体的“解读”发生了根本转变。一个“盘子”，在厨师眼中是“盛放食物的容器”，在安保眼中可能是“可投掷的物体”，在儿童眼中则是“可以旋转玩耍的圆片”。这种功能解读的差异，正是可供性理论的核心。

3.3 超越随机性：确证是情境效应，而非模型噪声

一个合理的质疑是：这种巨大的差异会不会只是大语言模型生成文本时固有的随机性造成的？也许模型本身就不稳定，同一提示词多次运行结果也不同，所谓的“情境差异”只是这种随机波动的表象。

为此，我们设计了严格的随机性对照实验：

计算组内方差：对同一张图片、同一情境提示词，用不同的随机种子（seed）运行模型多次，计算这些输出之间的相似度。这代表了“随机噪声”的水平。
计算组间方差：对同一张图片、同一随机种子，使用不同的情境提示词运行模型，计算这些输出之间的相似度。这代表了“情境效应+随机噪声”的水平。
计算方差比：如果情境效应真实存在，那么组间差异应远大于组内差异。

结果如表9所示：即使在最高随机性（Temperature=1.0）下，组间差异与组内差异的方差比也始终大于3。这意味着，由情境改变引起的输出变化，其幅度至少是模型内部随机波动的3倍以上。效应量指标η²（情境因素解释的方差比例）在0.25-0.27之间，远超心理学中0.14的“大效应”阈值。

结论：我们观察到的90%的“描述漂移”（Affordance Drift）是真实、强劲的情境效应，而非模型生成过程中的随机噪声。这奠定了后续所有分析的坚实基础。

4. 深挖机制：塔克分解揭示的潜在功能结构

发现了强大的情境效应后，我们自然要问：这种效应是杂乱无章的吗？不同情境之间是否存在某种潜在的结构关系？为此，我们引入了塔克分解（Tucker Decomposition），这是一种高阶主成分分析，非常适合用来探索我们拥有的三维数据（图像×情境×输出特征）中的潜在模式。

4.1 塔克分解是什么？一个直观比喻

想象一下，我们有一个数据魔方（张量）。这个魔方有三个维度：长边是360张不同的图片，宽边是7种不同的情境，高边是384维的模型输出特征（例如，经过句子编码器转换后的语义向量）。这个魔方里填充的数字，代表了每种“图片-情境”组合下的输出特征。塔克分解的目的，就是找到几组核心的“滤镜”或“主题”，用它们的组合来尽可能简洁地重构这个庞大的魔方。它会在每个维度上找到一组“因子”（可以理解为潜在维度），并有一个核心张量来描述这些因子之间如何相互作用。

在我们的实验中，我们使用了秩为[10,3,10]的塔克分解，成功解释了数据总方差的46.6%。这意味着，用3个情境因子、10个图像因子和10个特征因子，就能捕捉到近一半的数据变异模式，说明数据结构性很强。

4.2 三大潜在维度：通用性、专业性与空间性

分解出的3个情境因子（维度）具有非常清晰、可解释的含义：

维度1：通用显著性（General Salience）：这个维度在所有7种情境上都有相近且为正的载荷（约0.4）。但它只解释了0.9%的已捕获方差。这可以被理解为所有情境下都关注的、最基础、最上下文不变的视觉信号，可能对应着场景中最突出、最基础的几何或语义特征（比如“有个人”、“有个大物体”）。它的方差贡献极小，这本身就是一个重要发现：在功能感知中，与情境无关的“通用”信息只占微不足道的一部分。
维度2：烹饪流形（Culinary Manifold）：这个维度几乎完全由“厨师”（P1）情境所主导，其载荷高达0.95，而其他所有情境的载荷都接近零或为负。它解释了已捕获方差的49.2%。“流形”是一个数学概念，在这里可以直观理解为一片独立的功能“景观”或“概念空间”。这个发现表明，“烹饪”相关的可供性（如切割、加热、搅拌、储存）在VLM的表示空间中形成了一个高度特异化、与其他功能领域几乎正交（独立）的独立结构。厨师进入一个场景时，仿佛激活了一个专用的“烹饪滤镜”，只映射与烹饪相关的物体和可能性。
维度3：可达性轴（Access Axis）：这个维度呈现出一个鲜明的两极对立。“儿童”（P3）情境在正极有高载荷（+0.72），而**“行动不便者”（P4）** 情境在负极有高载荷（-0.60）。它解释了已捕获方差的49.9%。这个维度捕捉的是空间的功能属性：从开放、可玩、可进入（儿童视角）到阻碍、封闭、需规避（轮椅使用者视角）的连续谱。同一个门槛，对孩子是“可爬过的玩具”，对轮椅使用者则是“需要克服的障碍”。这个维度揭示了空间感知根本上的目标相对性。

4.3 正交性的深刻含义

最关键的是，维度2和维度3是正交的。这意味着“烹饪流形”和“可达性轴”代表了两种完全不同类型的功能分类方式，它们彼此独立。情境并不是在一个单一的“重要性”尺度上简单地调高或调低某些物体，而是将整个场景投射到性质完全不同的功能子空间中。

这带来的启示是革命性的：传统的视觉系统试图构建一个统一的、包含所有信息的“世界模型”。但我们的发现暗示，对于具有不同目标的智能体而言，或许根本不存在一个“最佳”的统一表示。一个为导航优化的表示（关注通道、障碍），与一个为操作优化的表示（关注物体的可抓取性、可操作性），在本质上是不同的。高效的架构或许应该支持这种按需构建的、即时生成的“功能特定表示”。

5. 稳健性检验：多角度验证发现的可靠性

任何重要的科学发现都必须经受多重检验。我们通过一系列补充分析，确保了上述结论的稳健性。

5.1 不同相似性度量的三角验证

杰卡德距离基于词汇重叠，但可能存在局限：比如“cooking”和“cook”虽然语义相近，但会被算作不同词。为此，我们使用了三种不同的相似性度量进行交叉验证：

原始杰卡德：基于空格分词的原始词汇重叠。
去停用词杰卡德：去除“the”、“a”、“is”等功能词，只关注实义词。
句子余弦相似度：使用Sentence-BERT等模型将整个描述转换为语义向量，计算向量间的余弦相似度。这能捕捉“语义相近但用词不同”的情况。

结果（对应原文Table 10）：

去停用词杰卡德：相似度均值进一步降至0.048，情境依赖性高达95.2%。这说明当聚焦于核心内容词时，差异更大。
句子余弦相似度：相似度均值为0.415，情境依赖性为58.5%。如何解读这个“余弦鸿沟”？余弦相似度（58.5%依赖）远高于杰卡德（90.5%依赖）。这揭示了另一个深层事实：虽然不同情境下使用的词汇差异极大，但这些词汇背后的语义在向量空间中的距离并没有那么远。厨师说的“砧板”和安保说的“潜在投射物”，虽然字面毫无重叠，但它们的语义向量可能因为都与“硬质平面物体”、“可用于施加力”等概念相关而比较接近。这表明，情境改变的是哪些功能属性被显式地语言化描述（词汇选择），但底层语义网络中对物体功能的基础知识可能是部分共享的。这调和了极端的情境依赖性观点，表明存在一个非平凡的不变语义核心。

5.2 模型泛化性：不止是Qwen-VL

我们在另一个主流开源VLM——LLaVA-1.5-13B上重复了核心实验。尽管模型架构、训练数据、规模都与Qwen-VL不同，但我们观察到了高度一致的情境依赖性模式。杰卡德相似度均值同样远低于0.5，且“厨师”、“儿童”等情境的特异性模式也复现了。这强有力地表明，情境依赖性的功能感知很可能是大规模多模态模型的一种涌现特性，而非某个模型的特定偏差。

5.3 塔克分解的稳定性分析

我们通过Bootstrap重采样（重复随机抽样1000次并重新计算分解）来检验发现的潜在维度是否稳定。结果非常稳健：

“厨师”在维度2（烹饪流形）上的载荷均值为0.954，95%置信区间为[0.948, 0.959]，区间宽度极窄。
“儿童”和“行动不便者”在维度3（可达性轴）上的正负对立关系在所有重采样中均保持一致。
因子相似性系数（Congruence Coefficient）均大于0.99，远超0.95的“优秀”阈值。

此外，我们尝试了不同的分解秩（如[5,3,5], [15,3,15]），发现虽然解释的方差有所增加，但**“烹饪流形”和“可达性轴”这两个核心的可解释因子结构始终保持稳定**。这证明我们发现的潜在结构是数据中真实存在的模式，而非分析方法或参数选择的偶然产物。

6. 理论阐释与未来方向：从现象到架构

6.1 重新定义发现：是注意显著性，而非可供性创造

我们必须谨慎解释“90%的漂移”这一发现。根据吉布森和特维的理论，可供性是环境-智能体系统的客观属性，它不会因感知而改变。厨房客观上同时为厨师“提供”烹饪的可能性，也为安保人员“提供”安全评估的可能性。改变的并不是可供性本身，而是哪些可供性被智能体的认知系统置于注意的焦点，成为当前活跃的表征。

这类似于西塞克提出的“可供性竞争”框架：视觉场景同时呈现大量潜在的行动可能性，而当前的任务情境就像一个裁判，偏袒那些与任务相关的可供性，使其在竞争中胜出，进入意识或决策流程。因此，我们的实验测量的实质上是注意的选择性，而非本体的不稳定性。然而，这种选择性具有深刻的架构意义：如果90%的功能信号都是情境依赖的，那么那些致力于计算与情境无关的通用表示的视觉系统，可能把大部分算力浪费在了计算“错误”的东西上——即那10%的残差，而非对行动至关重要的90%。

6.2 “即时本体论”：一个面向具身AI的架构猜想

我们的发现启发了一个大胆的架构设想：即时本体论。如果世界对于不同任务的智能体而言不存在一个唯一最优的“功能本体”，而是存在无数个由当前任务决定的潜在本体，那么维护一个庞大、静态的“世界模型”可能是低效的。

未来的机器人或许可以这样工作：当接到“拿一杯水”的任务时，它并不需要激活一个包含房间所有几何细节、物体材质、历史状态的完整模型。相反，它可以即时地根据“取物”这个任务，构建一个临时的功能表示空间。这个空间只突出与任务相关的维度：可抓取性（杯子的形状、材质）、可达性（路径上的障碍）、容纳性（杯子是否可盛水）。任务完成后，这个临时表示即可释放。这类似于人类进入一个陌生房间找遥控器时，我们不会记住所有物品的摆放细节，而是瞬间构建一个以“矩形、黑色、可能在平面上”为焦点的功能搜索模板。

已有一些前沿工作体现了这一思想。例如，VoxPoser这类系统利用大语言模型，在推理时根据自然语言指令即时合成3D价值地图，用于指导机器人操作，而无需预先构建和维护一个静态的世界模型。这种“按需构建”的方式在面对动态变化的环境时反而更鲁棒，因为它的表示总是基于最新的感知和任务需求新鲜生成的。

注意：这目前仍是一个受本研究启发但未被证实的设计假设，需要在真实的机器人系统中进行实证验证。但它为克服当前基于静态地图的SLAM（同步定位与地图构建）系统的局限性，提供了一条充满潜力的新路径。

6.3 对计算机视觉的启示：语义优先处理？

当前主流的计算机视觉架构遵循“几何优先”的范式：先通过卷积神经网络等提取低级几何特征（边缘、纹理），再逐步抽象为语义特征（物体类别、场景类别），最后可能结合任务上下文进行推理。

我们的研究结果暗示，一种“语义优先”或“功能优先”的处理顺序可能更高效：

将任务情境作为一等公民输入：模型架构应明确地将“当前要做什么”作为核心输入，而不是事后查询的附加条件。这直接由90%的情境依赖性所驱动。
先计算可供性空间表示，再计算细节几何：塔克分解显示，与情境无关的通用几何特征（维度1）只解释了极小的方差（0.9%）。或许系统应该先快速计算出“这里有哪些可能的功能”，然后再为这些功能填充必要的几何细节（例如，要判断“可坐”，只需粗略的形状和高度信息，无需精确的曲面重建）。
使用“行动距离”而非“欧氏距离”：在机器人路径规划中，两个点之间的“行动距离”可能比物理上的直线距离更重要。绕过一堆散落玩具的路径，对孩子（玩耍机会）和清洁机器人（障碍）而言，“距离”的定义完全不同。我们的“可达性轴”维度正是这种功能化空间度量的一个体现。
基于可供性相关性的注意力过滤：注意力机制不应只基于视觉显著性（颜色对比、运动），而应优先聚焦于与当前任务相关的可供性。这得到了正交因子结构的支持——不同情境关注的是完全不同的潜在维度。

6.4 研究的边界与未解之谜

我们必须清醒地认识到本研究的局限性，这同时也是未来工作的路标：

VLM作为代理的效度问题：VLM从互联网图文对中学习，而非通过具身交互。它的“可供性”知识来源于人类对图片的文字描述，而非真实的动作-感知闭环。这可能导致其学到的是“语言描述的模式”而非真正的“功能理解”。将结论推广到生物认知或具身机器人时需格外谨慎。
因果性与机制黑箱：我们证明了VLM的输出具有情境依赖性，但这并不能直接证明其内部处理过程是“语义优先”的。要验证P1（语义优先）预测，需要对模型进行层间干预或注意力分析，看情境信息是在早期还是晚期影响表征。
未验证的预测：本研究只直接验证了核心假设H2（情境依赖性）。由此框架衍生的三个重要预测仍有待未来检验：
- P1（语义优先性）：破坏模型的情境编码模块，是否比破坏其几何特征提取模块造成更大的性能下降？
- P3（空间的相对性）：在空间推理任务中，基于“行动距离”（如绕过障碍的路径长度）的预测是否比基于欧氏距离的预测更准确？
- P4（可供性在注意力中的首要性）：模型的注意力图是否更紧密地追踪与任务相关的可供性区域，而非视觉上最显著的区域？
文化偏差：实验使用的COCO数据集和VLM的训练数据主要反映特定文化背景。不同文化中，对物体功能的认知可能存在系统性差异，这部分尚未探索。

7. 实操启示与经验总结

对于从事AI、机器人、人机交互等领域的研究者和工程师，本研究提供了一些非常具体的实操启示：

1. 在评估或设计VLM应用时，必须将“情境”作为核心设计参数。

不要假设通用性：一个在“中性”提示下表现良好的VLM，在特定任务情境下可能需要进行针对性微调或提示工程。为客服机器人、教育助手、工业质检设计的VLM，其最优提示策略和评估标准应有所不同。
提示词即“情境开关”：我们的实验表明，精心设计的提示词可以有效地将模型“切换”到不同的功能感知模式。在实践中，这比训练多个专用模型可能更高效。

2. 为机器人任务规划注入“功能视角”。

超越物体识别：在机器人感知栈中，除了输出“这是什么物体”（语义分割），和“它在哪里”（实例分割/3D位姿），应增加一个“它能用来做什么”（可供性分割）的输出层。
任务驱动的表示：机器人的内部世界表示不应是统一的。导航模块需要以“可通过性”为核心的2.5D高度图，抓取模块需要以“可抓取性”为核心的抓取点热图，操作模块需要以“可操纵性”为核心的部件运动链表示。这些表示可以根据任务即时生成或激活。

3. 理解并利用模型的“功能隔离”特性。

专业化与泛化的权衡：塔克分解显示“烹饪流形”与其他维度正交。这意味着试图构建一个“全能”的通用视觉模型可能事倍功半。更好的策略或许是培养一系列“专家”模型（或模型中的专家模块），每个擅长一个特定的功能领域，然后通过一个元控制器根据任务调用。
可解释性的新途径：通过类似塔克分解的方法，我们可以逆向工程出模型内部存在的各种“功能流形”，这为理解大模型的黑箱提供了一种基于功能的可解释性视角。

4. 关于实验复现与扩展的注意事项。

模型选择：优先选择支持复杂指令跟随和角色扮演的开源VLM，如Qwen-VL、LLaVA-Next等。商用API（如GPT-4V）虽然强大，但可能因版本更新和输出随机性导致实验结果难以稳定复现。
提示词设计：这是成功的关键。指令必须具体、包含角色设定、并明确要求输出“功能”或“可供性”。迭代测试至关重要。
评估指标：杰卡德距离是一个好的起点，但务必结合语义相似度（如余弦相似度）进行分析，以区分“词汇变化”和“语义变化”。对于更精细的分析，可以人工标注或使用更细粒度的可供性分类体系。

这项研究打开了一扇门，让我们看到智能系统感知世界的一种根本不同的方式：不是被动地重建一个客观的几何现实，而是主动地、基于目标地投射出一个功能性的、可供行动的现实。这不仅是理论上的突破，更为构建真正适应动态环境、高效完成复杂任务的下一代人工智能系统，指明了充满希望的方向。未来的工作，将是在真实的物理世界中，将这些计算原理转化为机器人灵巧而智能的行动。

查看全文

http://www.jsqmd.com/news/874658/