当前位置：首页 > news >正文

微软开源Phi-4-reasoning-vision-15B：小模型的大突破

news 2026/6/2 1:39:53

【导语：当多模态模型朝着大参数方向发展时，微软开源的Phi-4-reasoning-vision-15B选择了“更小、更快”路径。它仅用200B多模态token训练，在性能与成本平衡上表现出色，为多模态模型发展提供新思路。】

“更小更快”打破规模桎梏

当前，多数视觉 - 语言模型追求参数规模扩大，导致训练和推理成本及延迟增加，限制了在资源受限或实时交互场景的应用。而Phi-4-reasoning-vision-15B另辟蹊径，仅使用200B多模态token进行训练，远低于同类模型的万亿级token消耗。与之对比，Qwen 2.5 VL、Qwen 3 VL等模型训练所用token均超1T。这种轻量化设计使模型能在普通硬件上运行，还具备结构化推理能力。

中期融合架构兼顾效率与性能

模型架构方面，VLM主要有早期融合和中期融合两种方式。早期融合虽能生成丰富联合表征，但计算、内存及数据成本高；中期融合则利用预训练视觉编码器将图像转换为视觉token，投影到预训练大语言模型嵌入空间，能在资源有限时提供可行权衡方案。Phi-4-reasoning-vision-15B最终采用中期融合架构。

在视觉编码器选择上，研究团队对多种技术进行消融研究。实验发现，动态分辨率的视觉编码器表现最佳，尤其在高分辨率数据上。SigLIP - 2的Naflex变体作为视觉编码器，在高分辨率基准测试中性能显著提升。

数据质量与配比优化模型能力

Phi-4-reasoning-vision-15B训练将数据质量置于核心，数据集主要源于精细筛选优化的开源数据、高质量领域专属内部数据和定向采集数据。通过人工抽样审查、GPT - 4o与o4 - mini重新生成回复等方式，优化开源数据。还通过格式重构、内容多样化处理等挖掘数据价值。

在数据配比实验中，研究发现增加计算机操作数据不损害多模态数学与科学任务性能，增加数学数据量至三倍，能同时提升数学、科学和计算机操作三个领域的基准测试表现。此外，合成的文本密集图像扩展了对长尾视觉格式的覆盖，提升了下游推理性能。

混合推理策略平衡性能与成本

多模态推理模型训练中，何时启用推理是关键问题。Phi-4-reasoning-vision-15B采用“推理LLM → 混合非推理/推理多模态训练”路径，在推理能力、推理效率与数据需求间实现平衡。模型默认在以感知为主的领域直接推理，在数学、科学等领域调用更长推理路径。推理数据约占整体数据混合比例的20%。

不过，这种方法也有局限，两种模式边界不精确，20%推理数据与80%非推理数据的配比未必适用于所有领域或部署场景。