当前位置: 首页 > news >正文

微软开源Phi-4-reasoning-vision-15B:小模型的大突破

【导语:当多模态模型朝着大参数方向发展时,微软开源的Phi-4-reasoning-vision-15B选择了“更小、更快”路径。它仅用200B多模态token训练,在性能与成本平衡上表现出色,为多模态模型发展提供新思路。】


“更小更快”打破规模桎梏

当前,多数视觉 - 语言模型追求参数规模扩大,导致训练和推理成本及延迟增加,限制了在资源受限或实时交互场景的应用。而Phi-4-reasoning-vision-15B另辟蹊径,仅使用200B多模态token进行训练,远低于同类模型的万亿级token消耗。与之对比,Qwen 2.5 VL、Qwen 3 VL等模型训练所用token均超1T。这种轻量化设计使模型能在普通硬件上运行,还具备结构化推理能力。

中期融合架构兼顾效率与性能

模型架构方面,VLM主要有早期融合和中期融合两种方式。早期融合虽能生成丰富联合表征,但计算、内存及数据成本高;中期融合则利用预训练视觉编码器将图像转换为视觉token,投影到预训练大语言模型嵌入空间,能在资源有限时提供可行权衡方案。Phi-4-reasoning-vision-15B最终采用中期融合架构。

在视觉编码器选择上,研究团队对多种技术进行消融研究。实验发现,动态分辨率的视觉编码器表现最佳,尤其在高分辨率数据上。SigLIP - 2的Naflex变体作为视觉编码器,在高分辨率基准测试中性能显著提升。

数据质量与配比优化模型能力

Phi-4-reasoning-vision-15B训练将数据质量置于核心,数据集主要源于精细筛选优化的开源数据、高质量领域专属内部数据和定向采集数据。通过人工抽样审查、GPT - 4o与o4 - mini重新生成回复等方式,优化开源数据。还通过格式重构、内容多样化处理等挖掘数据价值。

在数据配比实验中,研究发现增加计算机操作数据不损害多模态数学与科学任务性能,增加数学数据量至三倍,能同时提升数学、科学和计算机操作三个领域的基准测试表现。此外,合成的文本密集图像扩展了对长尾视觉格式的覆盖,提升了下游推理性能。

混合推理策略平衡性能与成本

多模态推理模型训练中,何时启用推理是关键问题。Phi-4-reasoning-vision-15B采用“推理LLM → 混合非推理/推理多模态训练”路径,在推理能力、推理效率与数据需求间实现平衡。模型默认在以感知为主的领域直接推理,在数学、科学等领域调用更长推理路径。推理数据约占整体数据混合比例的20%。

不过,这种方法也有局限,两种模式边界不精确,20%推理数据与80%非推理数据的配比未必适用于所有领域或部署场景。

多领域应用前景广阔

Phi-4-reasoning-vision-15B在众多视觉 - 语言任务上表现出色,可用于图像描述、问答、文档与票据识别等。在科学与数学推理及计算机操作场景中,它能求解视觉形式数学问题、辅助计算机界面导航,尤其适合低延迟与轻量化要求的交互式环境。

编辑观点:微软的Phi-4-reasoning-vision-15B为多模态模型发展提供了新方向,其在性能与成本平衡上的突破值得关注。未来,随着技术不断演进,小型多模态模型有望在更多领域发挥重要作用。

http://www.jsqmd.com/news/636560/

相关文章:

  • 20254218 2025-2026-2 《Python程序设计》实验二报告
  • 【深度评测】Gemini Pro与Gemini Pro Vision:开发者视角下的能力边界与实战陷阱
  • AIAgent开发入门资料已严重过时?2026奇点大会技术白皮书V0.9.3提前解禁:12个生产级Agent架构决策树(附避坑红标版)
  • 3步掌握微信聊天记录永久保存:开源工具重塑你的数字记忆体验
  • 深度学习驱动的全色与多光谱遥感图像融合:技术演进、评价体系与未来挑战
  • 从0到1安装WSL2
  • PHP错误和异常如何处理_PHP错误与异常处理机制详解【详解】
  • 新手必看!Abaqus支反力提取完整流程:以搅拌摩擦焊仿真为例(含Python自动化脚本)
  • 跨平台虚拟串口实战:从VSPD到socat的配置与调试
  • 如何修改RAC数据库名_NID工具在集群环境下的改名步骤
  • AIAgent如何真正“看懂”物理世界?:2026奇点大会披露12项跨模态环境锚定技术指标
  • Web3新秀gpress,对标Hugo和WordPress?
  • 浏览器端HTML转DOCX解决方案:告别服务器依赖的文档生成革命
  • 微信小程序的社区养老护工服务预约评价系统
  • 【隐写分析】实战工具指南:从入门到精通
  • XML Notepad完全指南:3步掌握免费XML编辑器的高效使用方法
  • 智能体市场生态:Agent Store 的未来形态
  • WorkshopDL:跨平台Steam创意工坊下载器的终极解决方案
  • 云原生微服务最佳实践
  • 芯片尺寸封装
  • 从版本匹配到实战验证:onnxruntime-gpu与CUDA环境搭建全攻略
  • 汽车横摆稳定性控制系统:基于LQR、模糊PID与滑模控制的联合仿真研究
  • 小程序如何帮助商家做私域运营?
  • 【教学类-160-06】20260413 AI视频培训-练习6“豆包AI视频《未来教育》+豆包图片风格:赛博朋克”
  • 对SBTI人格分配的研究
  • Web服务器和环境管理器
  • 《温暖的客栈》林允做春味宴:这一锅腌笃鲜,鲜到心里去|珠海也能复刻
  • LangChain 的 LCEL 写法
  • 卡尔曼滤波小白必看:FAST-LIO凭什么比传统SLAM快5倍?从数学推导到代码实现
  • 6.1 主题与暗色模式