当前位置: 首页 > news >正文

商汤开源 SenseNova-MARS:多模态搜索推理天花板,超越 Gemini-3-Pro

今日,商汤正式开源多模态自主推理模型 SenseNova-MARS(8B/32B 双版本),其在多模态搜索与推理的核心基准测试中以 69.74 分超越 Gemini-3-Pro(69.06 分)、GPT-5.2(67.64 分)。

SenseNova-MARS 是首个支持动态视觉推理和图文搜索深度融合的 Agentic VLM 模型,它能自己规划步骤、调用工具,轻松搞定各种复杂任务,让 AI 真正具备「执行能力」。

在 MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA 等基准测试中,SenseNova-MARS 取得开源模型中的 SOTA 成绩,还超越 Gemini-3.0-Pro、GPT-5.2 等顶级闭源模型,在搜索推理和视觉理解两大核心领域全面领跑。更多细节请参见技术报告(https://arxiv.org/abs/2512.24330),欢迎开发者、各行业用户测试与体验。

全能冠军,自主解决复杂问题

SenseNova-MARS 在多项多模态搜索评测中展现出明显的领先优势,平均得分达到 69.74 分,成功超过了 Gemini-3-Pro 的 69.06 分与 GPT-5.2 的 67.64 分。

在 MMSearch 榜单(图文搜索核心评测)中,模型以 74.27 分登顶,超 GPT-5.2(66.08 分);HR-MMSearch(高清细节搜索评测)中以 54.43 分领先,显著拉开与闭源模型的差距。

HR-MMSearch 的测试题目堪称「AI 界的奥林匹克」:采用 305 张 2025 年最新的 4K 超高清图片,确保 AI 无法依赖旧知识「作弊」;所有问题都针对图片中占比不到 5% 的细节,比如小标志、小字、微小物体,必须用图像裁剪工具才能看清;覆盖体育、娱乐文化、科学技术、商业金融、游戏、学术研究、地理旅行等八大领域,60% 的问题都需要至少使用三种工具才能解答。

简单说,无论是需要「查遍全网」的知识密集型任务,还是需要「火眼金睛」的细粒度视觉分析,它都是当前的「全能冠军」。

用组合拳,解决真实场景问题

SenseNova-MARS 还能实实在在落地到我们生活和工作的场景,解决需要「多步骤推理+多工具协作」的问题。

普通 AI 的工具调用,要么只能搜文字,要么只能看图片,遇到需要「先放大细节、再识别物体、最后查背景」的复杂任务就束手无策。

面对识别赛车服微小 Logo + 查询公司成立年份 + 匹配车手出生年月 + 计算差值』的复杂任务,SenseNova-MARS 可自主调用图像裁剪、文本 / 图像搜索工具,无需人工干预完成闭环解答。

SenseNova-MARS 能从产品和行业峰会的照片中,识别企业的标志,快速搜集产品、企业的信息,以及时间、数量、参数等细节要素,辅助分析行业情况和格局。

SenseNova-MARS 能从赛事照片中识别画面中的 Logo、人物等信息,追溯比赛或人员背景信息,帮助快速补充重要细节。

SenseNova-MARS 甚至能够轻松处理,这类超长步骤的多模态推理,和超过三种工具调用,自动裁剪分析细节、搜索相关研究数据,快速验证假设,得出关键判断。

拥有这种「自主思考+多工具协作」的能力,SenseNova-MARS 能够自动解决「细节识别 + 信息检索 + 逻辑推理」复杂任务,帮助实现工作效率提升。

• 图像裁剪:能精准聚焦图片上的微小细节,哪怕是占比不到 5% 的细节——比如赛车手衣服上的微小 Logo、赛事照片里观众席的标语,都可通过裁剪放大清晰分析。• 图像搜索:能在看到物体、人物或场景,的瞬间自动匹配相关信息——比如识别出赛车手的身份,或是某款冷门设备的型号。• 文本搜索:能快速抓取精准信息——无论是公司成立年份、人物出生年月,还是最新的行业数据,都能秒级获取。

从练中学, 形成"直觉"和"经验"

SenseNova-MARS 采用了「因材施教」的训练方法。

• 第一阶段:打基础。针对跨模态多跳搜索推理训练数据稀缺的痛点,创新性的提出了基于多模智能体的自动化数据合成引擎,采用细粒度视觉锚点 + 多跳深度关联检索的机制,动态挖掘并关联跨网页实体的逻辑,自动化构建高复杂度的多跳推理链路,同时引入闭环自洽性校验来去除幻觉数据,构造出具备严密逻辑链条与高知识密度的多跳搜索问答数据。用精心筛选的「高难度案例」做教材,每个案例都标注了「该用什么工具、步骤是什么」,让 AI 先学会基本的「破案逻辑」。这些案例都是从海量数据中挑出的「硬骨头」,确保 AI 一开始就接触真实复杂场景。• 第二阶段:练实战。采用「强化学习」——就像侦探在一次次破案中积累经验,AI 每做对一次决策(比如选对工具、步骤合理)就会获得奖励,做错了就调整策略。为了避免 AI「学偏」,研究团队还加了个「稳定器」——BN-GSPO 算法,让它在处理简单题和复杂题时都能保持稳定进步,不会出现「偏科」。这种基于双阶段归一化的优雅机制有效平滑了动态工具调用返回分布多样性带来的优化波动并确保了学习信号分布的一致性,从而成功解决了跨模态多步多工具智能体训练过程中的收敛性难题。

经过这样的训练,AI 不仅学会了用工具,更培养"工具使用直觉"——知道在什么情况下应该使用哪些工具,以及如何将不同工具的结果有机结合起来。

模型、代码、数据全开源

商汤日日新 SenseNova-MARS 模型、代码、数据集全开源,支持 Hugging Face 直接下载。

来源:互联网

http://www.jsqmd.com/news/322863/

相关文章:

  • GrokAI 1.1.12-release.03 | 马斯克AI,实测可无敏感生图,可生成视频
  • 【课程设计/毕业设计】基于SpringBoot+Vue的甜品店管理系统设计与实现前台销售、后台管理、库存控制、员工管理【附源码、数据库、万字文档】
  • LeetCode 388 文件的最长绝对路径
  • Vue 报错「Key ‘xxx‘ is not defined in data」?3 步教你把响应式键填齐,警告立刻消失!
  • 告别沟通内耗!2026企业即时通讯软件TOP3推荐,第一款闭眼入
  • 【软件测试】11_性能测试实战 _编写性能测试报告
  • Flutter 路由系统,对比 RN / Web / iOS 有什么本质不同?
  • Vue.js 报错:Cannot read properties of undefined (reading ‘v-model‘) —— 3 分钟让双向绑定重新「活」起来!
  • 【金融项目实战】1_金融项目 _金融专业术语
  • Vue + TS 报错「Argument not assignable」?3 步教你把类型对齐,函数立刻可调用!
  • 基于SpringBoot+协同过滤算法的动漫信息推荐系统的设计与实现
  • 凤希AI伴侣:模型自由与数据本地化重构-2026年1月30日
  • 探秘大数据领域MapReduce的强大功能
  • 权威研究:比保健品还管用!每天吃点它,大脑年轻20岁,认知能力直线飙升!
  • Python+django小程序物业报修置换缴费管理系统21c56
  • 第21届全国大学生智能汽车竞赛讯飞组赛项:智慧工程
  • Python+django健康生活助手活动报名微信小程序的可视化
  • DHCP 不只是办公网络专属,工业网络同样离不开它
  • 【笔记】【A股、港股、美股、 ETF、期货、黄金、可转债分别是什么?】
  • 颠覆RLHF!LLMdoctor让7B小模型轻松驾驭70B大模型,实现高效对齐
  • 学习进度 14
  • Java零基础程序员必看,1小时速通SpringAIalibaba,搞定企业刚需技术,offer拿到手软!
  • 【毕业设计】基于SpringBoot+Vue的甜品店管理系统设计与实现(源码+文档+远程调试,全bao定制等)
  • Java毕设选题推荐:基于web甜品店管理系统基于SpringBoot+Vue的甜品店管理系统设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】
  • Java计算机毕设之基于SpringBoot+Vue的甜品店管理系统设计与实现基于web甜品店管理系统(完整前后端代码+说明文档+LW,调试定制等)
  • 【概念板块和行业板块】【股市交易规则】
  • 2026大模型学习路线图:从零基础到精通,收藏这份超全指南,小白也能快速上手!
  • 计算机Java毕设实战-基于SpringBoot+Vue的甜品店管理系统设计与实现基于SpringBoot+Vue+MySQL的甜品店管理系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • clawdbot (openclaw) + discord 机器人部署指南学习教程
  • Java毕设选题推荐:基于MyBatis的在线车辆租赁信息管理系统的设计与实现基于SpringBoot+Vue的汽车租赁管理系统管理系统设计与实【附源码、mysql、文档、调试+代码讲解+全bao等】