当前位置: 首页 > news >正文

【科研快报】哈工深等开源CVSearch | 首创认知驱动视觉搜索,让大模型学会“看重点“

在多模态大模型(MLLM)的研究中,如何让模型"看清"高分辨率图像一直是个让人头疼的问题。虽然现在的模型推理能力越来越强,但面对动辄4K甚至8K的超清图像,它们往往会因为严重的下采样而变成"近视眼",漏掉那些关键的微小细节。

真实场景中感知尺度的多样性以及现有方法的局限性

为了破解这一难题,来自哈尔滨工业大学(深圳)、深圳鹏城实验室以及中国科学院深圳先进技术研究院的研究团队提出了CVSearch框架。这种"先评估、再搜索"的机制,让大模型在不经过任何额外训练的情况下,就能精准捕捉到超清图像中的每一个角落。

背景与动机:为什么大模型总是"看不清"?

目前大模型处理高分辨率图像主要有三条路:要么暴力切图(AnyRes),但这会把物体切碎,导致语义断裂;要么修改架构,但这会增加计算负担且不够灵活;要么引入视觉搜索。

传统的视觉搜索虽然有潜力,但往往陷入"两难"境地:

  • 专家辅助搜索(如调用SAM模型):效率高,但如果专家模型没找准,大模型就彻底"瞎"了,缺乏兜底机制。

  • 扫描式搜索:虽然覆盖全面,但通常采用死板的网格切分(Rigid Grid),不仅浪费计算资源在背景上,还会把物体切得支离破碎。

如图所示,现有的视觉专家辅助方法(如DyFo)在极小目标上覆盖不足,而基于扫描的方法(如RAP)效率又太低。CVSearch的出现,正是为了在效率和鲁棒性之间找到那个完美的平衡点。

方法详解:像人类一样"按需搜索"

CVSearch的核心是一个三阶段的认知工作流,它将视觉搜索重新定义为一个分层的决策过程。

1. 认知驱动的自适应切换机制

CVSearch的核心理念是"先评估、再搜索"——模型首先对图像进行整体感知,判断哪些区域需要重点关注,然后再针对性地调用视觉专家进行细粒度分析。这种机制模拟了人类看图时的注意力分配:先扫一眼全局,找到值得关注的区域,再凑近看细节。

认知驱动机制示意图,展示自适应切换逻辑

与传统方法相比,CVSearch的优势在于:

  • 语义完整性保护:避免网格切分把物体主体切断,保留完整的语义信息

  • 计算资源高效利用:只对高价值区域调用专家模型,避免全图扫描

  • 鲁棒性保障:即使专家模型判断失误,仍有场景感知扫描作为兜底

2. 场景感知网格切分(SGAP)

当专家搜索无法完全覆盖目标时,CVSearch采用了一种智能的网格切分策略。与传统刚性网格不同,SGAP能够感知场景语义,自动避开物体主体,只在留白区域进行切分。

SGAP策略与传统网格切分的对比

从定性对比可以清晰地看到:传统的网格切分(Zoom Eye/RAP)会把商店招牌、教堂尖顶、卡车车头无情切断。而CVSearch的SGAP策略则像是有灵性一样,完美避开了物体主体,保留了完整的语义信息。

实验结果:免训练也能刷爆榜单

研究团队在多个高分辨率基准测试上验证了CVSearch的威力。由于它是**免训练(Training-free)**的,可以直接"插"在Qwen2.5-VL、LLaVA-OV或InternVL2.5等模型上使用。


1. 性能大幅领先

在专门针对高分辨率的V* Bench上,CVSearch配合LLaVA-OV-7B达到了91.6的惊人准确率。在更具挑战性的HR-Bench 8K任务中,配合InternVL2.5-8B更是达到了77.6的SOTA成绩,相比原始模型提升了整整20.2个百分点!

基准测试

基础模型

原始成绩

+CVSearch

提升

V* Bench

LLaVA-OV-7B

    91.6

    SOTA

    HR-Bench 8K

    InternVL2.5-8B

    57.4

    77.6

    +20.2

    HR-Bench 4K

    Qwen2.5-VL

      75.8

      显著提升

      2. 搜索效率的质变

      相比于传统的扫描方法(如Zoom Eye和RAP),CVSearch在保持高精度的同时,吞吐量提升了数倍。在HR-Bench 4K任务中,CVSearch的吞吐量达到了3.77,而传统扫描方法仅为1.2左右。


      这意味着CVSearch不仅"看得准",而且"看得快",真正实现了效率和精度的双赢。

      3. 跨模型与尺寸的稳健性

      实验表明,CVSearch具有极强的通用性。无论是2B的小模型还是32B的大模型,集成该框架后性能均有显著提升。例如,在Qwen3-VL-32B上,它依然能在HR-8K任务上带来7.5点的增益。

      技术启示:从"暴力计算"到"认知智能"

      CVSearch的成功给我们带来了重要启示:提升视觉模型的高分辨率感知能力,未必要靠更大的计算量、更复杂的架构。关键在于让模型学会像人类一样"按需分配注意力"——先看轮廓、再找重点、最后扫细节。

      这种"认知驱动"的设计理念,不仅解决了高分辨率感知的痛点,也为未来开发更高效、更智能的视觉交互系统开辟了新路径。

      开源与展望

      目前代码已经开源(GitHub: liliupeng28/ICML26-CVSearch),对于想要在超清图像理解、小目标检测等领域有所突破的开发者来说,这是一个值得尝试的工具。

      CVSearch项目GitHub页面

      未来,研究团队计划进一步探索:

      • 将CVSearch扩展到视频理解领域

      • 结合多模态大模型的推理能力,实现更复杂的视觉问答

      • 探索端到端的可训练版本,在特定任务上进行微调优化

      看到如此精彩的计算机视觉研究成果,是否也想站上国际学术舞台展示你的工作?
      IC-EISIT 2026(International Conference on Electronic Information Systems and Intelligent Technologies)由SPIE出版,EI Compendex + Scopus双检索,快展示你的研究一起共同交流吧!


      ©洵锋学术(SUNFER ACADEMIC)————洵启学术,专业凝锋

      版权说明:以上图片均来自开源技术博客及论文公开资源,版权归属各原作者

      http://www.jsqmd.com/news/964134/

      相关文章:

    • Tab 键之争:从微软 IBM 到程序员群体,半个世纪的代码缩进战争!
    • 别再为天线匹配头疼了!用HFSS仿真耦合馈电圆极化天线,手把手教你避开传统馈电的坑
    • 建议收藏|一键生成论文工具测评:2026最新好用工具推荐与对比
    • [鸿蒙PC命令行移植适配]移植rust三方库peep到鸿蒙PC的完整实践
    • 免费绕过iOS 15-16激活锁的终极指南:applera1n让你的iPhone重获新生
    • QQ截图独立版:3个隐藏技巧让你的Windows效率飙升300%
    • 中国电子学会图形化2022.6月Scratch三级考级题
    • 如何完整备份你的QQ空间:GetQzonehistory终极指南
    • 如何通过智能辅助工具全面提升英雄联盟游戏体验:League Akari完整指南
    • C# 文件级 using(global using)
    • AI写论文大比拼!4款AI论文生成工具,哪款才是你的心头好?
    • AI写论文的秘密武器!4款AI论文生成神器,让你的论文写作更高效!
    • 寄快递行李哪个比较便宜?寄大件行李怎么省钱 便宜快递怎么选 - 不再彷徨啊
    • MIFARE Classic Tool终极指南:用手机轻松管理你的NFC门禁卡
    • 高端制造行业晶圆制造技术岗工艺整合工程师晋升CTO的路径
    • 一张卡片撬动万级私域流量?CSDN官方AI引流系统架构图首度流出(含CDN调度链路与CTR提升17.3%的关键节点)
    • 【PC】SPlayer-高颜值免费音乐软件-畅听全网
    • ESP32 TCP通信保姆级教程:从Socket创建到数据收发,手把手带你跑通第一个网络例程
    • GEO监测工具选哪个?搜极星、GEO探针、AllrightTOP、AiSaysTOP横向对比
    • 手把手教你爬取贝壳找房新房楼盘数据:动态加载破解与反爬虫实战
    • 采购岗位全解析:从Sourcing到Buyer,供应链管理的职能细分与职业发展
    • 2026实力之选:市政清洗吸污车/化粪池清理车/下水道疏通吸污车/工地泥浆转运车等源头工厂实力解析 - 品牌企业推荐师(官方)
    • JASP统计分析软件:免费开源的贝叶斯与频率统计完整解决方案
    • 告别臃肿系统软件:GHelper如何用50MB内存为华硕笔记本带来极致性能控制体验
    • 复解析互易律与Gysin映射在复几何中的应用
    • 5分钟掌握录播姬:开源直播录制工具的完整使用指南
    • 食品伙伴网实验室信息管理系统(LIMS)如何定制自己的管理系统
    • 从‘芯’认识运放:TI/ADI常见型号选型指南与典型应用电路解析
    • 风场光伏光缆分缆测损,DM-40A 光通信综合测试仪高效运维
    • kanzi中动画的使用--让属性动起来