当前位置: 首页 > news >正文

顶刊IJCV 2026!清华大学等提出SoftHGNN:通用视觉识别全面提升!让超图从“硬连接”走向“软参与”

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

导语:在视觉识别任务中,Transformer 已经成为主流范式。它擅长通过自注意力建模全局 token 之间的两两关系,但真实视觉场景往往并不是简单的 pair-wise interaction:一个人挥拍击球,涉及人、球拍、网球、姿态、背景等多个实体之间的高阶语义关联;拥挤人群、复杂目标检测、多尺度视觉特征融合,也都需要模型理解多个区域共同形成的结构关系。超图神经网络天然适合建模这类高阶关系,但传统 HGNN 在视觉任务中又存在“超边冗余、硬二值归属、计算开销大”等问题。

针对这一痛点,来自清华大学、太原理工大学、香港科技大学(广州)、香港科技大学、西安交通大学等单位的研究者提出了SoftHGNN(Soft Hypergraph Neural Networks),一种面向通用视觉识别的轻量级、可插拔软超图计算模块。该方法已发表于计算机视觉顶级期刊International Journal of Computer Vision (IJCV) 2026,并已开源代码。


一、论文信息

论文标题:

SoftHGNN: Soft Hypergraph Neural Networks for General Visual Recognition

发表期刊:

International Journal of Computer Vision (IJCV), 2026

DOI:

https://doi.org/10.1007/s11263-026-02841-z

代码已开源:

https://github.com/Mengqi-Lei/SoftHGNN

论文作者:

Mengqi Lei, Yihong Wu, Siqi Li, Xinhu Zheng, Juan Wang, Shaoyi Du, Yue Gao

作者单位:

清华大学、太原理工大学、香港科技大学(广州)、香港科技大学、西安交通大学等

代码地址:

https://github.com/Mengqi-Lei/SoftHGNN

二、痛点:视觉模型真的理解“高阶关系”了吗?

过去几年,视觉识别模型的进步主要来自 CNN 和 Transformer 两条路线。CNN 擅长局部空间模式建模,Transformer 则通过 self-attention 捕获全局 token 关系。问题在于,自注意力虽然强大,但本质上仍然偏向于建模 token 与 token 之间的两两关系。

真实视觉场景却经常包含更复杂的组合语义:

一个运动员击球,不只是“人”和“球”的关系,而是人、球拍、网球、姿态、运动方向之间共同组成的高阶关联;

一张拥挤人群图像中,局部区域之间存在密度、遮挡、尺度变化等复杂关系;

一个目标检测场景中,物体与背景、多尺度特征、目标上下文之间也并非简单的一对一连接。

这正是超图模型的用武之地。与普通图中一条边只连接两个节点不同,超图中的一条超边可以同时连接多个节点,因此天然适合表示多个视觉 token 之间的高阶语义关系。

但传统 HGNN 直接搬到视觉任务中,会遇到两个关键瓶颈:

问题一:超边太多,严重冗余。

传统超图通常基于 k-NN 或 epsilon-ball 构建,每个节点附近都可能生成一条超边。对于视觉特征图而言,节点数量通常与 batch、height、width 相关,token 数量一旦变大,超边数量也随之膨胀,导致大量超边高度重叠、信息重复、计算开销急剧增加。

问题二:硬连接太粗糙,无法表达视觉语义的连续性。

传统超图的关联矩阵通常是二值的:一个节点要么属于某条超边,要么不属于。可视觉语义并不是这样非黑即白。比如一个被遮挡的目标区域,它应该以较低权重参与相关目标超边,而不是被完全排除。硬超边会忽略这种连续、模糊、带不确定性的视觉语义。

因此,一个核心问题浮现出来:

能不能让超图既保留高阶关系建模能力,又摆脱硬超边和高冗余的限制?

SoftHGNN 给出的答案是:把“硬超边”变成“软超边”。

三、核心思想:所有节点都可以参与超边,但参与程度不同

SoftHGNN 的关键变化,是重新定义视觉任务中的超图结构。

传统超图使用二值关联矩阵H,表示节点是否属于某条超边;SoftHGNN 则使用连续可微的参与矩阵A,表示每个视觉 token 以多大程度参与每条软超边。

换句话说,在 SoftHGNN 中,一条软超边不再是“只包含某几个节点”的硬集合,而是所有节点都可以参与,只是参与权重不同。这样一来,模型就能更细腻地表达视觉语义中的模糊性、遮挡、重叠和局部-全局关联。

图 1:SoftHGNN 整体框架。该方法主要包含三步:软超边生成、软超图消息传递、可选的稀疏软超边选择。

SoftHGNN 整体由三个核心部分组成:

  1. Soft Hyperedge Generation:软超边生成

  2. Message Passing on Soft Hypergraph:软超图消息传递

  3. Sparse Soft Hyperedge Selection:稀疏软超边选择

四、创新一:动态软超边生成,让超边从数据中“长出来”

传统 HGNN 往往依赖 k-NN 或 epsilon-ball 等固定规则构图,超边结构不是任务驱动学习出来的。SoftHGNN 则采用一组可学习的超边原型向量,并根据当前输入样本的全局上下文动态调整这些原型。

具体来说,SoftHGNN 首先将输入视觉 token 视为顶点,然后维护一组全局共享的可学习超边原型。对于每个样本,模型通过平均池化和最大池化提取全局上下文,再由上下文感知的偏移预测网络生成样本特定的原型偏移。最终,每个样本都会得到一组动态软超边原型。

随后,模型计算每个 token 与每个超边原型之间的相似度,并通过 Softmax 归一化得到连续参与矩阵A。这个矩阵就是 SoftHGNN 的核心:它决定了每个视觉 token 以多大权重参与不同软超边。

这一设计带来两个直接好处:

第一,超边不再由固定规则构造,而是由视觉特征和样本上下文共同驱动,更适合复杂视觉任务;

第二,超边数量可以保持在一个较小常数级别,例如 8 或 16 条,而不必像传统 HGNN 那样随着 token 数量膨胀。

五、创新二:V -> E -> V 消息传递,高阶语义真正流动起来

有了软参与矩阵之后,SoftHGNN 在软超图上执行两阶段消息传递:

第一步:从顶点到软超边(V -> E)。

每条软超边根据参与矩阵A,从所有视觉 token 中加权聚合信息,形成高阶语义表示。这里的关键不在于“哪些 token 被选中”,而在于“每个 token 贡献多少”。

第二步:从软超边回到顶点(E -> V)。

软超边聚合到的高阶语义信息,再根据同一个参与矩阵传播回各个 token,更新 token 表征。

这样一来,视觉 token 不再只是通过两两注意力互相通信,而是可以通过软超边这个中介完成高阶语义交互。多个相关区域会在同一条软超边中聚合,再把高阶上下文反哺给每个 token。

这也是 SoftHGNN 与普通注意力模块的关键差异:它不是简单地增强 pair-wise token matching,而是显式引入“顶点 -> 超边 -> 顶点”的高阶语义通路。

六、创新三:SeS 稀疏选择,扩展容量但不引入过多计算

在复杂场景中,少量软超边可能不足以覆盖所有高阶关系。直接增加软超边数量虽然能提升容量,但也可能带来新的问题:一些超边高度重叠,一些超边长期不被使用,甚至出现模型只依赖少数超边的“超边塌缩”。

因此,SoftHGNN 进一步提出Sparse Hyperedge Selection (SeS)策略。

SeS 将软超边分为两类:

固定软超边:始终参与消息传递;

动态软超边:先生成较大的候选集合,再根据全局激活分数选择 Top-k 条最重要的软超边参与计算。

为了避免模型只反复选择少数几条动态超边,SoftHGNN 还引入了负载均衡正则项,让动态超边在训练过程中得到更充分、更均衡的使用。这一设计类似 MoE 中防止 expert collapse 的思路,但这里服务的是软超边选择。

因此,SoftHGNN-SeS 实现了一个很实用的平衡:

候选超边空间更大,表达能力更强;实际参与计算的超边更少,推理效率仍然可控。

七、计算效率:从二次复杂度走向近似线性

传统 self-attention 的计算复杂度通常与 token 数量呈二次关系。传统 HGNN 虽然理论上可以建模高阶关系,但在视觉任务中,k-NN 或 epsilon-ball 构图往往需要大量 pair-wise 距离计算,实际也容易走向二次开销。

SoftHGNN 的关键优势在于,软超边数量M可以设置为一个较小常数。其主要计算来自 token 与软超边之间的相似度计算和 V -> E -> V 消息传递,复杂度约为O(N × M × D)。当M和特征维度D固定时,可以近似看作随 token 数量N线性增长。

论文中的效率实验也验证了这一点:随着序列长度增加,SoftHGNN 的延迟和显存占用呈线性增长,而 Self-Attention 和传统 HGNN 则表现出明显的二次增长趋势。

这意味着 SoftHGNN 不只是“更会建模关系”,也更适合长序列、高分辨率、多尺度视觉场景。

八、实验:三大任务、五个数据集全面验证

为了验证 SoftHGNN 的通用性,作者在三个典型视觉识别任务上进行了实验:

图像分类:ImageNet-100、ImageNet-1k;

人群计数:ShanghaiTech Part-A、Part-B;

目标检测:MS COCO。

1. 图像分类:在 PVT 和 SwinT 上稳定提升

在 ImageNet-100 上,SoftHGNN 被插入到 PVT-Tiny 和 SwinT-Tiny 编码器末端,与 Self-Attention、传统 HGNN、HgVT Block 等模块对比。关键结果如下:

  • PVT-Tiny 基线 Top-1 为 82.7%,加入 SoftHGNN 后提升至 86.1%,提升 3.4 个百分点;

  • 加入 SoftHGNN-SeS 后进一步提升至 86.8%,提升 4.1 个百分点;

  • SwinT-Tiny 基线 Top-1 为 88.0%,加入 SoftHGNN 后提升至 90.1%,加入 SoftHGNN-SeS 后达到 90.9%。

在更大规模的 ImageNet-1k 上,PVT-Tiny 基线 Top-1 为 74.8%,加入 SoftHGNN 后达到 75.6%,加入 SoftHGNN-SeS 后达到 75.9%。这说明 SoftHGNN 并不是只在小规模数据集上有效,在大规模分类场景中也能稳定带来增益。

2. 人群计数:复杂密集场景下更能发挥高阶建模优势

人群计数天然需要模型理解局部密度、尺度变化、遮挡关系和多区域上下文。论文以 CCTrans 为基线,在多尺度特征融合阶段加入 SoftHGNN 系列模块,并在 ShanghaiTech Part-A 和 Part-B 上验证。

在使用 Pyramid ViT 作为骨干时,CCTrans 基线在 Part-A 上的 MAE/MSE 为 53.7/85.9;加入 SoftHGNN 后达到 51.7/81.3;加入 SoftHGNN-SeS 后进一步达到 51.7/79.2。在 Part-B 上,基线 MAE/MSE 为 7.4/12.5;SoftHGNN-SeS 降至 6.6/10.5,MAE 相对下降 10.8%,MSE 相对下降 16.0%。

这说明对于密集人群这类高阶关系更复杂的视觉场景,SoftHGNN 能够比普通自注意力和传统 HGNN 更有效地捕获目标间的结构关联。

3. 目标检测:插入 YOLO11 / YOLOv12,轻量提升检测性能

在目标检测任务中,作者提出基于 SoftHGNN 的特征聚合与分发模块F2SoftHG,并将其插入 YOLO11 和 YOLOv12 的 neck 部分,用于跨尺度、跨空间建模高阶语义关系。

在 MS COCO 上,SoftHGNN 对不同规模的 YOLO 模型都带来了稳定提升。Nano 规模下,AP50 相比 YOLO11-N 提升 2.2 个百分点;相比 YOLOv12-N 提升 1.9 个百分点;Small 和 Medium 规模下,SoftHGNN 也持续带来提升。对于 Medium 模型,论文还设计了更轻量的星号版本:先用 1x1 卷积压缩通道,再输入 SoftHGNN,之后恢复通道,从而降低参数开销,同时基本保持精度收益。

图 3:MS COCO 检测可视化结果。加入 SoftHGNN 后,YOLO11 和 YOLOv12 的目标定位与置信度均得到改善。

九、可视化:软超边究竟学到了什么?

除了主实验结果,论文还通过软超边可视化解释了 SoftHGNN 的行为。不同软超边会关注不同的高阶语义结构。例如在鸟类图像中,一条软超边可能主要建模鸟身体内部相关性,另一条则捕获鸟、树枝和天空背景之间的关系;在网球场景中,一条软超边可能连接网球、球拍和运动员身体,另一条则关注运动员与背景环境的关系。

这说明 SoftHGNN 学到的并不是简单的局部注意力热区,而是具有语义分工的高阶关系结构。

十、为什么 SoftHGNN 值得关注?

SoftHGNN 的意义不只是“又一个提升指标的模块”。它更重要的价值在于,为视觉识别中的高阶关系建模提供了一种更自然、更高效的超图计算范式。

它解决了传统 HGNN 在视觉任务中的两个核心矛盾:一方面,视觉任务确实需要高阶关系建模;另一方面,传统硬超图又太冗余、计算复杂度太高。SoftHGNN 用软参与矩阵替代硬二值关联,用可学习原型替代固定构图规则,用稀疏选择控制扩展容量,用负载均衡避免超边塌缩。最终得到的是一个轻量、可插拔、可解释、适用于多类视觉任务的软超图模块。

从实验结果看,SoftHGNN 在图像分类、人群计数、目标检测三个任务上都取得了稳定增益;从方法设计看,它也为后续“超图 + 视觉基础模型”“高阶语义推理”“低成本视觉增强模块”等方向提供了一个很好的起点。

结语

如果说 self-attention 让视觉模型学会了全局 token 之间的两两交互,那么 SoftHGNN 进一步把问题推进到高阶语义关联:哪些视觉区域应该共同参与一个语义结构?它们参与的程度是多少?这些结构又该如何反过来增强每个 token?

SoftHGNN 的答案是:用动态软超边作为中介,让高阶语义关系在视觉特征中真正流动起来。

对于关注超图神经网络、视觉识别、Transformer 增强模块和高阶关系建模的研究者来说,这篇 IJCV 2026 工作值得重点关注。

本文系学术转载,如有侵权,请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载566页课件PPT!大家赶紧学起来!

CVPR 2026 所有论文和代码下载

在CVer公众号后台回复:CVPR2026,即可下载CVPR 2026 所有论文和代码!

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看
http://www.jsqmd.com/news/810293/

相关文章:

  • 如何快速上手ComfyUI-WanVideoWrapper:AI视频生成的完整指南
  • pve删除data增大root
  • Python canopen库SDO Server不支持块下载?手把手教你魔改回调函数实现(附完整源码)
  • 终极小说下载器指南:如何一键永久保存100+网站的小说内容
  • Taotoken用量看板如何帮助单片机团队管控AI辅助开发成本
  • 破解第三方平台代运营痛点:PFS全链路获客法如何提升有效询盘? - 速递信息
  • 保姆级教程:用VMWare和Windbg搞定Windows 7/10驱动双机调试(附测试签名开启)
  • Gemini总结YouTube时悄悄丢掉的关键信息(时间戳错位、技术公式省略、引用来源隐匿)——资深AI审计师首次披露
  • 开源墨水屏驱动库inkos:架构解析与嵌入式开发实战
  • 百度网盘Mac版终极破解指南:免费解锁SVIP高速下载
  • 从账单明细看使用Token Plan套餐如何有效控制成本
  • 3分钟快速解密网易云音乐NCM格式:免费工具实现音乐自由播放
  • 性价比高的NEUHAUS NEOTEC和星巴克昆山工厂合作
  • Web安全技能体系构建:从协议方法论到实战训练指南
  • IDM试用重置神器:无需破解轻松恢复30天试用期的完整指南
  • 深度学习正则化(五)—— 对抗训练 + 切面分类(三十二)
  • Cursor Free VIP终极指南:3步实现永久免费使用AI编程神器
  • ChatGPT开源项目精选列表:AI开发者的高效资源导航与实战指南
  • 告别‘玄学’整改:手把手教你搞定BMS EMC超标(基于GB/T 18655-2010电流法案例)
  • 使用Taotoken后,我的API调用延迟与稳定性观测记录
  • Swift 训练大语言模型:速度从 2.8 Gflop/s 提升至 5.884 令牌/秒,超 200 倍增长!
  • ComfyUI-VideoHelperSuite终极指南:轻松实现AI视频生成与处理
  • 2026甘肃汽车贴膜改色选购逻辑:资质、工艺与售后全解析 - 深度智识库
  • 如何完整解锁ComfyUI-Impact-Pack的图像增强功能:从安装到实战的全方位指南
  • 用STC89C52单片机+光敏电阻做个智能台灯:自动调光与手动5档切换保姆级教程
  • ARM DVP RCTX指令:数据预测与安全防护详解
  • ComfyUI-Manager高效依赖管理实战指南:从配置到优化的完整解决方案
  • 武汉一高校发布招聘公告:年薪120万起,配一套别墅!聘期满+考核合格可办产权过户
  • 一份给交管从业者的交通事故勘查系统公司挑选指南 - 速递信息
  • 基于AI的YouTube视频智能解析:从语音识别到交互式问答的实现