当前位置：首页 > news >正文

顶刊IJCV 2026！清华大学等提出SoftHGNN：通用视觉识别全面提升！让超图从“硬连接”走向“软参与”

news 2026/5/13 18:16:33

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用！发论文/搞科研/涨薪，强烈推荐！

导语：在视觉识别任务中，Transformer 已经成为主流范式。它擅长通过自注意力建模全局 token 之间的两两关系，但真实视觉场景往往并不是简单的 pair-wise interaction：一个人挥拍击球，涉及人、球拍、网球、姿态、背景等多个实体之间的高阶语义关联；拥挤人群、复杂目标检测、多尺度视觉特征融合，也都需要模型理解多个区域共同形成的结构关系。超图神经网络天然适合建模这类高阶关系，但传统 HGNN 在视觉任务中又存在“超边冗余、硬二值归属、计算开销大”等问题。

针对这一痛点，来自清华大学、太原理工大学、香港科技大学（广州）、香港科技大学、西安交通大学等单位的研究者提出了SoftHGNN（Soft Hypergraph Neural Networks），一种面向通用视觉识别的轻量级、可插拔软超图计算模块。该方法已发表于计算机视觉顶级期刊International Journal of Computer Vision (IJCV) 2026，并已开源代码。

一、论文信息

论文标题：

SoftHGNN: Soft Hypergraph Neural Networks for General Visual Recognition

发表期刊：

International Journal of Computer Vision (IJCV), 2026

DOI：

https://doi.org/10.1007/s11263-026-02841-z

代码已开源：

https://github.com/Mengqi-Lei/SoftHGNN

论文作者：

Mengqi Lei, Yihong Wu, Siqi Li, Xinhu Zheng, Juan Wang, Shaoyi Du, Yue Gao

作者单位：

清华大学、太原理工大学、香港科技大学（广州）、香港科技大学、西安交通大学等

代码地址：

https://github.com/Mengqi-Lei/SoftHGNN

二、痛点：视觉模型真的理解“高阶关系”了吗？

过去几年，视觉识别模型的进步主要来自 CNN 和 Transformer 两条路线。CNN 擅长局部空间模式建模，Transformer 则通过 self-attention 捕获全局 token 关系。问题在于，自注意力虽然强大，但本质上仍然偏向于建模 token 与 token 之间的两两关系。

真实视觉场景却经常包含更复杂的组合语义：

一个运动员击球，不只是“人”和“球”的关系，而是人、球拍、网球、姿态、运动方向之间共同组成的高阶关联；

一张拥挤人群图像中，局部区域之间存在密度、遮挡、尺度变化等复杂关系；

一个目标检测场景中，物体与背景、多尺度特征、目标上下文之间也并非简单的一对一连接。

这正是超图模型的用武之地。与普通图中一条边只连接两个节点不同，超图中的一条超边可以同时连接多个节点，因此天然适合表示多个视觉 token 之间的高阶语义关系。

但传统 HGNN 直接搬到视觉任务中，会遇到两个关键瓶颈：

问题一：超边太多，严重冗余。

传统超图通常基于 k-NN 或 epsilon-ball 构建，每个节点附近都可能生成一条超边。对于视觉特征图而言，节点数量通常与 batch、height、width 相关，token 数量一旦变大，超边数量也随之膨胀，导致大量超边高度重叠、信息重复、计算开销急剧增加。

问题二：硬连接太粗糙，无法表达视觉语义的连续性。

传统超图的关联矩阵通常是二值的：一个节点要么属于某条超边，要么不属于。可视觉语义并不是这样非黑即白。比如一个被遮挡的目标区域，它应该以较低权重参与相关目标超边，而不是被完全排除。硬超边会忽略这种连续、模糊、带不确定性的视觉语义。

因此，一个核心问题浮现出来：

能不能让超图既保留高阶关系建模能力，又摆脱硬超边和高冗余的限制？

SoftHGNN 给出的答案是：把“硬超边”变成“软超边”。

三、核心思想：所有节点都可以参与超边，但参与程度不同

SoftHGNN 的关键变化，是重新定义视觉任务中的超图结构。

传统超图使用二值关联矩阵H，表示节点是否属于某条超边；SoftHGNN 则使用连续可微的参与矩阵A，表示每个视觉 token 以多大程度参与每条软超边。

换句话说，在 SoftHGNN 中，一条软超边不再是“只包含某几个节点”的硬集合，而是所有节点都可以参与，只是参与权重不同。这样一来，模型就能更细腻地表达视觉语义中的模糊性、遮挡、重叠和局部-全局关联。

图 1：SoftHGNN 整体框架。该方法主要包含三步：软超边生成、软超图消息传递、可选的稀疏软超边选择。

SoftHGNN 整体由三个核心部分组成：

Soft Hyperedge Generation：软超边生成
Message Passing on Soft Hypergraph：软超图消息传递
Sparse Soft Hyperedge Selection：稀疏软超边选择

四、创新一：动态软超边生成，让超边从数据中“长出来”

传统 HGNN 往往依赖 k-NN 或 epsilon-ball 等固定规则构图，超边结构不是任务驱动学习出来的。SoftHGNN 则采用一组可学习的超边原型向量，并根据当前输入样本的全局上下文动态调整这些原型。

具体来说，SoftHGNN 首先将输入视觉 token 视为顶点，然后维护一组全局共享的可学习超边原型。对于每个样本，模型通过平均池化和最大池化提取全局上下文，再由上下文感知的偏移预测网络生成样本特定的原型偏移。最终，每个样本都会得到一组动态软超边原型。

随后，模型计算每个 token 与每个超边原型之间的相似度，并通过 Softmax 归一化得到连续参与矩阵A。这个矩阵就是 SoftHGNN 的核心：它决定了每个视觉 token 以多大权重参与不同软超边。

这一设计带来两个直接好处：

第一，超边不再由固定规则构造，而是由视觉特征和样本上下文共同驱动，更适合复杂视觉任务；

第二，超边数量可以保持在一个较小常数级别，例如 8 或 16 条，而不必像传统 HGNN 那样随着 token 数量膨胀。

五、创新二：V -> E -> V 消息传递，高阶语义真正流动起来

有了软参与矩阵之后，SoftHGNN 在软超图上执行两阶段消息传递：

第一步：从顶点到软超边（V -> E）。

每条软超边根据参与矩阵A，从所有视觉 token 中加权聚合信息，形成高阶语义表示。这里的关键不在于“哪些 token 被选中”，而在于“每个 token 贡献多少”。

第二步：从软超边回到顶点（E -> V）。

软超边聚合到的高阶语义信息，再根据同一个参与矩阵传播回各个 token，更新 token 表征。

这样一来，视觉 token 不再只是通过两两注意力互相通信，而是可以通过软超边这个中介完成高阶语义交互。多个相关区域会在同一条软超边中聚合，再把高阶上下文反哺给每个 token。

这也是 SoftHGNN 与普通注意力模块的关键差异：它不是简单地增强 pair-wise token matching，而是显式引入“顶点 -> 超边 -> 顶点”的高阶语义通路。

六、创新三：SeS 稀疏选择，扩展容量但不引入过多计算

在复杂场景中，少量软超边可能不足以覆盖所有高阶关系。直接增加软超边数量虽然能提升容量，但也可能带来新的问题：一些超边高度重叠，一些超边长期不被使用，甚至出现模型只依赖少数超边的“超边塌缩”。

因此，SoftHGNN 进一步提出Sparse Hyperedge Selection (SeS)策略。

SeS 将软超边分为两类：

固定软超边：始终参与消息传递；

动态软超边：先生成较大的候选集合，再根据全局激活分数选择 Top-k 条最重要的软超边参与计算。

为了避免模型只反复选择少数几条动态超边，SoftHGNN 还引入了负载均衡正则项，让动态超边在训练过程中得到更充分、更均衡的使用。这一设计类似 MoE 中防止 expert collapse 的思路，但这里服务的是软超边选择。

因此，SoftHGNN-SeS 实现了一个很实用的平衡：

候选超边空间更大，表达能力更强；实际参与计算的超边更少，推理效率仍然可控。

七、计算效率：从二次复杂度走向近似线性

传统 self-attention 的计算复杂度通常与 token 数量呈二次关系。传统 HGNN 虽然理论上可以建模高阶关系，但在视觉任务中，k-NN 或 epsilon-ball 构图往往需要大量 pair-wise 距离计算，实际也容易走向二次开销。

SoftHGNN 的关键优势在于，软超边数量M可以设置为一个较小常数。其主要计算来自 token 与软超边之间的相似度计算和 V -> E -> V 消息传递，复杂度约为O(N × M × D)。当M和特征维度D固定时，可以近似看作随 token 数量N线性增长。

论文中的效率实验也验证了这一点：随着序列长度增加，SoftHGNN 的延迟和显存占用呈线性增长，而 Self-Attention 和传统 HGNN 则表现出明显的二次增长趋势。

这意味着 SoftHGNN 不只是“更会建模关系”，也更适合长序列、高分辨率、多尺度视觉场景。

八、实验：三大任务、五个数据集全面验证

为了验证 SoftHGNN 的通用性，作者在三个典型视觉识别任务上进行了实验：

图像分类：ImageNet-100、ImageNet-1k；

人群计数：ShanghaiTech Part-A、Part-B；

目标检测：MS COCO。

1. 图像分类：在 PVT 和 SwinT 上稳定提升

在 ImageNet-100 上，SoftHGNN 被插入到 PVT-Tiny 和 SwinT-Tiny 编码器末端，与 Self-Attention、传统 HGNN、HgVT Block 等模块对比。关键结果如下：

PVT-Tiny 基线 Top-1 为 82.7%，加入 SoftHGNN 后提升至 86.1%，提升 3.4 个百分点；
加入 SoftHGNN-SeS 后进一步提升至 86.8%，提升 4.1 个百分点；
SwinT-Tiny 基线 Top-1 为 88.0%，加入 SoftHGNN 后提升至 90.1%，加入 SoftHGNN-SeS 后达到 90.9%。

在更大规模的 ImageNet-1k 上，PVT-Tiny 基线 Top-1 为 74.8%，加入 SoftHGNN 后达到 75.6%，加入 SoftHGNN-SeS 后达到 75.9%。这说明 SoftHGNN 并不是只在小规模数据集上有效，在大规模分类场景中也能稳定带来增益。

2. 人群计数：复杂密集场景下更能发挥高阶建模优势

人群计数天然需要模型理解局部密度、尺度变化、遮挡关系和多区域上下文。论文以 CCTrans 为基线，在多尺度特征融合阶段加入 SoftHGNN 系列模块，并在 ShanghaiTech Part-A 和 Part-B 上验证。

在使用 Pyramid ViT 作为骨干时，CCTrans 基线在 Part-A 上的 MAE/MSE 为 53.7/85.9；加入 SoftHGNN 后达到 51.7/81.3；加入 SoftHGNN-SeS 后进一步达到 51.7/79.2。在 Part-B 上，基线 MAE/MSE 为 7.4/12.5；SoftHGNN-SeS 降至 6.6/10.5，MAE 相对下降 10.8%，MSE 相对下降 16.0%。

这说明对于密集人群这类高阶关系更复杂的视觉场景，SoftHGNN 能够比普通自注意力和传统 HGNN 更有效地捕获目标间的结构关联。

3. 目标检测：插入 YOLO11 / YOLOv12，轻量提升检测性能

在目标检测任务中，作者提出基于 SoftHGNN 的特征聚合与分发模块F2SoftHG，并将其插入 YOLO11 和 YOLOv12 的 neck 部分，用于跨尺度、跨空间建模高阶语义关系。

在 MS COCO 上，SoftHGNN 对不同规模的 YOLO 模型都带来了稳定提升。Nano 规模下，AP50 相比 YOLO11-N 提升 2.2 个百分点；相比 YOLOv12-N 提升 1.9 个百分点；Small 和 Medium 规模下，SoftHGNN 也持续带来提升。对于 Medium 模型，论文还设计了更轻量的星号版本：先用 1x1 卷积压缩通道，再输入 SoftHGNN，之后恢复通道，从而降低参数开销，同时基本保持精度收益。

图 3：MS COCO 检测可视化结果。加入 SoftHGNN 后，YOLO11 和 YOLOv12 的目标定位与置信度均得到改善。

九、可视化：软超边究竟学到了什么？

除了主实验结果，论文还通过软超边可视化解释了 SoftHGNN 的行为。不同软超边会关注不同的高阶语义结构。例如在鸟类图像中，一条软超边可能主要建模鸟身体内部相关性，另一条则捕获鸟、树枝和天空背景之间的关系；在网球场景中，一条软超边可能连接网球、球拍和运动员身体，另一条则关注运动员与背景环境的关系。

这说明 SoftHGNN 学到的并不是简单的局部注意力热区，而是具有语义分工的高阶关系结构。

十、为什么 SoftHGNN 值得关注？

SoftHGNN 的意义不只是“又一个提升指标的模块”。它更重要的价值在于，为视觉识别中的高阶关系建模提供了一种更自然、更高效的超图计算范式。

它解决了传统 HGNN 在视觉任务中的两个核心矛盾：一方面，视觉任务确实需要高阶关系建模；另一方面，传统硬超图又太冗余、计算复杂度太高。SoftHGNN 用软参与矩阵替代硬二值关联，用可学习原型替代固定构图规则，用稀疏选择控制扩展容量，用负载均衡避免超边塌缩。最终得到的是一个轻量、可插拔、可解释、适用于多类视觉任务的软超图模块。

从实验结果看，SoftHGNN 在图像分类、人群计数、目标检测三个任务上都取得了稳定增益；从方法设计看，它也为后续“超图 + 视觉基础模型”“高阶语义推理”“低成本视觉增强模块”等方向提供了一个很好的起点。

结语

如果说 self-attention 让视觉模型学会了全局 token 之间的两两交互，那么 SoftHGNN 进一步把问题推进到高阶语义关联：哪些视觉区域应该共同参与一个语义结构？它们参与的程度是多少？这些结构又该如何反过来增强每个 token？

SoftHGNN 的答案是：用动态软超边作为中介，让高阶语义关系在视觉特征中真正流动起来。

对于关注超图神经网络、视觉识别、Transformer 增强模块和高阶关系建模的研究者来说，这篇 IJCV 2026 工作值得重点关注。

本文系学术转载，如有侵权，请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载566页课件PPT！大家赶紧学起来！

CVPR 2026 所有论文和代码下载

在CVer公众号后台回复：CVPR2026，即可下载CVPR 2026 所有论文和代码！

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群 CVer计算机视觉（知识星球）人数破万！如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料，一定要扫描下方二维码，加入CVer知识星球！最强助力你的科研和工作！ ▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号 整理不易，请点赞和在看

查看全文

http://www.jsqmd.com/news/810293/

如何快速上手ComfyUI-WanVideoWrapper：AI视频生成的完整指南

pve删除data增大root

Python canopen库SDO Server不支持块下载？手把手教你魔改回调函数实现（附完整源码）

终极小说下载器指南：如何一键永久保存100+网站的小说内容

Taotoken用量看板如何帮助单片机团队管控AI辅助开发成本

破解第三方平台代运营痛点：PFS全链路获客法如何提升有效询盘？ - 速递信息

保姆级教程：用VMWare和Windbg搞定Windows 7/10驱动双机调试（附测试签名开启）

Gemini总结YouTube时悄悄丢掉的关键信息（时间戳错位、技术公式省略、引用来源隐匿）——资深AI审计师首次披露

开源墨水屏驱动库inkos：架构解析与嵌入式开发实战

百度网盘Mac版终极破解指南：免费解锁SVIP高速下载

从账单明细看使用Token Plan套餐如何有效控制成本

3分钟快速解密网易云音乐NCM格式：免费工具实现音乐自由播放

性价比高的NEUHAUS NEOTEC和星巴克昆山工厂合作

Web安全技能体系构建：从协议方法论到实战训练指南

IDM试用重置神器：无需破解轻松恢复30天试用期的完整指南

深度学习正则化（五）—— 对抗训练 + 切面分类（三十二）

Cursor Free VIP终极指南：3步实现永久免费使用AI编程神器

ChatGPT开源项目精选列表：AI开发者的高效资源导航与实战指南

告别‘玄学’整改：手把手教你搞定BMS EMC超标（基于GB/T 18655-2010电流法案例）

使用Taotoken后，我的API调用延迟与稳定性观测记录

Swift 训练大语言模型：速度从 2.8 Gflop/s 提升至 5.884 令牌/秒，超 200 倍增长！

ComfyUI-VideoHelperSuite终极指南：轻松实现AI视频生成与处理

2026甘肃汽车贴膜改色选购逻辑：资质、工艺与售后全解析 - 深度智识库

如何完整解锁ComfyUI-Impact-Pack的图像增强功能：从安装到实战的全方位指南

用STC89C52单片机+光敏电阻做个智能台灯：自动调光与手动5档切换保姆级教程

ARM DVP RCTX指令：数据预测与安全防护详解

ComfyUI-Manager高效依赖管理实战指南：从配置到优化的完整解决方案

武汉一高校发布招聘公告：年薪120万起，配一套别墅！聘期满+考核合格可办产权过户

一份给交管从业者的交通事故勘查系统公司挑选指南 - 速递信息

基于AI的YouTube视频智能解析：从语音识别到交互式问答的实现