当前位置: 首页 > news >正文

YOLO26改进 - C2PSA | C2PSA融合TSSA(Token Statistics Self-Attention)令牌统计自注意力,优化遮挡目标感知

#  前言

本文介绍了Token Statistics Self-Attention(TSSA)机制,并将其集成到YOLO26中。传统自注意力计算复杂度高,TSSA进行了范式转变,基于token统计特征实现高效注意力交互。它通过“算法展开”推导得出,以“最大编码率降低”为目标,实现特征学习。TSSA包含动态分组和低秩投影优化两步创新,具备线性复杂度。我们将TSSA代码集成到YOLO26的C2PSA模块中。实验表明,改进后的YOLO26在目标检测任务中表现良好,验证了TSSA机制的有效性。 

 

> **文章目录: [YOLO26改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总](https://blog.csdn.net/yolochangeworld/article/details/156995579)**

> **专栏链接:  [YOLO26改进专栏](https://blog.csdn.net/yolochangeworld/category_13118063.html)**

@[TOC]

# 介绍

![image-20251225215051611](https://i-blog.csdnimg.cn/img_convert/33f92d22504e56560151fa7f20d672fe.png) 

 

## 摘要

 

注意力算子可以说是 Transformer 架构的关键特征,该架构在多种任务中都表现出了最先进的性能。然而,Transformer 的注意力算子通常会带来巨大的计算负担,其计算复杂度随 Token 数量呈二次方增长。在这项工作中,我们提出了一种新型的 Transformer 注意力算子,其计算复杂度随 Token 数量呈线性增长。我们将之前的研究成果进行了扩展,之前的研究表明,通过“白盒”架构设计可以自然地构建出 Transformer 风格的架构,即网络的每一层都被设计为实现最大编码率降低目标($MCR^{2}$)的一个增量优化步骤。具体来说,我们推导了 $MCR^{2}$ 目标的一种新颖变分形式,并展示了基于该变分目标进行展开梯度下降所得到的架构,导出了一种新的注意力模块,称为 **Token 统计自注意力(Token Statistics Self-Attention,TSSA)**。TSSA 具有线性的计算和内存复杂度,并且与计算 Token 之间成对相似度的典型注意力架构截然不同。在视觉、语言和长序列任务上的实验表明,只需简单地用 TSSA 替换标准自注意力(我们将这种架构称为 **Token 统计 Transformer,即 TOST**),就能获得与传统 Transformer 相当的性能,同时计算效率更高且更具可解释性。我们的结果还在一定程度上质疑了“成对相似度风格的注意力机制是 Transformer 架构成功的关键”这一传统观念。代码将在 https://github.com/RobinWu218/ToST 开源。

# 文章链接

 **论文地址:**[论文地址](https://arxiv.org/abs/2412.17810)

**代码地址:**[代码地址](https://github.com/RobinWu218/ToST/blob/main/tost_vision/tost.py)

 

# 基本原理

 TSSA(Token Statistics Self-Attention)的核心创新是彻底抛弃传统自注意力的“成对相似度计算”,转而基于token的统计特征实现高效注意力交互 :

### 1. 从“逐对对比”到“统计聚合”的范式转变
传统自注意力需要计算所有token两两之间的相似度(如缩放点积),导致复杂度随token数量呈平方增长。TSSA跳出这一框架,认为注意力的本质是“基于数据关联的特征优化”,而这种关联无需逐对计算——只需捕捉token群体的统计规律(即“二阶矩”,可理解为token特征的分布集中程度),就能实现类似的特征聚合效果。

### 2. 基于“白盒设计”的目标导向优化
TSSA并非经验性设计,而是通过“算法展开”的白盒思路推导得出:以“最大编码率降低(MCR²)”为核心目标,先将该目标转化为更易计算的变分形式,再把优化过程拆分成网络的逐层操作。每一层的作用都是增量优化这个目标——让同一组内的token特征更集中(压缩),同时让所有token的整体特征更分散(扩展),最终实现 discriminative 特征学习。

### 3. 数据驱动的低秩投影与动态分组
TSSA的核心操作包含两步关键创新:
- 动态分组:通过计算token与不同子空间的匹配度,用软聚类(类似概率分配)将token分到K个组,无需人工定义分组规则,完全由数据自动决定。
- 低秩投影优化:对每个组,基于token特征的统计信息构建“重要性权重”,保留组内特征中“能量集中”(即多数token共同拥有)的方向,抑制冗余或噪声方向。这一过程不依赖任何成对相似度,仅通过矩阵投影和统计计算完成,天然具备线性复杂度。

#  

# YOLO26引入代码

 在根目录下的`ultralytics/nn/`目录,新建一个`   C2PSA`目录,然后新建一个以 `  C2PSA_TSSA`为文件名的py文件, 把代码拷贝进去。

http://www.jsqmd.com/news/285888/

相关文章:

  • 内容、媒体、时间:详解影响软文收录的三大变量及优化策略
  • dwmredir.dll文件丢失找不到问题 免费下载方法分享
  • 【毕业设计】基于springboot的面向大学生的职业兴趣评估与就业指导平台(源码+文档+远程调试,全bao定制等)
  • Java计算机毕设之基于springboot的企业内部知识产权管理系统基于SpringBoot+Vue的企业内部知识产权管理系统(完整前后端代码+说明文档+LW,调试定制等)
  • 【毕业设计】基于springboot的企业内部知识产权管理系统(源码+文档+远程调试,全bao定制等)
  • RAG 检索模型如何学习:三种损失函数的机制解析
  • 【课程设计/毕业设计】基于SpringBoot3+Vue3面向大学生的职业兴趣评估与就业指导平台基于springboot的面向大学生的职业兴趣评估与就业指导平台【附源码、数据库、万字文档】
  • Langchain 快速入门(一)
  • 微信小程序开发公司哪家比较好?最新测评报告给你答案
  • 100dB 深度消回音 + AI 智能降噪!WX-0813 语音处理模组,重塑全场景音频通话体验
  • YOLO26改进 - SPPF模块 | SPPELAN 空间金字塔池化与增强局部注意力:替代SPPF增强多尺度上下文捕获,提升检测精度
  • 【毕业设计】基于springboot的食品安全管理系统(源码+文档+远程调试,全bao定制等)
  • 2026全国学历提升机构TOP10盘点:选课攻略+避坑指南
  • 微信小程序商城怎么开通?来自程序员的实用教程
  • ffmpeg 二叉树代码测试及分析 - 详解
  • Java毕设项目推荐-基于SpringBoot的在线食品安全信息平台系统基于springboot的食品安全管理系统【附源码+文档,调试定制服务】
  • Java毕设选题推荐:基于springboot的企业智慧知识产权资产运营平台企业内部知识产权管理系统【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 2026年拼多多代运营公司排名前五权威深度测评
  • 2026执业药师考试培训前十机构测评:通关攻略与避坑指南
  • Java毕设项目推荐-基于springboot高校学生就业信息推送系统springboot的面向大学生的职业兴趣评估与就业指导平台【附源码+文档,调试定制服务】
  • 实现Unity录音、百度云语音转文字
  • Java毕设选题推荐:基于springboot大学生就业服务平台springboot的面向大学生的职业兴趣评估与就业指导平台【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 亿可达×飞书:一键搞定定时群通知,告别人工重复提醒
  • 2026最新版!微信小程序SaaS模板平台前十排名报告
  • 深入解析:Rust 练习册 :Matching Brackets与栈数据结构
  • 2026 年 AI PPT 工具深度评测:拒绝 “科技与狠活”,寻找真正能解决职场痛点的生产力工具
  • 2026年专业深度测评:淘宝代运营公司排名前五权威榜单
  • 【计算机毕业设计案例】基于Java的在线食品安全信息平台基于springboot的食品安全管理系统(程序+文档+讲解+定制)
  • Java毕设项目:基于springboot的食品安全管理系统(源码+文档,讲解、调试运行,定制等)
  • AI代码质检员:如何用大模型提前揪出软件缺陷?