TDD-YOLO:一种用于番茄病害精准检测的新型模型
本文核心贡献如下:
提出CAFE模块:在骨干网络中引入坐标注意力特征增强模块,利用非对称卷积分离水平和垂直方向特征,增强细粒度病斑纹理提取与局部感知能力。
设计CSAF模块:在颈部创新并行通道-空间注意力融合机制,联合建模跨维度依赖,有效抑制复杂背景干扰,突出病害特征。
开发MSFF模块:采用多分支结构融合不同感受野特征,替换颈部C3k2模块,在保持低计算成本的同时增强多尺度病害特征表示。
性能提升:在Tomato-Village和Tomato-Disease数据集上,相比YOLOv11n,平均mAP@50分别提高4.1%和3.6%,mAP@50:95分别提高6.0%和3.9%,超越现有SOTA模型。
博主简介
AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者
深耕计算机视觉与深度学习领域,专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践,旨在打通从学术研究到产业应用的最后一公里。
🚀 核心专长与技术创新
YOLO算法结构性创新:于CSDN平台原创发布《YOLOv13魔术师》、《YOLOv12魔术师》等全系列深度专栏。系统性提出并开源了多项原创自研模块,在模型轻量化设计、多维度注意力机制融合、特征金字塔重构等关键方向完成了一系列突破性实践,为行业提供了具备高参考价值的技术路径与完整解决方案。
技术生态建设与知识传播:独立运营“计算机视觉大作战”公众号(粉丝2.2万),成功构建高质量的技术交流社群。致力于将复杂算法转化为通俗易懂的解读与可复现的工程代码,显著降低了计算机视觉的技术入门门槛。
🏆 行业影响力与商业实践
荣获腾讯云年度影响力作者与创作之星奖项,内容质量与专业性获行业权威平台认证。
全网累计拥有8万+垂直领域技术受众,专栏文章总阅读量突破百万,在目标检测领域形成了广泛的学术与工业影响力。
具备丰富的企业级项目交付经验,曾为工业视觉检测、智慧城市安防等多个关键领域提供定制化的算法模型与解决方案,驱动业务智能化升级。
💡 未来方向与使命
秉持“让每一行代码都有温度”的技术理念,未来将持续聚焦于实时检测、语义分割及工业缺陷检测的商业化闭环等核心方向。愿与业界同仁协同创新,共同推动技术边界,以坚实的技术能力赋能实体经济与行业变革。
原创自研系列,26年计算机视觉顶会创新点
《YOLO26魔术师》
原创自研系列,25年计算机视觉顶会创新点
《YOLOv13魔术师》
《YOLOv12魔术师》
《YOLO11魔术师》
《YOLOv8原创自研》
《YOLOv5原创自研》
《YOLOv7原创自研》
《YOLOv9魔术师》
《YOLOv10魔术师》
应用系列篇:
《YOLO小目标检测》
《深度学习工业缺陷检测》
《YOLOv8-Pose关键点检测》
23、24年最火系列,加入24年改进点内涵100+优化改进篇,涨点小能手,助力科研,好评率极高
《YOLOv8魔术师》
《YOLOv7魔术师》
《YOLOv5/YOLOv7魔术师》
《RT-DETR魔术师》
0.原理介绍
摘要:番茄病害对全球农业生产构成重大威胁,常导致严重产量损失和重大经济损失。传统的病害检测方法依赖人工检查,不仅耗时费力,而且难以实现实时监测。尽管基于深度学习的目标检测技术为人工检查提供了潜在替代方案,但现有模型在提取细微病害特征、抑制复杂背景干扰以及处理复杂农业环境中的多尺度病害表示方面仍面临挑战,限制了检测性能。为解决这些局限性,本文提出了一种新颖的TDD-YOLO 模型,用于在复杂农业环境中进行精确的番茄病害检测。该模型基于 YOLOv11,主要包含以下三项改进:(1) 添加了一个特征增强模块,以提高骨干网络提取病斑纹理的能力;(2) 引入了一种联合注意力机制,显式建模跨维度依赖关系,有效抑制背景干扰;(3) 添加了一个特征融合模块,在降低计算成本的同时保留不同尺度的病害信息。在 Tomato-Village 数据集和 Tomato-Disease 数据集上的实验结果表明,所提出的 TDD-YOLO 模型在番茄病害检测方面优于基线模型(例如,在 Tomato-Village 上,各类病害平均 mAP@50 和 mAP@50:95 分别提高了 4.1% 和 6.0%;在 Tomato-Disease 上分别提高了 3.6% 和 3.9%)和最先进的模型(例如,与第二名相比,在 Tomato-Village 上平均 mAP@50 和 mAP@50:95 分别提高了 3.2% 和 4.7%;在 Tomato-Disease 上分别提高了 2.4% 和 2.1%),同时保持了良好的参数量和计算复杂度,证实了其在复杂农业环境中的有效性和实际应用潜力。
问题点:
由于病害形态存在显著的尺度差异,许多研究人员将特征融合技术与目标检测方法相结合,以提高病害检测性能。例如,Wang X. 等人 [16] 提出了基于 YOLOv10 的 TomatoGuard-YOLO 模型,通过引入多路径倒残差单元来增强多尺度特征提取与融合,并结合动态焦点注意力框架,显著提高了番茄病害检测性能。Lin 等人 [17] 使用 BiFPN 特征融合网络设计了茶叶病害检测模型 TSBA-YOLO,解决了小目标茶叶病害识别的挑战。Chai 等人 [18] 提出了一种双通道交叉特征融合方法,以改进 YOLOv8n 对不同尺度樱桃番茄果串的检测能力。Wei 等人 [19] 构建了一个特征细化模块来提升 YOLOv11 的特征表达能力,同时引入 SPPFELAN 模块以提取不同层次的特征并进行拼接融合,并提出了 GFS-YOLO11 模型,解决了复杂番茄田间环境中存在的大尺度果实差异、遮挡和重叠等问题。尽管这些模型在特征融合建模过程中表现良好,但大多数融合策略采用固定权重或串行处理机制,难以根据病斑尺度和上下文自适应调整特征的重要性,导致对小目标的敏感性不足,或大目标边界错位,影响了各自模型的定位精度和收敛效率。
本文创新点:
YOLOv11n 中的 C3k2 模块虽然提高了推理效率并保留了空间细节,但在骨干网络中提取细粒度病斑纹理的能力不足 [20]。同时,YOLOv11n 的 C2PSA 模块虽然引入了自注意力来捕获长程依赖,但它主要关注全局特征,未能有效建模跨维度交互 [21]。为解决上述问题,本文提出了一种基于 YOLOv11n 的新型目标检测模型 TDD-YOLO,并进行了以下改进,这些构成了本研究的主要贡献:
为了解决 YOLOv11n 骨干网络提取细粒度病害相关纹理能力不足的问题,为所提出的 TDD-YOLO 模型设计并采用了一个新颖的坐标注意力特征增强模块。与采用方形感受野的传统卷积不同,该模块通过沿水平方向和垂直方向分别应用非对称卷积来有效利用局部上下文信息,在处理病斑区域时更加灵活高效,从而增强了对细粒度细节的捕获能力,提升了 TDD-YOLO 的局部感知能力。
为了进一步提高所提模型检测病害区域的性能,引入了一个新颖的通道-空间注意力融合模块,该模块通过并行交互分支学习通道维度和空间维度之间的依赖关系,从而更有效地减少背景干扰,并增强模型对病害特征的关注。现有的注意力模块大多以串行或并行方式应用通道注意力和空间注意力,而 CSAF 则以并行方式联合建模通道-空间依赖关系。这种设计避免了传统串行结构的顺序依赖性和典型并行结构的特征孤立问题。
针对 YOLOv11n 颈部因单尺度融合导致番茄病害检测性能较低的问题,引入了一个新设计的多尺度特征融合模块,该模块采用多分支结构融合浅层细节特征与深层语义特征,从而在保持较低计算成本的同时提高所提模型的检测性能。
提出的模型:TDD-YOLO
所提出的 TDD-YOLO 模型基于单阶段目标检测模型 YOLOv11n [24],继承了 YOLO 系列的高效性和实时性,同时引入了进一步的优化和创新。YOLOv11n 由三个主要部分组成:骨干网络、颈部和检测头。骨干网络采用核大小为2的跨阶段部分连接模块、空间金字塔池化快速模块和跨阶段部分连接与空间注意力模块来增强特征提取能力。颈部位于骨干网络和检测头之间,负责特征融合与增强。检测头是决策部分,负责生成最终的检测结果。
YOLOv11n 引入了轻量级模块,如 C3k2 和 C2PSA,显著减少了参数量和每秒浮点运算次数。这种设计带来了更快的推理速度,使模型能够满足实时目标检测的要求。与其他 YOLO 变体相比,YOLOv11n 采用了更精简的架构和优化的训练流程,以更少的参数和更低的计算复杂度实现了检测性能与效率之间的更好平衡。此外,通过采用深度可分离卷积等优化技术,模型的整体尺寸进一步减小,使得 YOLOv11n 非常适合部署在计算资源有限的移动和边缘设备上的农业环境中。因此,本研究选择 YOLOv11n 作为基线模型。
然而,尽管 YOLOv11n 表现出良好的实时性能和高效的特征提取能力,它在番茄病害检测中仍面临挑战,包括底层特征提取不足以及处理多尺度病害特征的能力有限。为解决这些问题,我们设计了一个新的模型 TDD-YOLO(图5)用于改进番茄病害检测。TDD-YOLO 基于 YOLOv11n,通过向其中加入三种新设计的模块类型,即 CAFE、CSAF 和 MSFF。这些模块将在以下小节中详细描述。
CAFE 模块
在真实世界的番茄病害图像中,早期病斑通常表现为轻微的变色或与叶片背景相似的小病斑。YOLOv11n 主要依靠骨干网络提取高维特征。虽然 YOLOv11n 骨干网络速度快、效率高,但由于其低层特征表示能力有限,在深层特征提取过程中容易丢失细粒度的局部纹理。这种富含细节的病害特征退化常常导致漏检,特别是在复杂的农业场景中。
为解决此问题,本文提出了一种基于改进坐标注意力机制 [25] 的新型 CAFE 模块,并将其融入 YOLOv11n(位于骨干网络的 C2PSA 块之后)以增强特征融合。给定输入特征图 x ∈ R^{H×W×C},其中 C 表示通道数,H×W 表示空间分辨率,CAFE 模块产生输出 CAFE_out ∈ R^{H×W×C},维度相同。通过将注意力引导与非对称卷积相结合,CAFE 有效融合了低层和高层特征,能够提取局部细节特征,丰富特征表示,并提高对病害区域的定位精度和检测性能。CAFE 模块的结构如图 6a 所示。
输入特征首先通过五个并行的 1×1 卷积以提取空间信息,构成五个 CAFE 分支的起点。第一和第三分支各生成 C 个通道特征,其中第一分支用于保留微小缺陷的特征信息。第三分支然后使用坐标注意力子模块(图 6b),该子模块通过沿水平轴和垂直轴分别应用平均池化来提取不同方向的空间信息,有效捕获全局上下文信息。坐标注意力随后使用多层感知机生成空间注意力向量,帮助所提模型更好地理解图像内的空间依赖关系。最后,应用 sigmoid 函数产生水平方向权重 H_w(空间尺寸 H×1×C)和垂直方向权重 W_w(空间尺寸 1×W×C),从而保留叶片表面病害区域的形状特征和空间分布。这可表示为:
其中 x 表示输入特征图,AvgPool 表示平均池化,σ 表示 sigmoid 函数。提取的特征由坐标注意力子模块动态加权和调整,以强调关键信息。
得到的 H_w 和 W_w 随后被第二和第四 CAFE 分支使用,这两个分支首先应用 1×1 卷积进行通道对齐,以确保后续逐元素乘法的维度一致性,获得空间尺寸为 H×W×C 的特征,然后以不同顺序应用非对称卷积沿水平和垂直方向提取特征。接着使用 3×3 深度可分离卷积以更少的计算和参数扩大感受野,允许在提高模型效率和性能的同时保留更多上下文信息。
同时,第一(最左)分支使用 3×3 卷积提取局部细粒度病害特征,从而增强所提模型理解细微病理细节的能力。第五(最右)分支采用残差结构,以保留小尺度病斑的关键特征。
最后,第一、第二和第四分支输出的特征图沿通道维度拼接,之后经过 1×1 卷积,再与第五分支的输出进行逐元素相加,产生 CAFE 输出。
CAFE 模块的操作可表示为:
其中 DW_{3×3} 表示深度可分离卷积,⊙ 表示逐元素乘法,Cat 表示拼接操作,CAFE_out 表示 CAFE 模块的最终输出。
消融实验结果表明,在骨干网络中引入 CAFE 模块使参数量从 2.59M 增加到 2.90M,FLOPs 从 6.3G 增加到 6.6G(参见表 8),但使所提模型能够更好地捕获病害特征,提高了在复杂背景下的检测性能,并增强了其准确性。
CSAF 模块
在复杂的农业环境中,番茄病害区域常常与周围环境有许多相似之处,导致模型在病害检测过程中容易受到背景干扰。因此,通常引入注意力机制来增强模型对病害特定特征的关注,同时抑制无关的背景信息。例如,CBAM [15] 首先通过通道注意力调整通道重要性,然后通过空间注意力调整空间重要性,从而改善特征表示能力。然而,这种串行处理方法可能导致早期阶段重要信息的丢失,因为它忽略了不同维度之间的相互依赖关系。这一局限性影响了模型的整体性能。尽管 YOLOv11n 集成了自注意力机制,但它往往不能充分利用特征的空间维度信息,更侧重于捕获全局信息,而忽略了局部细节的重要性。
为解决此问题,本文提出了一种新的注意力机制及其对应的模块,称为 CSAF。CSAF 模块如图 7 所示,被用于颈部内不同特征连接的融合节点。该模块的目标是进一步增强所提模型聚焦关键病害特征的能力,尤其是在背景复杂且病害区域与背景相似的情况下。通过动态整合通道注意力和空间注意力,相应的 CSAF 模块不仅增强了所提模型对关键病害特征的关注,还捕获了特征图中不同维度之间的复杂依赖关系。
CSAF 模块由两个分支组成。上分支(参见图 7)利用最大池化和平均池化从输入特征 x ∈ R^{H×W×C} 中提取全局上下文信息,捕获特征图中每个通道的重要性以及通道间的依赖关系。然后使用 MLP 生成非线性映射,为每个通道分配权重值,并产生空间尺寸为 1×1×C 的通道注意力权重 M_c。下分支沿输入特征图的通道维度应用最大池化和平均池化,以捕获显著的病斑区域和整体分布信息。这一步使所提模型能够更好地理解图像中病害特征的空间位置和相对大小。随后,应用 7×7 卷积生成空间尺寸为 H×W×1 的空间注意力权重 M_s。
为了进一步增强 CSAF 模块的表达能力,M_c 沿通道维度展平以获得尺寸为 1×1×C 的特征,并与 M_s 拼接形成新的联合特征表示,动态调整特征通道数。然后使用两个 1×1 卷积来融合跨模态的全局空间特征和通道特征,从而建模两种注意力之间的非线性依赖关系。融合后的特征再被分割回原始的通道维度和空间维度,然后使用 sigmoid 函数进行归一化,以保持注意力机制的稳定性。在不同维度的信息融合之后,通道和空间权重与输入特征图进行逐元素相乘,然后求和,生成空间尺寸为 H×W×C 的输出。
通过在颈部引入新设计的 CSAF 模块,参数量从 2.59M 增加到 2.68M,FLOPs 从 6.3G 增加到 6.5G(参见表 8),但所提出的 TDD-YOLO 模型通过动态调整通道和空间信息,聚焦关键病害特征的能力得到了提升。这样,TDD-YOLO 能够有效捕获叶片病斑的局部细节特征及其全局上下文关系。
MSFF 模块
在实际农业生产环境中,番茄病害复杂多样,不同尺度的病害特征常常混合出现。单尺度特征提取方法难以适应这种多样性和尺度变化,导致关键病害信息可能丢失,从而降低检测性能。尽管 C3k2 模块增强了 YOLOv11n 的特征提取能力,但在处理多尺度病害特征时,它仍然难以同时捕获局部细节和全局上下文。这一局限性影响了模型的鲁棒性和泛化性能。因此,为了解决单尺度特征提取方法在多尺度病害特征识别中的局限性,并解决因引入 CSAF 和 CAFE 模块而导致的参数量增加问题,设计了一个新颖的 MSFF 模块,如图 8 所示。MSFF 模块替换了所提出的 TDD-YOLO 模型颈部中的每个 C3k2 模块。MSFF 模块采用多分支结构来捕获不同感受野下的特征信息,解决了单尺度特征提取方法的局限性,并提高了模型识别多尺度病害特征的能力。
给定输入特征图 x ∈ R^{H×W×C},MSFF 模块首先沿通道维度将其均匀分割成四个子特征 {x₁, x₂, x₃, x₄},然后将每个子特征馈送到四个独立的分支进行进一步处理。这种方法减少了模型的参数量,并允许每个分支更有效地专注于提取特定尺度的信息。由于局部特征通常包含关键的病害细节,如叶斑或颜色变化,这对于区分病害区域至关重要,第一个分支使用标准 3×3 卷积提取局部纹理特征。其他三个分支使用不同膨胀率的空洞卷积来逐步扩大感受野并捕获多尺度上下文信息,产生特征 y_i ∈ R^{H×W×C/4}。MSFF 模块的这种设计使所提出的 TDD-YOLO 模型能够捕获更多病害相关信息,有助于增强其精确定位病害边界和区分病害区域与背景的能力。
四个分支的输出在通道维度上拼接。然后,使用 1×1 卷积进行特征融合。这种多尺度特征信息的整合有助于所提模型关注局部细节并理解全局上下文。此外,为了进一步提高训练稳定性和收敛速度,引入了残差连接和缩放因子 λ,以增强梯度流并减轻深度网络层中的梯度消失问题,产生空间尺寸为 H×W×C 的输出。MSFF 模块的操作可表示为:
其中 x 表示第 i 个分支的输入特征,y_i 表示第 i 个分支的输出,output 表示输出特征图。
消融实验结果表明,所提模型使用 MSFF 模块使得参数量从 2.59M 减少到 2.17M,FLOPs 从 6.3G 减少到 6.1G(参见表 8)。此外,MSFF 模块的多尺度特征融合能力通过提高模型区分不同病害类型和病斑区域的能力,显著促进了所提模型番茄病害检测性能的提升。其模块设计有效解决了单尺度特征提取方法的局限性(这些方法常常遗漏重要的病害特征)。通过整合多尺度特征,MSFF 模块改善了关键病害区域的表示,并增强了所提出的 TDD-YOLO 模型的整体检测性能。
实验结果
与基线的性能比较
首先,我们在番茄病害检测任务中,将所提出的 TDD-YOLO 模型与基线模型(YOLOv11n)在 Tomato-Village 和 Tomato-Disease 数据集上进行了比较。获得的实验结果分别见表 4 和表 5。
在 Tomato-Village 数据集上(表 4),基于各项指标的平均值,TDD-YOLO 在所有评估指标上均明显优于基线。具体而言,使用 TDD-YOLO,平均精确率从 0.859 提高到 0.886(+3.1%),平均召回率从 0.781 提高到 0.805(+3.1%),平均 mAP@50 从 0.838 提高到 0.872(+4.1%),平均 mAP@50:95 从 0.546 提高到 0.579(+6.0%)。精确率的提高表明新设计的 CAFE 模块增强了骨干网络的特征提取能力,并有助于防止底层细节的丢失。mAP@50 的提高表明所提模型能更正确地检测到更多病害实例,证明其中集成的新设计 CSAF 模块提高了边界框的定位精度,从而减少了漏检。mAP@50:95 的改善进一步表明 TDD-YOLO 能够在更严格的 IoU 阈值下保持较高的定位质量,这有助于更准确地估计病害区域。这些改进证明,在所提模型中引入 CAFE 和 MSFF 模块增强了其在复杂田间条件下检测和定位病害的能力。值得注意的是,在钾缺乏症和氮缺乏症上观察到了最显著的检测改进。这类病害通常表现为颜色和纹理的细微变化,而非轮廓清晰的病斑。通过将改进的坐标注意力与非对称卷积相结合,新颖的 CAFE 模块加强了沿水平和垂直方向精细空间细节的提取与融合,这有助于所提模型捕获此类小尺度病斑。同时,每个 MSFF 模块通过多分支结构聚合不同感受野的信息,使网络能够联合建模局部病斑细节和更广泛的上下文线索,从而共同提高了模型的性能。这证明与基线相比,所提出的 TDD-YOLO 模型不仅能正确识别番茄病害,还能减少漏检和误检,在保持高检测性能的同时表现出更强的泛化能力。然而,对于晚疫病和潜叶蛾的检测对 TDD-YOLO 来说仍然具有挑战性。
在 Tomato-Disease 数据集上(参见表 5),TDD-YOLO 同样表现出比 YOLOv11n 更好的整体检测性能。例如,平均精确率从 0.723 提高到 0.822(+13.7%),而 mAP@50 和 mAP@50:95 分别从 0.769 和 0.597 提高到 0.797(+3.6%)和 0.620(+3.9%)。这表明与基线相比,TDD-YOLO 能产生更准确的预测,在不同 IoU 阈值下产生更可靠的边界框,并显著减少假阳性。尽管平均召回率从 0.709 略微下降到 0.694(-2.1%),但这表明所提模型在精确率和召回率之间做出了一定的权衡,更少的健康叶片被误判为病害。在实际病害管理中,减少误报对于避免不必要的防治操作和经济损失尤为重要;因此,在召回率相当的情况下,实现更高的精确率通常更符合应用需求。精确率的显著提高主要归因于在 TDD-YOLO 的颈部引入了新设计的 CSAF 模块,该模块联合建模通道和空间注意力,有效抑制了背景干扰并突出了真实的病斑区域。在类别层面,Septoria 和 Early Blight 在 mAP@50 上表现出最显著的改进,分别从 0.519 提高到 0.623(+20.0%)和从 0.715 提高到 0.787(+10.1%)。这表明 CSAF 模块能够引导所提模型更关注不规则病害,同时抑制相似的背景区域,从而提高了其分类和定位性能。然而,检测叶螨和番茄黄化曲叶病毒仍然具有挑战性。
两种比较模型的番茄病害检测样本结果可视化见图 9 和图 10。与基线(YOLOv11n)相比,所提出的 TDD-YOLO 模型不仅能更好地检测各类番茄病害,而且减少了漏检和误检情况。这表明 TDD-YOLO 在保持高检测性能的同时,还实现了增强的鲁棒性。
消融研究
为了验证新设计的模块(MSFF、CSAF、CAFE)对所提模型性能的影响并研究它们之间的相互作用,我们使用 Tomato-Village 数据集进行了消融研究。获得的结果如表 8 所示。
步骤 0 仅包含纯基线模型(YOLOv11n),没有添加任何额外模块。在步骤 1-3 中,新设计的模块类型被单独添加到基线中。这使得所有评估指标均得到改善,但仅使用 MSFF 组件时召回率有所下降。这种配置使模型的参数量从 2.59 M 减少到 2.17 M(-16.2%),FLOPs 从 6.3 G 减少到 6.1 G(-3.2%),同时与基线相比,平均精确率、mAP@50 和 mAP@50:95 均有所提高。尽管 FPS 从 63.79 降至 58.47,但仍体现了效率与性能之间的良好平衡。这表明 MSFF 通过多尺度特征融合扩大了有效感受野,保留了不同尺度的病害特征,并提高了定位性能。当单独加入 CSAF 模块类型时,特征表示和注意力机制的协同增强使所得模型相比 YOLOv11n 在所有评估指标上均有所提升,表明即使在更严格的 IoU 要求下,它也能保持较高的定位精度,从而增强了其边界框回归能力。然而,添加 CSAF 也使得模型的参数量增加到 2.68 M(+3.5%),FLOPs 增加到 6.5 G(+3.2%),同时 FPS 从 63.79 降至 35.47,表明在提高性能的同时在一定程度上牺牲了推理速度。添加 CAFE 模块对提高所有评估指标的检测性能影响最为显著,表明 CAFE 有效增强了模型的特征提取能力。特别是,与基线相比,平均精确率从 0.859 提高到 0.879(+2.3%),平均召回率从 0.782 提高到 0.791(+1.2%),平均 mAP@50 从 0.838 提升到 0.855(+2.0%),平均 mAP@50:95 从 0.546 增加到 0.564(+3.3%),同时保持了相对较高的推理速度(60.23 FPS)。然而,向基线添加 CAFE 也使得参数量从 2.59 M 增加到 2.90 M,FLOPs 从 6.3 G 增加到 6.6 G。
在步骤 4-6 中,新设计的模块类型被成对添加到基线中。在‘MSFF + CSAF’配对组合中,MSFF 组件通过融合来自多个层次的特征捕获了更丰富的病害相关信息,从而使 CSAF 能够更好地区分不同病害类型,并增强了模型的定位能力,尽管 FPS 降至 53.41。在‘MSFF + CAFE’配对中,CAFE 组件通过扩大有效感受野增强了模型提取局部特征的能力,使其能够保留更丰富的病害相关特征;随后,MSFF 组件通过其多分支架构融合这些特征以整合多样化的多尺度表示,使模型能够更准确地定位和区分不同类型的病害,使其达到了迄今为止最高的平均召回率(0.803)和平均 mAP@50(0.859),同时保持了相对较高的推理速度(57.43 FPS)。在‘CSAF + CAFE’组合中,CAFE 提取的更丰富病害表示使 CSAF 能够捕获更全面的上下文特征,共同提高了模型区分病害和定位病斑的能力,使其达到了迄今为止最好的 mAP@50:95(0.570)。然而,FPS 降至 32.87,突显了 CSAF 对推理速度的负面影响。
在最后一步步骤 7 中,所有三种模块类型被一起整合到基线中,形成了所提出的 TDD-YOLO 模型。该配置在所有评估指标上取得了最佳结果,证实了新设计的模块组合使用时最有效。同时,参数量保持在 2.59 M(与基线相同),而 FLOPs 保持在 6.5 G,仅增加了 0.2 G。尽管 FPS 降至 51.54,模型仍然满足 30 FPS 的实时性能要求。这是以仅略微增加计算成本为代价获得的性能增益,证实了特征增强、注意力建模和多尺度特征融合的互补性。这些结果表明,所提出的模块共同增强了细粒度特征提取,提高了定位精度,并减少了计算开销,最终为实际番茄病害检测提供了一个高精度、高效率的框架。
尽管所提出的 TDD-YOLO 模型利用的新设计的 MSFF、CSAF 和 CAFE 模块替换了基线中较重的模块,但参数量保持不变,这归因于 TDD-YOLO 额外的结构复杂性降低了轻量级模块设计的效果。具体而言,向基线中引入 CAFE 和 CSAF 模块使参数量增加到 3.00 M,FLOPs 增加到 6.7 G。为了能够在资源受限的设备上部署,所提模型用轻量级的 MSFF 模块替换了颈部的 C3k2 模块。通过高效的多分支特征融合机制,每个 MSFF 模块在提高检测性能的同时减少了计算开销。如仅使用 MSFF 的设置所示,单独引入 MSFF 组件将参数量减少到 2.17 M,FLOPs 减少到 6.1 G,有效补偿了 CAFE 和 CSAF 模块带来的参数量和 FLOPs 的增加。这样,TDD-YOLO 不仅实现了更好的检测性能,而且在精度和计算效率之间保持了良好的平衡,使其适合在资源受限的环境中部署。
消融研究的精确率-召回率曲线可视化如图 17 所示。从中可以看出,在步骤 7(‘YOLOv11n + MSFF + CSAF + CAFE’)中获得的所提 TDD-YOLO 模型的 AUC 显著大于所有其他步骤中获得的 AUC,表明与消融研究的所有先前步骤相比,最终步骤产生的模型确实取得了最好的番茄病害检测性能。
