当前位置：首页 > news >正文

98%准确率！这个双分支AI模型，精准识别木薯叶病害（附代码）

news 2026/6/25 11:20:08

向AI转型的程序员都关注公众号机器学习AI算法工程

如果你是一位木薯种植户，某天发现叶片上出现褐色条纹、斑点或畸形，第一反应肯定是：这作物是不是生病了？是什么病？该怎么治？

传统方法是请农技专家到田里看，但专家少、面积大，根本顾不过来。现在AI能帮上忙——2026年3月发布的论文DenseSwinV2（arXiv:2603.25935）提出了一个双分支AI模型，对木薯叶病害的分类准确率高达98.02%，比单一CNN或Transformer模型都准。

论文：DenseSwinV2: Channel Attentive Dual Branch CNN Transformer Learning for Cassava Leaf Disease Classification

https://arxiv.org/pdf/2603.25935

这篇论文的核心思路很直观：把擅长看细节的CNN和擅长看全局的Transformer拼在一起，再加个“注意力开关”突出病害特征，让AI既懂局部细节，又懂整体关联。

一、先搞懂：为什么需要“双分支”模型？

做图像分类的AI模型，主要有两大类，各有优缺点：

模型类型	代表模型	擅长什么	短板是什么
CNN（卷积神经网络）	DenseNet、ResNet	抓局部细节，比如叶片上的小斑点、纹理变化	看不清全局关联，比如病斑和整片叶子的关系
Transformer	Swin Transformer V2	抓全局上下文，比如病斑分布、叶片整体形态	忽略精细局部特征，小病斑可能漏检

木薯叶病害分类恰恰需要两者结合：既要看清局部病斑细节（比如褐斑、条纹），又要理解全局叶片状态（比如病斑分布是否扩散）。

💡 通俗理解：
CNN像拿着放大镜看叶片细节的农技员，Transformer像站在田埂上看整片作物的专家——DenseSwinV2把两者结合起来，既看细节又看全局。

二、DenseSwinV2核心创新：三个关键点

DenseSwinV2的全称是Channel Attentive Dual Branch CNN Transformer Learning，它的三个核心创新：

1. 双分支结构：DenseNet + Svin Transformer V2

模型有两个并行分支，分别处理不同类型的特征：

DenseNet分支
：密集连接的CNN，每一层都和前面所有层连接，能保留最精细的局部特征，梯度流动也更好（不容易训练崩溃）

Swin Transformer V2分支
：改进版Transformer，用滑动窗口注意力看全局，能捕捉病斑之间的长距离关联（比如病斑是否沿叶脉扩散）

2. 通道注意力模块（Channel-Squeeze）

两个分支输出的特征图里，有很多是背景（比如土壤、天空）或冗余信息，真正有用的病害特征可能只占一小部分。DenseSwinV2给每个分支都加了个通道注意力模块：

通俗说：就像给每个特征通道装了个“开关”，病害相关的通道开大，背景无关的通道关小，让模型专注学病害特征。

3. 特征融合：局部+全局强强联合

两个分支的特征不是简单拼接，而是加权融合：

先分别用通道注意力筛选出各自的重要通道
再把局部特征（CNN）和全局特征（Transformer）按权重融合
最终得到同时包含精细细节和全局上下文的“超级特征”

三、原理通俗讲：模型是怎么“看”懂病害的？

以一张有细菌性枯萎病的木薯叶为例，完整推理流程：

整个模型训练用了31000张木薯叶图像，包含5个类别：健康叶、褐条病、花叶病、绿斑病、细菌性枯萎病。

四、实测效果：98.02%准确率，超过单一模型

论文在公开木薯叶病害数据集上的对比实验：

模型	准确率（Accuracy）	F1分数
ResNet-50（纯CNN）	94.1%	93.5%
DenseNet-121（纯CNN）	95.3%	94.8%
Swin Transformer V2（纯Transformer）	96.7%	96.1%
DenseSwinV2（双分支）	98.02%	97.81%

关键结论：

双分支比单一CNN高2.7个百分点，比单一Transformer高1.3个百分点
F1分数97.81%，说明模型对每类病害的查准率和查全率都很均衡，没有偏科
对遮挡、噪声、复杂背景的鲁棒性更强——真实农田场景里，叶片往往有泥土、重叠，这个优势很实用

五、实战代码：用PyTorch实现简化版DenseSwinV2

论文官方代码暂未公开，以下是一个简化版双分支模型实现，帮助理解结构：

import torchimport torch.nn as nnfrom torchvision import modelsclass ChannelAttention(nn.Module): """通道注意力模块""" def __init__(self, in_channels, reduction=16): super().__init__() self.avg_pool = nn.AdaptiveAvgPool2d(1) self.fc = nn.Sequential( nn.Linear(in_channels, in_channels // reduction), nn.ReLU(), nn.Linear(in_channels // reduction, in_channels), nn.Sigmoid() ) def forward(self, x): b, c, _, _ = x.size() y = self.avg_pool(x).view(b, c) y = self.fc(y).view(b, c, 1, 1) return x * y.expand_as(x) # 加权特征图class DenseSwinV2_Simplified(nn.Module): """简化版DenseSwinV2双分支模型""" def __init__(self, num_classes=5): super().__init__() # 分支1：DenseNet121（CNN分支） self.densenet = models.densenet121(pretrained=True) self.densenet_features = nn.Sequential(*list(self.densenet.children())[:-1]) densenet_out = 1024 # DenseNet121输出通道数 # 分支2：Swin Transformer V2（Transformer分支） # 这里用简化版替代，实际用官方Swin V2实现 self.swin = nn.Sequential( nn.Conv2d(3, 96, kernel_size=4, stride=4), nn.ReLU(), nn.Conv2d(96, 192, kernel_size=2, stride=2), nn.ReLU() ) swin_out = 192 # 通道注意力模块（每个分支独立） self.ca_densenet = ChannelAttention(densenet_out) self.ca_swin = ChannelAttention(swin_out) # 分类头 self.classifier = nn.Linear(densenet_out + swin_out, num_classes) def forward(self, x): # 分支1：DenseNet f_densenet = self.densenet_features(x) f_densenet = self.ca_densenet(f_densenet) # 通道注意力加权 f_densenet = f_densenet.view(f_densenet.size(0), -1) # 展平 # 分支2：Swin Transformer f_swin = self.swin(x) f_swin = self.ca_swin(f_swin) # 通道注意力加权 f_swin = f_swin.view(f_swin.size(0), -1) # 展平 # 特征融合 fused = torch.cat([f_densenet, f_swin], dim=1) # 分类 out = self.classifier(fused) return out# 初始化模型model = DenseSwinV2_Simplified(num_classes=5)print(f"模型参数量：{sum(p.numel() for p in model.parameters()) / 1e6:.2f}M")# 测试输入x = torch.randn(2, 3, 256, 256) # 2张256×256的RGB图像out = model(x)print(f"输出形状：{out.shape}") # 应该是 [2, 5]（2张图，5个类别）

如果是实际训练，还需要：