当前位置: 首页 > news >正文

LLM智能体加持YOLO26-MoE:无人机绝缘子故障检测新方案

本文核心贡献如下:

  1. 提出YOLO26-MoE架构:在YOLO26高分辨率P3检测分支中嵌入稀疏混合专家模块,替代静态卷积,实现针对不同缺陷形态的自适应特征细化,提升绝缘子微小故障(破损、闪络)的判别能力。

  2. 开发LLM智能体优化流程:设计工具增强的大语言模型智能体,自动执行超参数搜索(Optuna)、最终训练、评估与可视化,实现端到端自动化调优,提高模型性能与实验可重复性。

  3. 取得SOTA检测性能:在自建无人机绝缘子数据集上,YOLO26-MoE达到mAP@0.5=0.9900,mAP@0.5:0.95=0.9515,显著优于YOLOv10/v11/v12/v26各系列变体,统计检验证明改进显著。

  4. 实现有利的精度-复杂度权衡:模型参数量15.66M、GFLOPs 58.8,复杂度介于YOLO26s与YOLO26m之间,却超越更大基线,证明MoE模块以可控计算代价换取检测精度增益。

博主简介

AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者

深耕计算机视觉与深度学习领域,专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践,旨在打通从学术研究到产业应用的最后一公里。

🚀 核心专长与技术创新

  • YOLO算法结构性创新:于CSDN平台原创发布《YOLOv13魔术师》、《YOLOv12魔术师》等全系列深度专栏。系统性提出并开源了多项原创自研模块,在模型轻量化设计、多维度注意力机制融合、特征金字塔重构等关键方向完成了一系列突破性实践,为行业提供了具备高参考价值的技术路径与完整解决方案。

  • 技术生态建设与知识传播:独立运营“计算机视觉大作战”公众号(粉丝2.2万),成功构建高质量的技术交流社群。致力于将复杂算法转化为通俗易懂的解读与可复现的工程代码,显著降低了计算机视觉的技术入门门槛。

🏆 行业影响力与商业实践

  • 荣获腾讯云年度影响力作者创作之星奖项,内容质量与专业性获行业权威平台认证。

  • 全网累计拥有8万+垂直领域技术受众,专栏文章总阅读量突破百万,在目标检测领域形成了广泛的学术与工业影响力。

  • 具备丰富的企业级项目交付经验,曾为工业视觉检测、智慧城市安防等多个关键领域提供定制化的算法模型与解决方案,驱动业务智能化升级。

💡 未来方向与使命

秉持“让每一行代码都有温度”的技术理念,未来将持续聚焦于实时检测、语义分割及工业缺陷检测的商业化闭环等核心方向。愿与业界同仁协同创新,共同推动技术边界,以坚实的技术能力赋能实体经济与行业变革。

原创自研系列,26年计算机视觉顶会创新点

《YOLO26魔术师》

原创自研系列,25年计算机视觉顶会创新点

《YOLOv13魔术师》

《YOLOv12魔术师》

《YOLO11魔术师》

《YOLOv8原创自研》

《YOLOv5原创自研》

《YOLOv7原创自研》

《YOLOv9魔术师》

​《YOLOv10魔术师》 ​

应用系列篇:

《YOLO小目标检测》

《深度学习工业缺陷检测》

《YOLOv8-Pose关键点检测》

23、24年最火系列,加入24年改进点内涵100+优化改进篇,涨点小能手,助力科研,好评率极高

《YOLOv8魔术师》

《YOLOv7魔术师》

《YOLOv5/YOLOv7魔术师》

《RT-DETR魔术师》

0.原理介绍

论文:A novel YOLO26-MoE optimized by an LLM agent for insulator fault detection considering UAV images

摘要:电力线路绝缘子的检测对于确保电网可靠性和防止因绝缘部件损坏或退化引发的故障至关重要。近年来,无人机结合基于深度学习的视觉系统已成为实现该过程自动化的有效解决方案。然而,由于缺陷区域小、故障模式异质、背景复杂以及成像条件多变,绝缘子故障检测仍然具有挑战性。为应对这些挑战,本文提出了一种优化的YOLO26-MoE,这是一种新颖的目标检测架构,它将稀疏混合专家模块集成到 YOLO26 检测器的高分辨率分支中。所提出的改进能够针对细微和多样化的故障模式进行自适应特征细化,同时保持了单阶段检测框架的效率。超参数优化、最终训练和评估通过一个工具增强的大语言模型智能体进行协调。所提出的模型达到了 0.9900 的 mAP@0.5 和 0.9515 的 mAP@0.5:0.95,性能优于最新的 YOLO 版本。这些结果表明,所提出的模型为基于无人机的绝缘子故障检测提供了一种有效且可靠的解决方案。

关键词:绝缘子故障检测,无人机巡检,YOLO26,混合专家,大语言模型

1. 引言

电力系统的可靠运行取决于其绝缘部件的状况。绝缘子负责保持导体与接地结构之间的电气隔离,防止电流泄漏,并确保电力传输的安全与效率[1]。然而,绝缘子持续暴露于污染、紫外线辐射、湿度和机械负荷等环境压力下,这可能导致表面退化、开裂或闪络[2]。这些故障若不能及时发现,可能导致局部放电、停电,甚至大规模断电[3]。因此,准确及时地检测故障绝缘子是维持电网稳定和最小化维护成本的关键任务。

传统检测方法,包括视觉评估和人工热成像或紫外成像,通常劳动密集、主观性强且可扩展性有限。近年来,深度学习已成为自动化及增强绝缘子故障检测的强大方法[4]。通过基于卷积和Transformer的神经网络,深度学习模型能够从红外、紫外和可见光图像中提取复杂的空间和光谱特征,实现对缺陷的高精度分类和定位。这些模型减少了人工干预,促进了电网智能状态监测系统的开发[5]。

无人机的部署通过能够在广阔且通常难以进入的地形上快速采集数据,进一步革新了电力线巡检[6]。无人机搭载的摄像头可以从多个角度和距离捕捉绝缘子的高分辨率图像,为自动化分析提供了丰富的视觉信息。然而,无人机获取的图像带来了独特的挑战,包括变化的光照条件、复杂的背景、运动模糊以及多样化的绝缘子方向,这需要鲁棒且自适应的检测算法[7]。

在深度学习架构中,YOLO系列检测器因其在准确性和计算效率之间的良好权衡,已广泛应用于实时目标检测任务[8]。YOLO的后续迭代引入了特征金字塔网络、注意力机制和无锚框检测头等架构创新,逐步提高了跨不同领域的检测性能。包括YOLOv8及之后的版本在内的最新版本,在通用目标检测基准上已展现出最先进的成果,但它们在绝缘子故障检测等专业任务中的应用仍是一个活跃的研究领域[9]。

更广泛地说,自动化的电力线巡检已越来越多地得到基于无人机的视觉、机器人巡检平台和智能传感流程的支持。先前的研究已强调深度学习作为自动巡检分析骨干的日益重要性,同时也强调了在复杂的输电环境中,可扩展的数据采集和状态评估在操作上的重要性[10, 11, 12, 13]。

尽管取得了这些进展,现有方法仍面临若干局限。首先,绝缘子类型、故障类别和成像条件的异质性给在有限数据集上训练的模型带来了挑战。其次,故障类型的长尾分布会导致模型预测偏向常见类别,而忽略罕见但关键的故障。第三,超参数和架构选择的手动调整仍然是一个耗时的过程,需要大量的领域专业知识。

混合专家架构为解决前两个挑战提供了一种有前景的范式[14]。通过基于学习的门控机制将输入路由到专门的专家子网络,MoE模型可以针对不同的输入特征(如故障类型或绝缘子外观)开发不同的处理路径,而不会导致计算成本成比例增加。这种条件计算使得模型容量和专业化程度更高,同时保持了适合实时应用的推理效率。

为解决超参数优化的挑战,近期研究探索了使用大语言模型作为智能优化智能体[15]。不同于纯粹基于数值表示运行的传统优化算法,基于LLM的智能体可以利用关于神经网络架构的预训练知识,通过自然语言推理解释实验结果,并根据观察到的模式自适应地优化搜索策略[16]。这种新兴范式有潜力加速优化过程,同时融入原本需要大量人类专业知识的领域特定见解。

本工作提出了一种优化的YOLO26-MoE,这是一种新颖的架构,它将MoE层集成到最先进的YOLO26骨干网络中,用于无人机图像中的绝缘子故障检测。该模型通过一个基于LLM的智能体进行优化,该智能体利用关于绝缘子特性、故障类型和无人机成像条件的领域知识来指导超参数搜索过程。本文的主要贡献如下:

  • 一种新颖的YOLO26-MoE架构,将稀疏MoE层集成到检测骨干网络中,能够为不同的绝缘子类型和故障类别建立专门的处理路径,同时保持计算效率。

  • 一个基于LLM的优化智能体,结合自然语言推理与系统性的超参数搜索,利用关于计算机视觉架构的预训练知识来加速收敛并提高最终模型性能。

  • 在无人机采集的绝缘子数据集上进行的全面实验评估,证明所提方法与基线YOLO变体和现有绝缘子检测方法相比,实现了更优的检测精度。

  • 分析MoE组件贡献和LLM引导优化有效性的消融研究,为驱动性能提升的设计选择提供了见解。

本文的其余部分组织如下:第2节回顾了绝缘子缺陷检测、基于YOLO的检测器、混合专家模型和LLM驱动优化方面的相关工作,确立了本工作所解决的研究空白。第3节介绍了YOLO26的技术背景,包括其架构设计和训练策略。第4节描述了所提出的YOLO26-MoE方法,详细阐述了稀疏混合专家模块的集成以及负责超参数调优、训练和评估的LLM智能体。第5节介绍了实验设置、数据集、硬件配置、评估指标和基准测试结果。最后,第6节总结了主要发现并概述了未来的研究方向。

2. 相关工作

本节回顾了关于绝缘子故障检测、用于电力线巡检的目标检测架构、MoE模型以及LLM在超参数优化中新兴作用的现有文献。

2.1. 电力系统中的绝缘子故障检测

绝缘子是输配电系统中的关键部件,负责在机械上支撑导体,同时在电气上将其与接地结构隔离。污染、裂纹、闪络损伤和端盖缺失等故障可能导致停电、设备损坏和安全危害[17]。

传统的检测方法依赖经过培训的人员进行人工目视检查,这耗时、费力,并且对于偏远或困难地形中的高压输电线路尤其危险[7]。配备高分辨率摄像头的无人机的采用,通过实现快速、安全且成本效益高的数据采集,彻底改变了电力线巡检[6]。

早期的自动化方法采用经典的图像处理技术,包括边缘检测、形态学操作和模板匹配[18]。然而,这些方法难以应对变化的光照条件、复杂背景和多样化的绝缘子类型。深度学习的出现显著提高了检测精度和鲁棒性[19]。更具体地说,近年来的研究已经调查了在实际现场条件下用于绝缘子和输电线路缺陷分析的智能识别策略。这些工作解决了诸如背景杂乱、缺陷区域小以及代表性训练样本有限等挑战,表明现代基于学习的方法可以在实际巡检场景中显著提高故障判别和定位鲁棒性[20, 21, 22]。

2.2. 深度学习在电力线巡检目标检测中的应用

卷积神经网络已成为视觉检测任务的主导范式。两阶段检测器实现了高精度,但存在计算开销,限制了实时部署。单阶段检测器,特别是YOLO系列[8],在实际应用中的速度和准确性之间提供了有吸引力的平衡。

YOLO架构自推出以来已显著发展。YOLOv3引入了使用特征金字塔网络的多尺度预测[24]。YOLOv4 [25] 整合了“免费午餐”和“特供套餐”技术来改进训练和推理。YOLOv5通过易用的实现和高效的训练流程普及了该架构。包括YOLOv7 [26]、YOLOv8及后续迭代在内的更新版本,通过扩展高效层聚合网络和无锚框检测头等架构创新,不断突破检测性能的界限。

有几项研究已将YOLO变体应用于绝缘子故障检测。Liu等人[27]采用带有注意力机制的YOLOv3检测绝缘子缺陷,提高了定位精度。Wang等人[28]提出了一种带有可变形卷积的改进YOLOv4,以处理从不同无人机视角捕获的绝缘子的几何变化。Chen等人[9]开发了一种轻量级YOLO变体,针对计算资源有限的无人机平台上的边缘部署进行了优化。

尽管取得了这些进展,现有方法在处理故障类型的长尾分布方面仍面临挑战,某些缺陷的发生频率远高于其他缺陷。此外,模型复杂度与推理速度之间的权衡仍然是实时无人机巡检系统的一个关键考虑因素。

2.3. 混合专家架构

MoE模型[29]代表了一种通过基于输入特征有条件地激活参数子集来扩展神经网络的范式。MoE架构不是通过整个网络处理所有输入,而是采用门控机制将输入路由到专门的专家子网络,从而在不按比例增加计算成本的情况下增加模型容量。

Shazeer等人[14]的开创性工作证明了稀疏门控MoE层在将语言模型扩展到前所未有的规模同时保持计算效率方面的有效性。此后,这种方法已被应用于各个领域,包括计算机视觉[30]和多模态学习[31]。

在目标检测的背景下,MoE架构具有几个潜在优势。不同的专家可以专门检测不同尺度、长宽比或语义类别的目标[32]。对于绝缘子故障检测,考虑到故障类型的多样性以及不同制造商、电压等级和环境条件下绝缘子外观的变化,这种专业化尤其相关。

2.4. 超参数优化与神经架构搜索

深度学习模型的性能对超参数选择高度敏感,包括学习率、批量大小、数据增强策略和架构参数[33]。传统的超参数优化方法包括网格搜索、随机搜索[33]和贝叶斯优化[34]。

神经架构搜索将超参数优化扩展到架构层面,自动发现最佳的网络拓扑结构[35]。高效的NAS方法,包括可微分方法[36]和权重共享策略[37],已将架构搜索的计算成本从数千个GPU天降低到更实际的时间范围内。对于基于YOLO的检测器,已有几项研究采用了自动化优化技术。Wang等人[38]使用NAS为YOLOv4发现了高效的扩展策略。这些方法通常需要大量的计算资源和领域专业知识来适当配置搜索空间。

2.5. 大语言模型作为优化智能体

LLM已在推理、代码生成和任务规划方面展现出非凡的能力[39]。近期的研究探索了利用这些能力进行科学发现和优化任务[40]。

基于LLM的优化智能体概念代表了一种新兴范式,其中语言模型通过自然语言推理和代码生成来指导搜索过程[15]。与基于数值表示运行的传统优化算法不同,LLM智能体可以结合领域知识、解释实验结果,并根据观察到的模式自适应地修改搜索策略。

Chen等人[41]提出了EvoPrompting,它使用LLM通过自然语言描述来生成和演化神经网络架构。Liu等人[42]证明,LLM可以通过基于观察到的性能迭代提出和完善参数配置,有效地支持超参数优化。Jiang等人[43]介绍了LLMOPT,一个将基于LLM的推理与传统优化算法相结合以提高样本效率的框架。

应用LLM智能体为特定领域优化目标检测模型具有几个优势。首先,LLM可以利用其关于计算机视觉架构和训练实践的预训练知识。其次,它们可以解释关于模型行为的定性反馈。第三,它们可以为优化决策生成人类可读的解释,提高自动化系统的透明度和可信度。

然而,确保基于LLM的优化的可靠性和一致性仍然存在挑战。幻觉在安全关键应用中构成风险[44]。此外,查询LLM的计算成本必须与优化带来的效率提升相平衡。

2.6. 研究空白与贡献

尽管先前的研究已经报道了在电力系统资产的缺陷检测和巡检自动化方面取得了实质性进展,但大多数现有方法仍然依赖于传统的骨干网络改进或标准目标检测器的增量适配。相比之下,对于能够在电力线巡检场景中针对异质视觉模式进行专门特征处理的条件计算机制,尤其是当细微缺陷占据有限的空间区域并表现出强烈的类内变异性时,关注相对较少[45, 46]。

尽管在绝缘子故障检测和深度学习优化方面取得了显著进展,文献中仍然存在一些空白:
(i) 现有的用于绝缘子检测的YOLO变体并未利用MoE架构的潜力来处理故障类型和绝缘子外观的异质性。
(ii) 最先进的YOLO架构在电力线巡检中的应用尚未得到深入研究。
(iii) 基于LLM的优化智能体尚未应用于绝缘子故障检测等特定领域的目标检测任务。
(iv) MoE组件与现代YOLO架构的集成以及通过LLM智能体进行优化仍有待探索。

本工作通过提出YOLO26-MoE来解决这些空白,这是一种将MoE层集成到YOLO26骨干网络中的新颖架构,并通过一个利用关于绝缘子特性和无人机成像条件的领域知识的LLM智能体进行优化。所提出的方法旨在实现卓越的检测性能,同时保持适合实际部署场景的计算效率。

3. YOLO26 相对于当代检测器的背景

YOLO26 是 Ultralytics 发布的一个专注于边缘优化实时检测的版本。其主要设计选择是移除分布焦点损失模块和无需非极大值抑制的原生端到端推理 [47]。YOLO26 还进一步引入了 ProgLoss 用于损失项的渐进平衡、STAL 用于小目标标签分配,以及 MuSGD 作为混合优化器。这些设计选择的目标是简化部署、增强量化鲁棒性并改进小目标性能,如 Ultralytics 报告所述。

3.1. 正式指标与权衡

检测系统通常通过平均精度均值和推理延迟来评估。令 T 表示在目标设备上测量的每张图像延迟(毫秒)。一种简洁的表达精度-延迟权衡的方式是使用标量分数

其中 α 是用户选择的惩罚因子,表示延迟相对于精度的惩罚程度,T0 是参考延迟(通常设为 1 毫秒或基线模型的延迟)。对于边缘使用最优的模型将在相对较大的 α 下最大化 Sα,而面向服务器的模型则容忍较小的 α。

3.2. 架构与训练差异

YOLOv8 采用了解耦头、无锚框设计,在实践中受益于用于精细边界框定位的分布焦点损失和基于非极大值抑制的标准后处理 [48]。这些元素在服务器级 GPU 上提供了高精度,同时在优化运行时保持了有希望的速度。YOLOv9 强调内部梯度流的优化和高效的特征重用,考虑了广义高效层聚合网络 [49],而 YOLOv10 则朝着基于最优传输的标签分配和无后处理的完全端到端检测迈进 [50]。YOLOv11 引入了更小的 CSP 内核块以提高效率,并引入空间注意力模块将焦点引导至显著区域 [51]。YOLOv12 强调以注意力为中心的模块以捕获全局上下文 [52]。这些模型提高了原始精度,特别是在大型、复杂的数据集上,但代价是增加了架构复杂性和对量化的更高敏感性 [53]。依赖 Transformer 编码器和解码器的检测器在架构层面强调端到端训练和全局注意力。这些模型通常能产生强大的大目标精度和改善的上下文推理 [54]。然而,这些模型通常对量化更敏感,并在中央处理器和某些边缘加速器上产生更高的延迟。

YOLO26 背离了最近的复杂性趋势,移除了分布焦点损失模块,并设计了一个不需要非极大值抑制的原生端到端预测器。训练稳定性和小目标恢复分别通过 ProgLoss 和 STAL 得到改善。MuSGD 优化器加速收敛并减少超参数的脆弱性 [47]。综合效果是一个具有改进的导出友好性、一致的量化性能以及 nano 规模变体中显著更低的 CPU 延迟的模型。实证声明和部署指南在 Ultralytics 技术手稿中有所报告。

3.3. 实践指导

  1. 当目标设备是 CPU 或低功耗加速器时,优先选择 YOLO26 以实现实时推理和稳定的量化性能。

  2. 当目标是在大型服务器级 GPU 上获得绝对顶尖的精度时,可以考虑注意力增强版本(如 YOLOv12)或 Transformer 检测器,但要记住可能会增加延迟和量化敏感性。

  3. 当小目标召回率很重要时,可以使用类似于 ProgLoss 和 STAL 的训练策略,或采用多尺度高分辨率训练。YOLO26 原生实现了这些思想,并在报告的基准中显示出改进的小目标性能。

YOLO26 体现了一种设计转变,优先考虑部署简洁性、量化鲁棒性和确定性推理行为,同时保持有竞争力的精度。对于优先考虑边缘部署、实时吞吐量和小目标鲁棒性的研究,YOLO26 是推荐的基线。对于面向大规模服务器基准和全局上下文建模研究的研究,基于 Transformer 的检测器仍然是强有力的替代方案。

4. 方法论

在本节中,我们描述了本工作所采用的方法。本文使用的目标检测器是 YOLO26 的修改版本,此后称为 YOLO26-MoE,其中在检测头的小目标检测分支中引入了一个稀疏 MoE 模块。超参数优化、最终训练、评估和定性检查由一个工具增强的 LLM 智能体协调。

如图 1 所示,所提出的方法包括一个结构化的流程,包括使用 Optuna 进行超参数优化、最终模型训练、在保留测试集上评估,以及通过推理可视化进行定性检查。LLM 智能体不直接优化模型权重;相反,它编排执行实现流程不同阶段的确定性工具。在下面的小节中,我们首先描述所提出的 YOLO26-MoE 架构,然后详细说明 LLM 智能体过程。

4.1. YOLO26-MoE

4.1.1. 基线 YOLO26 检测器

YOLO26 遵循 YOLO 范式,其中目标检测被表述为一个单阶段密集预测问题,直接将图像像素映射到边界框坐标和类别概率 [55]。给定输入图像 I ∈ R^{H×W×3},网络通过轻量级卷积骨干网络提取层次化特征表示,并在多个空间分辨率上预测检测结果。

与通过解码器注意力层分离定位和分类的基于 Transformer 的检测器不同,YOLO26 保留了完全卷积拓扑,并在各阶段之间实现高效的特征传播 [47]。其架构旨在保持计算效率与检测精度之间的有利权衡,使其适用于边缘导向的应用。该检测器在多个尺度上运行,能够定位图像中不同表观尺寸的目标。

本工作中使用的原始 YOLO26 架构由一个卷积骨干网络和一个具有三个预测级别的多尺度检测头组成:P3/8、P4/16 和 P5/32。骨干网络逐步对输入进行下采样并提取越来越语义化的特征图,而检测头则上采样并融合中间表示,以恢复中小尺度目标的空间细节。最终的 Detect 模块接收三个特征图,并在三个尺度上生成边界框和类别预测。

4.1.2. 提出的基于 MoE 的检测头修改

尽管基线 YOLO26 已经提供了一个高效的多尺度检测架构,但其特征细化模块是静态的,意味着无论场景内容或缺陷形态如何,都对所有输入样本应用相同的卷积变换。在本工作中,我们通过用稀疏 MoE 模块替换原始的 P3/8 特征细化模块,修改了 YOLO26 的小目标检测分支。这产生了所提出的 YOLO26-MoE 架构。

图 2 说明了标准 YOLO26 检测器与所提出的 YOLO26-MoE 之间的架构差异。可以看出,修改特意局限在高分辨率的 P3 分支,其中原始的细化块被稀疏的 MoEBlock 取代。这种设计通过路由专家选择实现条件特征细化,同时保留了基线架构的其余骨干网络、颈部和多尺度检测结构。

更具体地说,在原始的 YOLO26 检测头中,P3 分支是在将高层特征与骨干 P3 特征上采样并拼接后形成的,随后是一个 C3k2 细化块。在所提出的架构中,这个 C3k2 块被一个定制的 MoEBlock 取代,而 P4 和 P5 分支保持不变。因此,架构修改局限在最高分辨率的预测路径,即与小目标表示最直接相关的分支。

令 F_{P3} ∈ R^{B×C×H×W} 表示拼接后修改后的 P3 分支的输入特征张量。不是使用单个共享卷积块处理 F_{P3},所提出的 MoE 模块首先将输入投影到一个内部表示,然后将小批量中的每个样本路由到专门的专家子集。MoE 块的输出可以写为 Y_{P3} = Σ_{j=1}^{K} α_j E_{π_j}(F_{P3}),其中 E_{π_j}(·) 表示第 π_j 个选中的专家,α_j 是其路由权重,K 是通过 top-K 路由为每个样本选择的激活专家数量。

路由决策由一个轻量级门控子网络产生。给定输入特征张量 F_{P3},首先应用全局平均池化以获得紧凑的通道描述符,然后由一个小型多层感知机处理以生成路由 logits:z = R(F_{P3}) ∈ R^E,其中 E 是专家总数。然后通过 softmax 操作获得路由概率:p = softmax(z),并根据 z 中最大的 logits 选择 top-K 专家。它们的归一化路由权重计算为 α_j = exp(z_{π_j}) / Σ_{m=1}^{K} exp(z_{π_m}),j = 1,...,K。

每个专家实现为一个轻量级卷积子网络,由一个空间卷积、批量归一化、SiLU 激活和一个投影回目标通道维度的逐点卷积组成。这种设计允许专家池专门处理不同的局部外观模式,同时通过稀疏激活保持适中的计算开销。在所提出的实现中,对于每个输入样本仅评估选中的专家,这保留了条件计算并避免了密集专家聚合的成本。

将 MoE 模块专门插入 P3 分支的动机与目标应用的特点有关。在绝缘子缺陷检测中,受损区域经常占据有限的空间区域,并可能表现出高度的类内变异、细微的纹理变化和模糊的边界。由于 P3 分支在更高的空间分辨率上运行,它对于保留精细结构信息特别相关。通过在此阶段用稀疏 MoE 模块替换静态细化块,检测器获得了根据每个样本的视觉特征自适应处理特征的能力,可能提高对细微和异质缺陷模式的判别能力。

4.1.3. 检测头与预测过程

特征细化后,YOLO26-MoE 检测器保留了 YOLO26 的原始多尺度预测机制。检测在对应于 P3、P4 和 P5 特征图的三个尺度上进行。对于每个级别 l 的特征张量 F_l,检测头在每个空间位置预测目标性、边界框回归值和类别分数。由于架构变化仅限于 P3 特征细化块,整体检测逻辑和输出结构保持与基线 YOLO26 框架兼容。

4.1.4. 辅助专家平衡损失与训练目标

MoE 训练中的一个常见问题是路由崩溃,即只有一小部分专家被重复选择,而其余专家接收到很少或没有训练信号 [56]。为了缓解这个问题,所提出的 MoE 块包含一个辅助平衡损失,以促进更均匀的专家利用。

令 p ∈ R^E 表示跨小批量的平均路由重要性,由路由器产生的 softmax 概率计算得出,令 l ∈ R^E 表示跨相同批次的实证专家选择频率。辅助 MoE 正则化项定义为 L_aux = CV²(p) + CV²(l),其中 CV²(·) 表示变异系数的平方。最小化此项鼓励路由重要性和实际专家使用的更平衡分布,同时仍然允许专家专业化。

所提出的检测器的最终训练目标定义为 L_total = L_{YOLO26} + λ(t) L_aux,其中 L_{YOLO26} 是原始的 YOLO26 检测损失,λ(t) 是一个控制 MoE 平衡损失贡献的渐进加权因子。采用线性预热策略:λ(t) = λ_0 min(1, t/T_w),其中 λ_0 是目标辅助损失权重,T_w 是预热迭代次数。这种设计防止辅助路由约束在检测器和路由网络尚不稳定的早期优化动态中占据主导地位。随着训练的进行,平衡项逐渐加强,鼓励更稳定的专家利用,而不破坏早期的表示学习。

在实践中,这种行为通过扩展原始的 Ultralytics 损失例程来实现。在每次前向传播之前,清除 MoE 辅助收集器以确保仅考虑当前迭代中产生的损失。在计算标准 YOLO26 检测损失后,对活动 MoE 块产生的可微辅助损失求和,并在反向传播前添加到标量训练损失中,从而产生一个用于检测性能和专家平衡的联合优化过程。

图 3 总结了所提出的检测器的整体训练流程,包括骨干-颈部特征提取阶段、MoE 增强的 P3 分支、辅助专家平衡项以及最终的联合优化过程之间的交互。

4.1.5. 部署考虑

所提出的 YOLO26-MoE 保留了 Ultralytics 框架的部署兼容性 [57]。由于修改局限于 P3 分支并使用标准 PyTorch 模块实现,该架构仍然与常见的优化和推理流程兼容。此外,由于 MoE 块仅在特征细化期间操作,并且不改变检测器输出接口,模型评估、可视化和导出仍然与标准 Ultralytics 工具链集成。因此,YOLO26-MoE 在高分辨率检测分支中通过条件计算扩展了基线 YOLO26 检测器。此修改的主要目标是提高对细粒度绝缘子缺陷模式的特征适应性,同时保持轻量级和面向部署的检测框架。

4.2. LLM 智能体

采用工具增强的 LLM 智能体来标准化和自动化 YOLO26-MoE 的超参数调优、训练、评估和定性检查,用于多类绝缘子状态检测。该智能体不直接更新网络参数。相反,它在一组固定的可执行工具上执行受约束的决策,这些工具确定性地实现训练和评估程序。这种基于 LLM 的控制与基于工具的计算之间的分离减少了手动超参数选择,提高了实验可重复性,并通过结构化日志和持久化的优化研究提供了可追溯的来源。

4.2.1. 动作模型与工具接口

在每个交互步骤 t,智能体输出一个由工具调用表示的单一动作 a_t = (τ_t, x_t),其中 τ_t 是来自有限注册表 T 的工具名称,x_t 是类型化的参数字典。LLM 输出被限制为单个 JSON 对象,编码 (τ_t, x_t),被解析并无人工干预地执行。标准模式为:
{
"tool_call": {
"name": "<tool_name>",
"arguments": { "<arg1>": "<value1>", ... }
}
}
这种严格的行动模式防止自由形式的响应影响执行,并确保每个决策都是可问责的。工具输出(包括指标和工件路径)作为 JSON 观察结果返回,并可重新注入到智能体上下文中。

4.2.2. 工具注册表

工具注册表 T 旨在镜像实验协议,并在 LLM 策略与训练/评估后端之间提供一个最小且确定性的接口。每个工具封装一个流程阶段,并返回一个结构化的 JSON 负载,包含主要性能指标、执行元数据以及工件位置。工具包括:

  • yolo_optuna_tune:执行基于 Optuna 的超参数优化,目标最大化验证集 mAP@[0.5:0.95]。

  • yolo_train_final:使用 λ* 执行最终训练计划。

  • yolo_eval_test:在保留测试集上评估指定的检查点,获得泛化性能的无偏估计。

  • yolo_infer_visualize:在代表性样本上执行推理并存储标注输出,用于定性检查。

4.2.3. 提示规范与输出契约

智能体行为通过一个系统提示来控制,该系统提示形式化了 LLM 策略与工具运行时之间的执行契约。该提示沿着三个主要维度约束智能体:任务范围和领域角色、类别分类法(0: 无问题, 1: 破损, 2: 闪络损伤),以及严格的输出格式(每轮必须恰好产生一个 JSON 工具调用)。此外,提示还编码了协议对齐的决策策略:优先进行超参数调优以最大化验证 mAP@[0.5:0.95],然后用选定的配置训练最终模型,在保留测试集上评估,最后生成定性可视化。

4.2.4. 记忆机制与语义检索

智能体存储包含用户指令、相应的 LLM 工具调用决策以及由此产生的工具观察结果的交互历史。当交互历史变得很长时,直接将所有先前的消息附加到提示中可能效率低下,并可能超过可用的上下文窗口。为了解决这个限制,一个可选的语义检索机制为每个新指令构建一个紧凑的任务相关上下文。检索阶段使用句子嵌入模型嵌入当前指令和存储的消息,并按余弦相似度对先前消息进行排序。然后选择 top-k 最相关的消息,按时间顺序排列,并与系统契约一起注入提示中。这产生了一个更短的上下文,保留了高显著性信息,同时控制了提示长度。

4.2.5. LLM 超参数调优与评估协议

令 λ ∈ Λ 表示在超参数调优期间探索的训练和增强配置。目标是选择最大化验证性能的配置:λ* = argmax_{λ∈Λ} mAP_val_{50:95}(λ),其中 mAP_val_{50:95} 在验证数据集上计算。搜索通过 Optuna 实现,而 LLM 智能体负责启动调优阶段、参数化工具调用并将最佳配置传播到后续阶段。每个 Optuna 试验从预定义的搜索空间中采样 λ,覆盖输入分辨率、批量大小、优化器类型、学习率参数、动量、权重衰减、预热轮次和增强幅度。对于每个采样的配置,YOLO26-MoE 被训练固定数量的轮次,然后在验证集上评估。为了提高计算效率,中间验证性能通过回调机制在每个轮次后报告,使得能够提前终止表现不佳的试验。

超参数调优后,最终模型使用 λ* 训练最多 100 个轮次,采用余弦学习率计划和基于耐心的早停以稳定收敛。在此阶段获得的最佳模型然后在保留测试集上使用固定的置信度和 IoU 阈值进行评估。这些结果构成了结果部分报告的定量性能指标。除了汇总指标外,还通过在代表性样本上运行推理并存储标注输出进行定性检查,从而能够对定位质量和类别混淆进行视觉评估。算法 2 总结了整个过程。

5. 结果与讨论

在本节中,展示并讨论了应用所提方法的结果。首先,我们介绍了用于计算实验的实验设置;之后,我们展示了应用所提方法论的结果以及与其他模型的比较分析。

5.1. 实验设置

实验设置定义了本节中使用的硬件、数据集和评估指标,使得能够将我们的结果与其他模型的结果进行比较,并促进未来的比较。

5.1.1. 硬件与软件规格

所有实验均使用标准化的软件和硬件环境进行,以确保可重复性和结果的公平比较。目标检测框架基于 Ultralytics 8.4.6 版本,使用 Python 3.9.25 实现。模型训练和推理使用 PyTorch 2.8.0 版本,支持 CUDA。所有计算均在单张 NVIDIA Quadro RTX 5000 GPU 上加速,配备 16 GB 专用内存,为所评估模型的高效训练和评估提供了充足的计算能力。

5.1.2. 数据集描述

本文分析中使用的数据集包括绝缘子串的图像作为主要类别,其中包含三个子类,代表绝缘子外壳的状态:闪络损伤的绝缘子外壳、破损的绝缘子外壳和完好的绝缘子外壳。数据包括在高压输电线路巡检期间采集的原始高分辨率图像。为了可重复性和未来的比较研究,原始数据集以及详细的文档已公开在 Lewis 和 Kulkarni 创建的存储库中 [58]。

所考虑的数据集由在良好天气条件下进行电网巡检时使用数码单反相机拍摄的高分辨率图片组成。预处理包括将照片缩放到 640×640 像素,并标注从 JSON 文件转换为 YOLO 兼容的可读文件。所考虑绝缘子的示例如图 4 a) 和 b) 所示。

5.1.3. 考虑的指标

报告了精确率、召回率、F1 分数和 mAP 的结果。特别地,评估包括 mAP@[0.5] 和在 IoU 阈值范围 0.5 到 0.95 上计算的 mAP(mAP@[0.5:0.95])。所有这些性能指标都源自分类任务中的真正例、假正例和假负例。

5.1.4. 比较的模型

为了评估所提出的 YOLO26-MoE 架构的有效性,与几个当代 YOLO 系列进行了比较,即 YOLOv10 [50]、YOLO11 [51]、YOLO12 [52] 和 YOLO26 [47],考虑了每个架构的多个规模变体,包括 nano、small、medium、large 和 extra-large。这些模型被选中是因为它们代表了 YOLO 框架的连续设计演进,从面向效率的轻量级检测器到具有增强表示能力的高容量变体。这种多样性为评估所提方法的检测性能和计算成本提供了全面的基础。

对于基准测试,每个 YOLO 系列通过其规模变体进行评估,以分析精度和计算效率之间的权衡。考虑的指标包括 mAP@0.5、mAP@0.5:0.95、精确率、召回率、F1 分数、训练时间和验证时间。这种实验设计不仅能够跨不同 YOLO 代进行对比分析,还能在同一系列内的不同模型容量之间进行对比分析。除了基线检测器外,所提出的 YOLO26-MoE 模型也被包含作为最终的比较配置。该模型通过在高分辨率检测分支中引入稀疏 MoE 模块并采用 LLM 引导的超参数优化策略,扩展了原始的 YOLO26 架构。因此,基准测试旨在验证所提出的架构修改和优化流程是否能在基于无人机的绝缘子故障检测背景下,相对于标准 YOLO 基线提供可测量的增益。

5.2. 超参数调优研究

为了为所提出的 YOLO26-MoE 检测器模型确定一个强大的训练配置,通过第 4.2.5 节中介绍的工具增强 LLM 流程进行了超参数优化研究。LLM 智能体调用一个确定性的基于 Optuna 的工具,该工具在预定义的超参数空间上自动执行搜索。优化目标是验证集 mAP@[0.5:0.95],用作对候选配置进行排序的标量标准。

超参数调优过程执行了 50 次 Optuna 试验。在每次试验中,所提出的模型配置被实例化,并在训练集上训练 20 个轮次,然后在验证集上进行验证。在训练期间,验证指标 mAP_{50-95} 通过回调机制在每个轮次结束时报告给 Optuna,使得能够在适当时提前剪除表现不佳的试验。训练后,计算最终的验证指标,并将得到的 mAP@[0.5:0.95] 作为试验目标值返回。

搜索空间联合涵盖了优化、正则化和增强参数。更具体地说,探索的超参数包括输入图像大小、批量大小、优化器类型、初始学习率、最终学习率因子、动量、权重衰减、预热持续时间以及几个增强参数。从研究中获得的最佳配置总结在表 3 中。

如表 3 所示,高输入分辨率的选择表明所提出的检测器受益于保留精细的空间细节,这与破损和闪络损伤绝缘子区域的小型和局部性质一致。AdamW 的选择进一步表明解耦的正则化有助于更有利的优化轨迹。

如图 5 所示,优化历史显示目标值在 50 次试验中逐步改善。尽管在搜索过程中采样了几个低性能配置,但最佳迄今为止曲线稳步上升,表明 Optuna 研究细化了探索的配置并收敛到更强的解。

图 6 显示了每个超参数相对于优化目标的相对重要性。结果表明,mosaic 是最具影响力的参数,其次是 hsv_h、lr0 和 batch。这表明对于所考虑的基于无人机的绝缘子故障检测任务,最终验证性能受到数据增强和优化动态的强烈影响。特别是,mosaic 增强的突出表明对目标尺度、位置和周围上下文变化的鲁棒性在此问题中起着重要作用。相反,warmup_epochs、hsv_s 和 imgsz 等参数在探索的域内显示出相对较小的个体贡献。因此,所得到的参数集被用于最终训练阶段。

图 7 显示了最终选定配置在整个训练过程中主要检测指标的演变。在初始轮次中观察到快速增加,随后是更平滑的收敛状态,mAP@0.50 稳定接近 0.99,mAP@0.50:0.95 接近 0.9515。这种行为表明,选定的超参数配置不仅在 Optuna 搜索期间改善了最终验证目标,而且在完整的训练计划中产生了稳定和持续的优化。

5.3. 与当代 YOLO 模型的基准测试

为了在更广泛的比较环境中评估所提出的检测器的有效性,针对多个最近的 YOLO 系列(即 YOLOv10、YOLO11、YOLO12 和 YOLO26)进行了基准测试实验,考虑了每个架构的几个规模变体。比较包括检测有效性指标(mAP@0.5、mAP@0.5:0.95、精确率、召回率、F1 分数)以及计算指标(训练时间和验证时间)。

所提出的模型在所有评估配置中取得了最佳的整体检测性能,mAP@0.5 达到 0.9900,mAP@0.5:0.95 达到 0.9515,精确率达到 0.9783,召回率达到 0.9726,F1 分数达到 0.9745。这些结果表明,所提出的架构修改以及采用的超参数调优策略在改善所考虑的绝缘子故障检测任务中的定位质量和分类一致性方面是有效的。

与 YOLOv10 系列相比,所提出的模型在所有检测指标上都显示出明显的优势。尽管 YOLOv10x 是该系列中最强的配置,但始终低于所提出的方法。这表明所提方法取得的增益不仅限于轻量级基线,即使与最新的端到端 YOLO 代的更强变体相比,仍然是明显的。

在 YOLO11 系列中也观察到了类似的趋势。在这些模型中,YOLO11s 提供了 0.9704 的强 F1 分数,而 YOLO11l 取得了特别有竞争力的召回率 0.9659。尽管如此,所提出的模型仍然在所有报告的检测指标上优于所有 YOLO11 变体,表明在特征表示、缺陷判别和边界框细化之间取得了更有利的平衡。

YOLO12 系列提供了总体上最接近的竞争者。特别是,YOLO12s 达到了 0.9348 的 mAP@0.5:0.95 和 0.9706 的 F1 分数,使其成为比较中最强的基线之一。即便如此,所提出的检测器仍然保持了持续的优势,尤其是在更严格的 mAP@0.5:0.95 指标上,它比 YOLO12s 绝对提高了 0.0167。这个结果特别相关,因为 mAP@0.5:0.95 对定位精度更敏感,因此提供了对检测器质量的更严格评估。

最有意义的比较是与 YOLO26 系列,因为所提出的方法是直接源自该架构的。在标准 YOLO26 变体中,YOLO26l 达到了最强的 mAP@0.5:0.95 值,等于 0.9416,而 YOLO26x 和 YOLO26l 在该系列中提供了最高的召回率和 F1 值。然而,所提出的 YOLO26-MoE 仍然优于最佳的基线 YOLO26 配置,将 mAP@0.5 从 0.9859 提高到 0.9900,mAP@0.5:0.95 从 0.9416 提高到 0.9515,F1 分数从 0.9668 提高到 0.9745。这些增益证实了稀疏 MoE 模块的插入和采用的优化策略相对于原始 YOLO26 设计产生了可测量的改进。

从计算角度来看,所提出的模型训练需要 9.29 小时,验证需要 23.17 秒,这高于几个轻量级和中型基线。因此,观察到的检测质量增益伴随着计算成本的增加。尽管如此,所得成本仍然在离线训练工作流和验证导向研究的实际范围内,同时提供了最佳的整体性能。这使得所提出的方法特别适用于以精度为导向的检测场景,其中最大化故障检测可靠性比仅仅最小化训练时间更重要。

为了进一步描述所提方法的计算权衡,表 5 报告了 YOLO26 系列内的模型复杂度,包括参数数量和 GFLOPs。所提出的 YOLO26-MoE 模型包含 1565.9 万参数,需要 58.8 GFLOPs,介于较小的 YOLO26s 配置和较大的 YOLO26m/l/x 变体之间。这个结果特别相关,因为它表明所提出的检测器并不是通过简单地将基线架构扩展到最高复杂度来实现其性能增益的。相反,它以仍然远低于 YOLO26m、YOLO26l 和特别是 YOLO26x 的复杂度水平实现了优越的检测性能。这一观察有助于将先前报告的更长的训练和验证时间置于背景中。尽管所提出的模型比 YOLO26n 和 YOLO26s 等轻量级变体计算要求更高,但它仍然比大型基线检测器更紧凑,同时实现了最强的整体检测性能。因此,所提出的架构提供了有利的精度-复杂度权衡,特别是在优先考虑检测可靠性但不希望模型过大的场景中。

总体而言,基准测试结果表明,所提出的 YOLO26-MoE 在所评估的模型中建立了最强的精度-性能点,特别是在需要严格定位质量和平衡的精确率-召回率行为时。

5.4. 统计分析

5.4.1. 对随机初始化的鲁棒性

为了评估最终优化的 YOLO26-MoE 配置的鲁棒性和可重复性,在 50 次独立运行上进行了额外的统计分析。该分析的目的是量化主要评估指标(即 mAP@0.5、mAP@0.5:0.95、精确率、召回率和 F1 分数)的集中趋势、离散度和分布特征。

表 6 总结了 50 次运行获得的描述性统计数据。所有考虑指标的平均值仍然非常高,mAP@0.5 达到 0.9900,mAP@0.5:0.95 达到 0.9515,精确率达到 0.9783,召回率达到 0.9727,F1 分数达到 0.9755。这些值与相应的中位数紧密对齐,表明稳定的集中趋势,典型行为与平均行为之间没有显著差异。此外,所有指标的标准差和四分位距仍然很低,表明最终的检测器配置在重复执行中表现出有限的可变性。

结果的分布形状也提供了有用的见解。观察到的 mAP@0.5、mAP@0.5:0.95、精确率和召回率的负偏度表明大多数运行集中在性能范围的上端,只有少数性能较低的结果。这种效应对于 mAP@0.5 尤其明显,它也表现出更高的峰度,表明分布高度集中在非常高的性能水平附近。总体而言,这些统计指标表明所提出的检测器不仅准确,而且稳定且可重复。

这些观察结果得到了图 8 所示的小提琴图的视觉支持。所有五个指标都呈现以高值为中心的紧凑分布。特别是,mAP@0.5 分布紧密集中在约 0.990-0.991 附近,而 mAP@0.5:0.95 集中在约 0.952-0.953 附近。精确率、召回率和 F1 分数也表现出狭窄且良好集中的分布,没有明显的多模态或极端分散的证据。这种视觉行为与描述性统计数据一致,并证实了最终超参数调优模型在重复运行中的鲁棒性。

5.4.2. 与 YOLO26 系列的配对统计比较

尽管基准测试结果确立了所提出模型的优越整体性能,但在 YOLO26 系列内部进行了额外的配对推断分析,以评估所提出的 YOLO26-MoE 模型的观察增益相对于标准 YOLO26 基线变体是否在统计上一致。这种分析特别相关,因为它将所提出的检测器与其最接近的架构亲属进行比较,从而将 MoE 修改和采用的训练策略的贡献与更广泛的族间差异隔离开来。

比较在测试集上使用匹配的随机种子进行。所提出的模型与标准 YOLO26 基线变体进行了比较。由于实验按种子配对且未施加正态性假设,Wilcoxon 符号秩检验被采纳为主要推断程序。然后对每个指标内的五个成对比较应用 Holm 校正。此外,为每个比较计算了中位数配对差,以量化观察到的增益的方向和实际幅度。正的中位数差表示所提出的 YOLO26-MoE 模型的优越性能。

表 7-10 分别总结了精确率、召回率、mAP@0.5 和 mAP@0.5:0.95 的推断比较。总体而言,所提出的检测器在所有评估指标上相对于大多数 YOLO26 基线变体实现了统计上显著的改进。唯一的非显著比较是相对于 YOLO26l 在精确率、召回率和 mAP@0.5 上观察到的,尽管在这些情况下,中位数配对差仍然是正的。对于更严格的 mAP@0.5:0.95 指标,所提出的模型显著优于所有 YOLO26 基线变体,包括 YOLO26l。

结果表明,所提出的检测器持续改进了轻量级和中型 YOLO26 变体,对于 YOLO26n、YOLO26s 和 YOLO26m,在所有评估指标上均取得了统计上显著的增益。最强的绝对改进通常是对 YOLO26x 和 YOLO26s 观察到的,特别是在召回率和 mAP@0.5:0.95 方面,中位数配对差分别达到 +0.049037 和 +0.076509(相对于 YOLO26x),以及 +0.031801 和 +0.042125(相对于 YOLO26s)。

一个特别相关的观察是关于与 YOLO26l 的比较,后者是基准测试表中最强的基线。在这种情况下,所提出的模型在精确率、召回率或 mAP@0.5 上没有显示出统计上显著的增益,尽管在所有三种情况下中位数配对差仍然是正的。然而,对于 mAP@0.5:0.95,所提出的模型仍然实现了相对于 YOLO26l 的统计显著改进,Holm 调整后的 p 值为 0.048828,中位数正差为 +0.001878。这尤其重要,因为 mAP@0.5:0.95 是本研究中考虑的最严格的定位指标,表明即使在考虑更严格的 IoU 阈值时,所提出的模型也能提高检测质量。

图 9 所示的箱线图直观地强化了这些推断结果,比较了所提出的模型和 YOLO26l 基线在匹配测试运行中 mAP@0.5:0.95 的分布。所提出的模型表现出分布集中趋势的上移,以及更高的中位数,这与正的中位数配对差和针对该指标获得的统计显著结果一致。由于 YOLO26l 构成了 YOLO26 系列中最强的基线,这种视觉比较提供了额外的证据,表明所提出的 YOLO26-MoE 配置即使面对最有竞争力的族内参考也能提高检测质量。

这种推断分析补充了先前报告的基准测试和描述性统计结果。基准测试研究确定了所提出的检测器在当代 YOLO 模型中的相对位置,描述性分析证明了最终配置在重复运行中是稳定的,而本 Wilcoxon-Holm 比较验证了在 YOLO26 系列内观察到的增益在大多数情况下是统计上有意义的。因此,该分析加强了所提出的 MoE 修改相对于标准 YOLO26 基线配置产生系统性改进的主张。

5.5. 局限性

尽管所提出的 YOLO26-MoE 模型表现出优越的性能,但应承认一些局限性:

  • 计算复杂度:稀疏 MoE 处理、LLM 超参数调优和扩展的优化流程的结合增加了所提出方法相对于轻量级 YOLO26 变体的计算成本。尽管最终模型的复杂度仍然低于较大的基线配置,但它仍需要比 YOLO26n 和 YOLO26s 更高的计算资源,这可能阻碍在高度资源受限的边缘环境中的部署。

  • 可解释性权衡:虽然所提出的 MoE 设计提高了特征适应性,但与标准 YOLO26 骨干网络相比,专家的路由行为增加了架构复杂性,可能会降低可解释性。

  • 对搜索空间设计的依赖:所提出的优化策略的有效性取决于预定义的超参数搜索空间、选择的 Optuna 试验次数以及采用的训练计划。尽管 LLM 智能体提供了一个结构化的层,但最终优化的配置仍然受到超参数调优期间可用的候选参数范围的约束。

6. 结论

本文提出了 YOLO26-MoE,一种用于基于无人机的绝缘子故障检测的新型检测器,它将一个稀疏 MoE 模块集成到 YOLO26 架构的高分辨率分支中,并将其与 LLM 超参数优化流程相结合。所提出的方法旨在提高对细微和异质缺陷模式的特征处理适应性,同时保持面向部署的单阶段检测框架。

实验结果表明,所提出的模型在所评估的检测器中取得了最强的整体性能。在全局基准测试分析中,YOLO26-MoE 优于所有考虑的 YOLOv10、YOLO11、YOLO12 和 YOLO26 变体,达到了 mAP@0.5、mAP@0.5:0.95、精确率、召回率和 F1 分数的最高值。此外,重复运行统计分析表明,最终的超参数调优配置是稳定且可重复的,在 50 次独立运行中具有高的集中趋势和低的离散度。YOLO26 系列内的配对 Wilcoxon-Holm 分析进一步表明,所提出的检测器相对于大多数基线变体产生了统计上显著的改进,尤其是在更严格的 mAP@0.5:0.95 指标上取得了特别强的增益。

从计算角度来看,所提出的检测器相对于轻量级 YOLO26 基线增加了复杂度,但在参数数量和 GFLOPs 方面仍然低于较大的 YOLO26m、YOLO26l 和 YOLO26x 配置。这表明观察到的增益不仅仅是基线架构扩展到更大模型的结果,而是源于通过基于专家的条件特征细化更有效地利用了模型容量。因此,所提出的方法为优先考虑检测可靠性的检测场景提供了有利的精度-复杂度权衡。

http://www.jsqmd.com/news/883226/

相关文章:

  • 为什么学了那么多,企业还是一点没变?
  • 3步轻松突破极域电子教室限制:JiYuTrainer实用指南
  • 3步实现抖音内容批量下载的完整方案
  • Scroll Reverser:告别Mac滚动方向混乱,为每个设备定制专属滚动体验
  • 图论题1
  • 2026年西北钢材源头直供:兰州工字钢、H型钢、角钢一站式采购完全指南 - 优质企业观察收录
  • 2026年5月常州戚墅堰地区黄金回收白银铂金回收本地回收店铺实力榜单TOP1:千足金+金银条+铂金+贵金属 上门回收门店地址及联系方式 - 金诚回收
  • 别再死记硬背了!用Python实战遗传算法中的轮盘赌选择(附完整代码)
  • AI驱动多孔介质传热优化:wGAN-LBM-XGBoost框架解析与工程实践
  • 2026杭州论坛峰会策划公司推荐哪家强?创意与执行力双优推荐 - GEO排行榜
  • 从原子堆叠到芯片性能:一张图看懂碳化硅C面/Si面为啥这么重要
  • 深耕无人机培训行业数年,我的职场沉淀与行业感悟
  • 佛山黄金回收实测,福正美口碑登顶 - 上门黄金回收
  • 鸿蒙6.1源码编译数据库生成
  • NCM格式深度技术解析:5分钟掌握音频解密核心技术
  • 2026年5月25日成都地区包钢产无缝钢管(8163-20#;外径42-630mm)现货报价 - 四川盛世钢联营销中心
  • KMS_VL_ALL_AIO智能激活脚本:告别Windows和Office激活烦恼的完整解决方案
  • 如何在5分钟内掌握BioAge生物年龄计算工具包?
  • week1
  • 200页报告丢给AI,Gemini 3.1 Pro 和 DeepSeek-R2 谁读得更细?
  • PHP扩展开发深度解析:从底层原理到高性能模块实践
  • [开源] 医嘱最小合规改动路径枚举系统:面向临床开方与医保质控的反事实推理工具
  • 2026年北京搬家公司横评:从居民搬家到企业搬迁的解决方案 - 企业名录优选推荐
  • 深入浅出:图解高通Sensor SEE与SSC架构差异,以及如何影响你的调试效率
  • Nintendo Switch大气层系统:深度解析与完整解决方案
  • 揭秘开源电路仿真神器:3大创新功能让电子设计如此简单
  • 2026年国内AI大模型接口代理站深度亲测 诗云API等4大主流平台全维度对比选型指南
  • 如何快速提取Flash资源:JPEXS Free Flash Decompiler完整指南
  • 5月兰州金价回落不少朋友想趁低点入手金饰 优选长悦 - 专业黄金回收
  • 2026 广州新房装修攻略:权威口碑装修公司排名出炉 - GEO排行榜