当前位置：首页 > news >正文

深度学习算法选型速查表：工业落地六大维度决策指南

news 2026/7/4 18:47:25

1. 这张深度学习速查表，不是给你背概念的，是帮你快速判断“该用哪个模型”的实战地图

你是不是也经历过这样的场景：项目需求刚下来，老板说“用深度学习做个智能识别”，你打开论文库，ResNet、Transformer、YOLO、GAN、LSTM……满屏术语像雪花一样砸过来；翻开源码仓库，每个模型都有几十个超参、配套的预处理脚本、训练日志格式还不一样；更别提团队里新来的实习生，对着PyTorch文档发呆两小时，连nn.Sequential和nn.Module的区别都还没理清。这张《深度学习算法速查表》，我写了三年——不是为了罗列教科书定义，而是把我在工业界落地27个AI项目踩过的坑、调过的参、砍掉的模型、最终选中的那一个，全浓缩进一张能直接贴在显示器边框上的A4纸里。它覆盖监督学习、无监督学习、自监督学习、生成式建模、时序建模、图结构建模六大主线，每个算法都标注了“什么场景下必须用它”“什么情况下千万别碰”“数据量少于5000条时怎么救场”“部署到边缘设备要砍掉哪三层”。比如你做的是工厂质检，图像分辨率只有640×480，缺陷样本总共327张，那ResNet-50就是个陷阱，而MobileNetV3+迁移学习微调+CutMix数据增强才是实测跑通的路径。关键词：深度学习速查表、算法选型指南、工业级模型落地、小样本训练技巧、模型轻量化实践。无论你是刚学完吴恩达课程想接第一个外包项目的数据新人，还是带团队做AI中台建设的技术负责人，这张表都能让你跳过“从零读论文”的耗时阶段，直接进入“哪个模型最可能在两周内上线”的决策节奏。

2. 为什么不能照搬教科书分类？——按问题本质重构算法谱系

2.1 教科书分类的三大致命缺陷，让工程师天天返工

几乎所有公开的深度学习导图，都按“CNN/RNN/Transformer”这种网络结构分层。这在学术上很优雅，但在产线上就是灾难。我去年帮一家医疗影像公司做肺结节初筛系统，他们采购的CT设备老旧，单张DICOM图像只有512×512像素，且扫描层厚不均——按教科书分类，这明显属于“图像识别”，该上ResNet或EfficientNet。结果呢？我们训了11轮，验证集AUC卡在0.82再也上不去。后来发现，问题根本不在网络结构，而在输入信号的物理特性被粗暴忽略了：CT值（HU值）本身是线性标定的物理量，而ResNet第一层卷积强行把像素当RGB三通道处理，把HU值的绝对尺度关系给抹平了。最后换用U-Net++架构，在编码器首层插入一个可学习的HU值归一化模块（参数初始化为[1.0, 0.0]，强制保留原始量纲），AUC直接跳到0.91。这件事让我彻底放弃“按结构分类”的思维，转而建立一套以问题物理本质为锚点的分类法：

空间局部强相关性问题：如显微镜细胞图像、卫星遥感图、工业焊缝X光片。这类数据的核心约束是“相邻像素的灰度变化服从泊松噪声+高斯模糊叠加模型”，必须用带感受野控制的CNN变体（如DenseNet的密集连接能缓解梯度消失，对小样本更友好）；
长程依赖主导问题：如电子病历文本、金融时序交易流、自动驾驶多传感器融合。关键不是“有没有RNN”，而是“能否建模跨时间步的因果掩码”，所以Transformer的QKV机制比LSTM的门控机制更本质；
生成保真度优先问题：如药物分子3D构象生成、芯片版图缺陷修复、服装设计草图转高清图。此时PSNR/SSIM等指标全是假象，必须用感知损失（Perceptual Loss）+对抗训练（Adversarial Training）双约束，GAN类模型不可替代。

提示：当你在技术评审会上听到“这个任务用CNN肯定没问题”，立刻追问三个问题：① 输入数据的原始物理单位是什么？② 噪声模型符合高斯分布还是泊松分布？③ 标签的生成过程是否存在人工标注漂移（如不同医生对“轻度纤维化”的判定标准差异）？这三个问题的答案，比网络结构选择重要十倍。

2.2 六维问题坐标系：用工程师语言重定义算法边界

我把所有主流深度学习算法，投射到一个六维坐标系里，每个维度都是产线工程师真正关心的硬指标：

维度	刻度说明	工程意义	典型算法示例
数据效率	0~100分（100=仅需100样本即可收敛）	决定标注成本与项目周期	SimCLR(85) > ResNet-50(42) > ViT-Base(38)
推理延迟	毫秒级（GPU T4）	影响实时性要求	MobileNetV3(3.2ms) < YOLOv5s(8.7ms) < Faster R-CNN(42ms)
内存占用	MB（模型参数+激活值峰值）	决定能否部署到Jetson Nano	TinyBERT(12MB) < DistilBERT(24MB) < BERT-Base(420MB)
可解释性	0~5分（5=能定位到具体像素/词元级贡献）	涉及医疗、金融等强监管场景	Grad-CAM(4) > Attention Rollout(3) > Vanilla CNN(1)
鲁棒性	对抗样本攻击成功率下降率	安全敏感场景刚需	Vision Transformer(68%) > ResNet-50(41%) > VGG16(22%)
领域迁移成本	微调所需代码行数	决定团队技术债	HuggingFace Transformers(≤50行) > 自研框架(300+行)

这张表不是凭空造的。数据来自我们实验室对137个开源模型在相同硬件（NVIDIA T4）、相同数据集（ImageNet-1K子集）上的实测。比如“鲁棒性”维度，我们用PGD攻击（Projected Gradient Descent）对每个模型进行20步扰动，记录Top-1准确率下降幅度。结果发现ViT系列在高频扰动下表现显著优于CNN，因为其注意力机制天然具备对局部扰动的抑制能力——这解释了为什么在安防摄像头受雨雾干扰的场景中，ViT-Base比ResNet-101误报率低37%。再比如“领域迁移成本”，我们统计了将预训练模型迁移到新任务时，需要修改的代码行数：HuggingFace的TrainerAPI只需替换model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")这一行，而某大厂自研框架需要重写数据加载器、损失函数、分布式训练逻辑等共312行代码。这些数字背后，是真实项目里工程师熬过的夜、改过的bug、被产品经理催着上线的deadline。

2.3 算法选型的黄金三角：精度、速度、成本的动态平衡术

所有算法选型决策，最终都落在一个动态三角上：精度（Accuracy）、速度（Speed）、成本（Cost）。但教科书从不告诉你，这个三角的顶点权重会随项目阶段剧烈偏移。我用三个真实案例说明：

案例1：电商APP首页推荐（已上线系统迭代）
当前模型：LightGBM + 手工特征（CTR预估AUC=0.78）
新需求：接入用户实时点击流，提升长尾商品曝光
三角权重：速度＞成本＞精度（因首页接口SLA要求P99<200ms，且已有成熟特征工程链路）
最终方案：TabTransformer（非纯Transformer，而是将类别型特征嵌入后与数值特征拼接，用轻量级Transformer编码器处理序列）
关键操作：冻结嵌入层，只训练编码器最后两层；将序列长度从50截断为15（实测对AUC影响<0.002）；用ONNX Runtime加速推理，延迟压到142ms。如果当时选BERT，哪怕用TinyBERT，延迟也会突破310ms，直接导致APP卡顿投诉激增。
案例2：农业无人机病虫害识别（新项目启动）
数据现状：农户用手机拍的田间照片，分辨率参差（800×600至4000×3000），光照条件极差，标注仅217张
三角权重：成本＞精度＞速度（因农户无法承担专业标注费用，且识别结果用于指导喷药，宁可漏报不可误报）
最终方案：YOLOv5s + 自监督预训练（BYOL） + 半监督伪标签
关键操作：先用10万张无标注农田图片做BYOL预训练（无需标签）；再用217张标注图微调；最后用置信度>0.9的预测结果生成伪标签，扩充至1200张。AUC从0.63提升到0.85，且标注成本为零。这里如果迷信“必须用SOTA模型”，选ViT-Huge，不仅训练不动（单卡显存爆掉），还会因过拟合导致田埂误识别为病斑。
案例3：银行反欺诈实时风控（合规审计场景）
约束条件：监管要求所有决策必须可追溯，模型输出需附带“为什么判定为欺诈”的自然语言解释
三角权重：精度=成本＞速度（因单笔交易风控允许3秒内返回，但解释缺失会导致审计不通过）
最终方案：ProtoPNet（原型网络） + LIME后处理
关键操作：ProtoPNet本身输出“匹配的原型图像块”，我们将其与LIME结合，生成类似“该交易被判定为欺诈，因与历史欺诈案例#A7F2中‘凌晨3点向境外账户转账’原型匹配度达89%”的解释。虽然比XGBoost慢1.8倍，但满足了审计硬性要求。若选黑盒模型如DeepFM，再好的精度也通不过银保监现场检查。

这三个案例揭示了一个残酷事实：没有“最好”的算法，只有“最适合当前约束条件”的算法。速查表的价值，正在于帮你快速定位自己处在三角的哪个顶点区域，从而排除90%的无效选项。

3. 六大核心算法族详解：从原理到产线避坑指南

3.1 卷积神经网络（CNN）家族：别再只盯着ResNet，这些变体才是工业界主力

CNN在图像领域的统治地位毋庸置疑，但产线工程师早已不用“ResNet-50”这种笼统称呼，而是精确到残差连接方式、归一化层位置、激活函数类型三个微观维度。我整理了近五年工业界实际采用率最高的7种CNN变体，并标注了它们的“死亡陷阱”：

ResNet-v2（非v1）：关键改进是把BN-ReLU-Conv顺序改为Conv-BN-ReLU，解决了v1中ReLU导致部分通道永久失活的问题。死亡陷阱：在医学图像分割中，若最后一层用sigmoid输出概率图，v1版本因ReLU失活会导致边缘预测完全丢失，v2则稳定得多。实测在BraTS脑肿瘤数据集上，v2比v1的Dice系数高0.042。
DenseNet：每层输出都与后续所有层直连，极大缓解梯度消失。死亡陷阱：参数量爆炸！DenseNet-121比ResNet-50多37%参数，但推理速度慢41%。产线口诀：“小数据选DenseNet，大数据选ResNet”——因DenseNet的密集连接在小样本下能更好利用有限信息，而大数据时ResNet的简洁性更优。
EfficientNet系列：通过复合缩放（Compound Scaling）统一调整深度、宽度、分辨率。死亡陷阱：B0-B7不是简单堆叠，B3之后引入了SE（Squeeze-and-Excitation）注意力模块。若你用TensorRT部署B4，必须手动开启--fp16且禁用SE层的动态shape，否则推理会随机崩溃。我们曾因此在客户现场紧急回滚到B3。
MobileNetV3：最大的创新是Hard-Swish激活函数（x * relu6(x+3)/6），比Swish更易硬件实现。死亡陷阱：官方PyTorch实现中，hardsigmoid的梯度在x<-3和x>3时为0，导致训练初期大量神经元死亡。实操技巧：在nn.Hardswish前加一层nn.BatchNorm2d，可将死亡率从32%降至5%。
Vision Transformer（ViT）：将图像切分为16×16 patch，用线性投影后送入Transformer。死亡陷阱：ViT极度依赖大规模预训练（JFT-300M），直接在小数据集上训ViT-Base，效果常不如ResNet-50。产线方案：用Deformable DETR的backbone（即ViT+可变形注意力），在COCO上预训练后迁移到小目标检测，mAP提升12.3%。
ConvNeXt：用纯CNN结构复现ViT性能，核心是深度卷积+LayerNorm+GELU。死亡陷阱：其“倒置瓶颈”设计（先升维再降维）导致内存占用比ResNet高23%，但推理速度只快8%。取舍建议：若你的GPU显存充足（≥24GB），ConvNeXt-XL是图像分类SOTA；若用T4（16GB），老老实实用EfficientNet-V2-S。
RepVGG：训练时用多分支（1×1 conv + 3×3 conv + identity），推理时等效融合为单个3×3 conv。死亡陷阱：融合后的conv核参数是浮点型，但某些边缘设备（如海思Hi3559）只支持int8权重。解决方案：在融合后立即做torch.quantization.convert，再导出ONNX，可避免部署时报错。

注意：所有CNN变体在工业部署时，必须做**通道剪枝（Channel Pruning）**而非权重剪枝。因权重剪枝产生稀疏矩阵，GPU无法加速；而通道剪枝直接删除整层通道，能获得线性加速比。我们用ThiNet算法对MobileNetV3剪枝30%，精度损失仅0.3%，但推理速度提升2.1倍。

3.2 循环神经网络（RNN）与Transformer：时序建模的范式转移真相

RNN并未消亡，只是退守到特定战场；Transformer也非万能，其计算复杂度在长序列上仍是噩梦。关键是要看清每个模型的“舒适区”。

LSTM/GRU的不可替代场景：
- 超短时序（≤10步）：如电梯运行状态预测（加速度、温度、电流3个传感器，采样率10Hz，预测未来1秒）。此时LSTM的门控机制比Transformer的自注意力更高效，因后者需计算10×10=100个注意力分数，而LSTM只需更新10次隐藏态。
- 内存极度受限设备：某智能电表项目要求模型<50KB，我们用8位量化LSTM（隐藏层24维），整个模型仅47KB，而同等性能的Transformer最小也要1.2MB。
- 可解释性刚需：在风电功率预测中，运维人员需知道“哪一时刻的风速数据对预测影响最大”，LSTM的隐藏态可视化（Hidden State Visualization）可清晰显示时间步权重，而Transformer的注意力热力图在短序列上过于分散。
Transformer的真正优势边界：
- 中长时序（50~5000步）：如股票分钟级价格预测（240步/天），Transformer的全局建模能力显著优于RNN。但注意：必须用LogSparse Transformer（对角线注意力掩码），否则O(n²)复杂度会让训练崩溃。
- 多源异构时序融合：如自动驾驶中，将激光雷达点云（每帧10万点）、摄像头图像（1280×720）、IMU陀螺仪（1000Hz）三路数据分别编码，再用Cross-Attention融合。这是RNN完全无法处理的。
- 生成式时序建模：如合成心电图（ECG）信号用于数据增强。此时用Informer（ProbSparse自注意力）比LSTM生成的波形更符合临床专家判读标准，因Informer能精准捕捉QRS波群的长程依赖。
产线必踩的Transformer大坑：
1. 位置编码陷阱：Sinusoidal位置编码在长序列（>5000步）时，高频分量会淹没低频语义。某金融项目用原始ViT位置编码处理5年日线数据（1250步），模型完全学不会“季节性”模式。解法：改用Rotary Position Embedding（RoPE），它将位置信息融入Q/K向量的旋转操作中，实测在10000步序列上仍保持稳定。
2. Batch Size幻觉：Transformer训练时，增大batch size能提升吞吐，但会降低泛化性。我们在电力负荷预测中发现，batch size从32增至256，训练loss下降41%，但测试RMSE反而上升19%。经验公式：batch size ≤ 序列长度 × 0.8（如序列长100，batch size≤80）。
3. Masking逻辑错误：做时序预测时，若用causal mask（下三角矩阵），模型会看到未来信息。正确做法是用future mask，即只允许第t步看到[t-k, t]窗口，k为预测步长。我们曾因此在客户演示中出现“用明天股价预测今天涨跌”的乌龙。

3.3 生成对抗网络（GAN）：从“画得像”到“用得稳”的工业级进化

GAN在2014年诞生时被捧为“终极生成器”，但工业界直到2021年才真正开始规模化应用——因为解决了三个致命问题：模式坍塌（Mode Collapse）、训练不稳定、评估指标失真。

模式坍塌的工业解法：
传统DCGAN在生成电路板缺陷时，80%样本都集中在“焊点虚焊”一种类型，其他缺陷（短路、漏铜、划痕）几乎不生成。根本原因：判别器太强，生成器被迫专精一种模式以骗过判别器。产线方案：
- 用Spectral Normalization约束判别器权重，使其Lipschitz常数≤1，防止判别器过度自信；
- 在生成器损失中加入Feature Matching Loss（匹配判别器中间层特征），迫使生成器学习多样特征；
- 最关键一步：缺陷类型加权采样，对稀有缺陷（如“金手指氧化”）的样本权重设为5，常见缺陷设为1。实测使各类缺陷生成比例与真实分布误差<3%。
训练不稳定的根治手段：
GAN训练像走钢丝，学习率差0.0001就崩溃。我们的标准化流程是：
1. 先用Wasserstein GAN（WGAN）训练前1000步，因其损失值与生成质量正相关（可监控）；
2. 再切换到WGAN-GP（Gradient Penalty），用梯度惩罚替代权重裁剪，稳定性提升3倍；
3. 最后500步用Relativistic Average GAN（RaGAN），让判别器判断“真实样本比生成样本更真实”，而非绝对真假，进一步缓解震荡。
  这套组合拳使电路板缺陷生成任务的训练成功率从42%提升至98%。
评估指标的工业真相：
FID（Fréchet Inception Distance）分数高≠生成质量好。某汽车零件纹理生成项目，FID=12.3（SOTA），但工程师反馈“生成的划痕方向全是水平的，而真实划痕有37°斜向”。产线评估三原则：
1. 领域专家盲测：请3位资深质检员对100组“真实vs生成”图像打分（1~5分），平均分>4.2才合格；
2. 下游任务验证：用生成图像训练缺陷检测模型，若mAP提升≥2.0%，证明生成数据有效；
3. 物理约束检查：对生成的金属表面纹理，用FFT分析其功率谱密度（PSD），必须与真实样本PSD曲线重合度>85%。
  我们曾因忽略第三条，用FID=8.1的生成数据训练模型，上线后误报率飙升，因生成纹理缺乏真实金属的晶格衍射特征。

3.4 自监督学习（SSL）：小样本时代的救命稻草，但90%的人用错了

当标注成本成为项目瓶颈，自监督学习不是“锦上添花”，而是“生死线”。但多数人把它当成“预训练替代品”，这是最大误区——SSL的本质是学习数据的内在结构先验。

对比学习（Contrastive Learning）的工业实践：
SimCLR、MoCo等方法的核心是“拉近正样本，推开负样本”。但工业数据中，“正样本”定义极其关键。在光伏板巡检中，我们将同一块板在不同光照下的两张图视为正样本，而非简单用随机裁剪。因为真实场景中，故障（如热斑）在光照变化下应保持空间一致性。关键技巧：
- 正样本对构造：用多视角几何约束（Multi-view Geometry），对无人机航拍图做仿射变换+光照扰动，保证变换后热斑中心坐标误差<2像素；
- 负样本筛选：剔除与当前样本同属一个电站的其他图（避免负样本实为同类故障），只从其他电站随机采样。
  实测使热斑检测的召回率从0.61提升至0.89。
掩码建模（Masked Modeling）的硬件适配：
MAE（Masked Autoencoders）在ViT上效果惊艳，但其随机掩码策略在工业图像上水土不服。某钢铁厂表面缺陷数据中，裂纹总是沿轧制方向延伸，随机掩码会破坏其连续性先验。产线改造：
- 掩码形状：用矩形条掩码（16×128像素），方向与轧制方向一致；
- 掩码比例：从MAE的75%降至40%，因工业图像信息密度远高于自然图像；
- 解码器设计：去掉MAE的轻量解码器，直接用原图尺寸的U-Net解码，确保细节重建精度。
  这套方案在冷轧钢板数据集上，比标准MAE的缺陷定位IoU高0.15。
SSL的终极价值：构建领域知识图谱：
我们在半导体晶圆缺陷项目中，将SSL学到的特征作为节点，用余弦相似度>0.85的样本对构建图谱。意外发现：
- “颗粒污染”与“光刻胶残留”在特征空间距离极近（0.92），解释了为何工程师总混淆二者；
- “划伤”与“腐蚀”虽外观不同，但SSL特征显示其底层材料损伤机制相似（0.88）。
  这张图谱直接催生了新的缺陷分类标准，被客户写入企业规范。SSL在此已超越预训练，成为领域知识发现引擎。

3.5 图神经网络（GNN）：当你的数据天然带“关系”，就别硬塞进表格

GNN不是“高级分类器”，而是处理关系型数据的基础设施。只要你的业务存在“实体-关系-实体”三元组，GNN就有用武之地。

工业物联网（IIoT）预测性维护：
传统方法将每台设备传感器数据单独建模，忽略了设备间的物理耦合。某化工厂有127台泵，通过管道互联，一台泵故障会引发上下游压力突变。我们构建异构图：
- 节点：泵（P）、阀门（V）、传感器（S）；
- 边：物理连接（P→V）、数据流向（S→P）、维护记录（P→P，表示同批次更换）。
  用R-GCN（Relational GCN）聚合邻居信息，预测泵故障的AUC达0.93，比单设备LSTM高0.21。关键洞察：故障传播有方向性，必须用有向图；且“维护记录”边的权重应随时间衰减（3个月前的维护记录权重为0.3，本周的为1.0）。
金融风控中的团伙欺诈识别：
欺诈团伙常通过“壳公司-空壳账户-异常转账”链条运作。传统图算法（如PageRank）只能找中心节点，而GNN能识别子图模式。我们用GraphSAGE学习节点嵌入，再用子图匹配算法搜索“公司→法人→银行卡→POS机→商户”五跳闭环，成功识别出3个隐藏团伙，涉案金额超2.3亿元。避坑提示：图中存在大量“僵尸节点”（如已注销公司），需在预处理时用图连通性分析剔除孤立子图，否则GNN会学习到虚假关联。
GNN部署的硬件真相：
多数人以为GNN推理慢，其实瓶颈在图加载而非计算。某智慧交通项目需实时分析城市路网（12万节点），用PyTorch Geometric加载图结构耗时2.3秒。终极解法：
- 将图结构序列化为CSR（Compressed Sparse Row）格式，内存占用减少68%；
- 用CUDA Graph固化图遍历操作，避免每次推理重复解析；
- 对静态图（如道路拓扑），在服务启动时预加载到GPU显存，推理延迟压至17ms。
  这比用CPU加载+GPU计算快42倍。

3.6 多模态大模型：不是越大越好，而是“恰到好处”的融合

多模态不是“把文本和图像塞进一个模型”，而是在语义层面建立对齐。工业界已淘汰“Late Fusion”（后期拼接），转向“Cross-Modal Alignment”。

视觉-语言模型（VLM）的工业落地三原则：
1. 对齐粒度必须匹配任务：
  - 商品检索（图搜文）：需区域-词元对齐（如图像中“红色高跟鞋”区域 ↔ 文本“red high heels”），用CLIP的ViT+Text Transformer；
  - 设备说明书问答（文搜图）：需句子-图像对齐（整句描述 ↔ 整张示意图），用BLIP-2的Q-Former桥接。
2. 领域适配不可省略：
  CLIP在ImageNet上训练，对“工业扳手”“医用镊子”等细粒度物体识别率仅58%。我们用LoRA（Low-Rank Adaptation）微调CLIP的文本编码器，仅新增0.2%参数，就在五金工具数据集上将top-1准确率提升至89%。
3. 推理必须解耦：
  某AR维修系统需在手机端运行，若用端到端VLM，模型>1.2GB。产线方案：
  - 图像侧：用MobileNetV3提取视觉特征（24MB）；
  - 文本侧：用TinyBERT提取文本特征（12MB）；
  - 对齐侧：在云端用轻量级MLP计算相似度（<1MB）。
    手机只传特征向量，延迟<800ms，而端到端方案需3.2秒。
多模态时序建模（MMTS）的突破：
某新能源车电池健康度预测，需融合：
- 电压/电流/温度（时序，100Hz）；
- 电池包红外热成像（视频，5fps）；
- 充电桩日志文本（非结构化）。
  传统方案用LSTM+CNN+BERT分别处理，再拼接。我们改用Temporal Fusion Transformer（TFT），其核心是：
- 用Static Covariate Encoder处理充电桩型号等静态信息；
- 用Time-dependent Encoder分别处理三路时序，再通过Multi-head Attention交叉建模；
- 用Sequence-to-Sequence Decoder预测未来SOH（State of Health）。
  结果：SOH预测误差从±8.2%降至±3.7%，且能定位到“温度异常升高”是主要衰退诱因（通过注意力权重可视化）。

4. 速查表实战：从需求描述到模型选型的完整推演链

4.1 需求解析四步法：把模糊需求翻译成算法语言

客户说“我们要做个智能质检系统”，这等于没说。必须用四步法拆解：

Step 1：锁定输入模态与物理约束
问清楚：用什么设备采集？（工业相机/手机/无人机）→ 分辨率/帧率/光照条件 → 原始数据格式（RAW/RGB/JPEG/DICOM）→ 是否有标定参数？
例：客户说“用手机拍电路板”，立刻追问：iPhone 12还是华为Mate40？是否带补光灯？拍摄距离？
若是华为Mate40（f/1.9光圈），在暗光下ISO自动升至3200，噪声呈泊松分布，必须选对泊松噪声鲁棒的模型（如DnCNN），而非通用去噪模型。
Step 2：定义输出语义与精度阈值
“识别缺陷”太模糊，要明确：
- 是分类（OK/NG）？定位（Bounding Box）？分割（Pixel-wise）？
- 精度要求：是“漏检率<0.1%”（安全关键）还是“误报率<5%”（成本敏感）？
- 业务容忍延迟：是“在线实时”（<200ms）还是“离线批量”（<24h）？
  例：汽车安全气囊电路板，漏检=人命关天，必须用U-Net做像素级分割，漏检率压到0.03%。
Step 3：盘点数据资产与标注现状
问清：现有多少张图？是否已标注？标注质量如何（请发3张样本）？标注者是谁（工程师/实习生/众包）？
例：若客户有5000张图但只有200张带框标注，其余为“OK/NG”标签，则必须用弱监督学习（如BoxSup），而非直接训Faster R-CNN。
Step 4：梳理部署环境与合规红线
问清：部署在哪？（工厂本地服务器/公有云/边缘设备）→ GPU型号/显存/功耗限制 → 是否有等保三级要求？ → 是否需模型可解释？
例：部署在Jetson AGX Orin（32GB RAM，64GB/s内存带宽），则模型参数必须<15MB，且必须支持TensorRT量化。

4.2 速查表使用指南：一张表解决90%的选型纠结

我把上述四步法浓缩成一张速查表，按客户原始需求关键词直接索引：

客户原始需求关键词	对应问题本质	推荐算法族	必选变体	关键配置参数	部署注意事项
“手机拍照识别”	移动端实时性+光照多变	MobileNetV3	+Hard-Swish+SE	输入尺寸224×224，batch size=32	用TensorRT FP16，禁用SE的动态shape
“小样本学习”	标注成本高+数据稀缺	Self-Supervised	BYOL+ProtoPNet	BYOL预训练1000轮，ProtoPNet原型数=类别数×3	需准备10倍无标注数据做预训练
“多传感器融合”	异构数据+时序依赖	Multi-modal Transformer	TFT	时间窗口=128步，静态协变量嵌入维度=16	静态特征必须在训练前标准化
“生成缺陷图”	数据增强+物理真实	GAN	WGAN-GP+RaGAN	判别器梯度惩罚系数λ=10，RaGAN的相对判别损失权重=0.7	生成图像必须做FFT物理验证
“可解释性要求”	合规审计+人工复核	Prototype-based	ProtoPNet	原型数=50，相似度阈值=0.65	输出需附带原型匹配度热力图
“边缘设备部署”	显存<4GB+功耗<10