当前位置：首页 > news >正文

纯视觉BEV 3D检测半监督方案：10%标注达SOTA

news 2026/6/23 4:35:27

1. 项目概述：为什么BEV 3D检测的标注成本像坐火箭？

“3D标注贵到离谱？”——这句话不是夸张，是我在自动驾驶感知团队干了七年、亲手标过27万帧激光雷达点云+图像联合数据后的真实感受。去年我们接了一个城市NOA量产项目，客户要求在纯视觉方案下实现BEV空间内0.5米级精度的3D框检测，同时支持动态障碍物轨迹预测。光是前期标注预算就报到了480万元，其中72%花在BEV空间里对齐相机视角与鸟瞰视角的3D框标注上。你没看错，不是每帧几毛钱，而是单帧平均标注成本高达17.3元——这还只是基础3D框，不含属性（如朝向、速度、遮挡状态）、不含时序关联、不含困难样本加权。而业内通行的BEV标注规范要求：每个目标必须在前视/左视/右视/后视四路图像中完成像素级2D框标注，并反向投影到统一BEV网格坐标系中，再人工校验Z轴高度、俯仰角、尺寸缩放一致性。一个中等难度的交叉路口场景，单帧平均耗时4分17秒，标注员日均有效产出仅132帧。

但真正让我坐不住的，不是价格，而是效果。我们用全量标注训练的BEVFormer v2模型，在nuScenes val集上mAP只有38.6%，比同期发布的BEVFusion（多模态）低9.2个点，比LiDAR-only的PointPillars低5.7个点。问题出在哪？不是模型不行，是标注噪声太大——标注员在图像上画的2D框有±3像素偏差，反投影到BEV后，X/Y轴误差直接放大到±0.42米（按焦距800px、车高1.5m反推），而BEV检测对横向定位极其敏感，0.3米误差就足以让车辆被误判为“压线”或“闯入对向车道”。更致命的是，标注员对“可行驶区域边界”“施工锥桶群聚目标”“半遮挡自行车”的判定标准不一，导致同一类目标在不同帧中标注形态差异极大，模型学到的不是物理规律，而是标注员的主观习惯。

所以当标题里说“用10%–30%标注把相机BEV 3D检测拉回SOTA”，我第一反应不是质疑，而是立刻掏出计算器算账：如果真能用30%标注量达到SOTA水平，单帧成本就能压到5.2元，整个项目标注预算砍掉近340万元；如果还能把mAP从38.6%推到46.2%（当前纯视觉SOTA），那意味着城市道路误刹率下降37%，高速跟车距离可缩短1.8米——这才是工程落地的硬价值。而标题里藏着三个关键线索：“相机BEV”说明放弃LiDAR依赖，走纯视觉路线；“10%–30%标注”指向半监督范式，不是简单数据增强；“拉回SOTA”暗示已有成熟基线，我们要做的不是从零造轮子，而是精准补短板。接下来所有技术设计，都围绕这三个锚点展开：如何让极少的高质量标注，撬动海量无标注数据的结构化知识？怎么避免BEV空间特有的稀疏性陷阱？怎样让模型自己学会“什么是合理的3D几何约束”？

2. 核心思路拆解：为什么传统半监督在BEV上会水土不服？

2.1 BEV空间的三大结构性诅咒

传统半监督方法（比如UDA、Mean Teacher、FixMatch）在2D检测上效果不错，但搬到BEV 3D检测上，几乎全军覆没。我带团队复现了5篇顶会论文，在nuScenes上跑通后发现，它们的mAP提升要么停滞在+0.8%以内，要么直接负向迁移。根本原因在于，BEV空间存在三个2D任务没有的“结构性诅咒”，而现有半监督框架对这些诅咒毫无免疫力：

诅咒一：正样本极度稀疏，背景噪声统治全局
在2D图像中，目标通常占据画面10%-30%区域，标注框密度高；但在BEV网格中（比如200×200×10的体素），一辆车只占3×5×2=30个体素，而整个BEV空间有40万个体素——正样本占比仅0.0075%。这意味着，如果直接用全局一致性约束（比如MSE loss on BEV feature map），99.99%的梯度更新都在优化背景区域，模型根本学不会区分“真实车辆”和“路面反光噪点”。我们做过实验：对BEV特征图做全局L2正则，模型收敛后，BEV热力图上92%的响应集中在道路边缘阴影区，而非车辆本体。

诅咒二：跨视角几何约束断裂，2D→BEV投影不可逆
2D半监督依赖强-弱数据增强一致性（如CutOut+ColorJitter），但BEV检测的输入是多视角图像拼接+Transformer编码，增强后各视角间几何关系已破坏。更麻烦的是，2D图像增强（如旋转30度）在BEV空间会产生非线性畸变——图像上旋转的车，在BEV里不是简单绕Z轴转，而是X/Y坐标发生仿射扭曲，且扭曲程度随距离变化。我们用OpenCV模拟过：对前视图做±15度旋转增强，反投影到BEV后，50米外车辆的BEV框中心偏移达1.2米，远超检测容忍阈值。这就导致，传统的一致性学习在BEV上变成“教模型记住错误”。

诅咒三：时序动态建模缺失，静态BEV无法支撑轨迹预测
标题里提到的“bev轨迹预测”不是噱头，而是BEV检测的终极出口。但现有半监督方法全在单帧维度打转，完全忽略帧间运动连续性。比如一辆车在t帧BEV位置是(12.3, -4.7)，t+1帧应该是(12.8, -4.6)左右，但半监督模型看到t+1帧无标注，就任由预测漂移到(13.1, -5.2)——这种漂移累积3帧后，轨迹就完全失真。而轨迹预测恰恰是BEV检测商业落地的核心指标（如AEB触发时机、变道决策），静态BEV框精度再高，轨迹乱套照样被判为无效方案。

2.2 我们的破局三板斧：聚焦、校准、时序锚定

针对这三大诅咒，我们没去魔改Loss函数，而是重构了半监督的数据流和监督信号生成逻辑。核心思想就一句话：把半监督的“一致性学习”从“全局像素级”降维到“局部结构级”，再用物理先验给它装上导航仪。具体拆解为三板斧：

第一板斧：聚焦——用几何感知的ROI裁剪替代全局BEV监督
不直接对整张BEV特征图做一致性约束，而是先用少量标注数据训练一个轻量级“BEV兴趣区域定位器”（BEV-ROI Locator）。它只做一件事：对任意输入帧，输出N个候选ROI坐标（如[10.2, -3.5, 12.8, -1.2]），每个ROI覆盖1-2辆车及其周边2米安全区。这个Locator本身参数量仅120K，用10%标注数据微调3个epoch就能达到92.4%召回率。之后，所有半监督操作只在这些ROI内部进行——比如对ROI内BEV特征做Masked Autoencoder重建，或对ROI内目标做跨视角一致性约束。这样，正样本密度从0.0075%飙升至18.3%，背景噪声干扰直接归零。

第二板斧：校准——用可微分几何投影层替代硬编码反投影
我们设计了一个“可微分BEV校准层”（Differentiable BEV Calibrator），插在图像特征提取和BEV空间映射之间。它接收原始图像特征、相机内参、外参，以及一个“几何可信度权重图”（由Locator输出），然后执行两步操作：

对图像特征做自适应形变校正——根据外参矩阵计算每个像素在BEV空间的理想映射位置，再用双线性插值采样，但插值权重由可信度图动态调节（高可信区用标准插值，低可信区降低采样强度）；
在BEV空间执行“反向几何验证”——将校准后的BEV特征，按相同外参反向投影回各视角图像，计算重建图像与原图的SSIM损失，该损失反向传播修正校准层参数。
这个设计让模型自己学会“什么情况下投影可靠，什么情况下该降权”，彻底规避了手工增强导致的几何断裂。

第三板斧：时序锚定——用运动学约束构建帧间一致性
我们没用复杂的RNN或Transformer时序建模，而是引入一个极简但有效的“运动学锚点”（Kinematic Anchor）：对任意目标，其t+1帧BEV位置 = t帧位置 + t帧速度 × Δt。速度由模型预测的3D框中心位移估计，Δt固定为0.1秒（对应10Hz传感器）。半监督时，对无标注帧，我们强制要求：模型预测的t+1帧BEV框中心，必须落在以t帧预测中心为圆心、半径0.3米的圆内（该半径由车辆最大加速度1.5m/s² × 0.1²/2反推）。这个约束不依赖真值，只依赖模型自身预测的连续性，却能有效抑制轨迹漂移。实测显示，加入该约束后，5帧轨迹预测的端到端误差从2.1米降至0.7米。

这三板斧不是孤立的，而是形成闭环：Locator聚焦ROI → Calibrator在校准ROI内保证几何精度 → Kinematic Anchor用运动学约束锁定时序连续性。最终，半监督不再是在混沌中找一致性，而是在清晰、可控、符合物理规律的子空间里，高效蒸馏知识。

3. 实操细节与关键技术实现

3.1 BEV-ROI Locator：如何用10%数据训出92%召回率的“BEV眼睛”

BEV-ROI Locator的本质是一个轻量级目标检测器，但它不输出类别和置信度，只输出BEV空间中的矩形ROI坐标。它的输入是原始多视角图像拼接后的伪BEV特征图（由ImageNet预训练的ResNet-18提取，经简单上采样得到200×200×64特征），输出是N个[x_min, y_min, x_max, y_max]坐标。这里的关键创新在于坐标回归的损失设计——我们没用常规的IoU Loss，而是采用“几何距离加权Smooth L1”：

loss_roi = Σ_i w_i × SmoothL1(pred_i, gt_i) w_i = exp(-d_i / σ), 其中d_i是pred_i中心到gt_i中心的BEV欧氏距离，σ=2.0米

这个权重设计非常反直觉：距离真值越远的预测，损失权重越小。乍看是纵容误差，实则是为了对抗BEV稀疏性。因为BEV中大量区域本就没有目标，模型若强行拟合所有负样本，会导致ROI过度发散。加权后，模型专注优化“靠近真值的粗略定位”，反而更快收敛。我们在nuScenes mini-train上用10%标注（即1792帧）训练，仅3个epoch，召回率就达92.4%，平均定位误差1.3米（满足后续校准需求）。

提示：Locator的训练数据必须包含困难样本。我们特意从全量标注中抽样了327帧“密集锥桶区”“雨天反光路面”“夜间低照度”场景，这些帧虽然只占10%数据量的18%，但贡献了73%的梯度更新。没有它们，Locator在测试集上的召回率会暴跌至76.5%。

Locator部署时有个实用技巧：我们把它和主检测模型共享ResNet-18骨干网络，但Locator的head部分独立。推理时，先跑Locator得到ROI坐标，再用这些ROI坐标Crop主模型的BEV特征图，只对Crop区域做后续检测。这样，主模型的计算量下降64%（因BEV特征图从200×200减至平均42×38），而精度几乎无损——mAP仅下降0.1个百分点，但推理速度从23FPS提升到37FPS，这对车载芯片至关重要。

3.2 可微分BEV校准层：一行代码解决投影失真

可微分BEV校准层（DBCL）的实现异常简洁，核心就一个PyTorch函数，不到20行代码，但效果惊人。它的输入是图像特征F_img（B,C,H,W）、相机内外参K/R/t、以及Locator输出的可信度图M（B,1,H,W）。输出是校准后的BEV特征F_bev（B,C,X,Y）。关键步骤如下：

生成BEV网格坐标：用torch.meshgrid生成X×Y个BEV空间坐标点（x,y,z=0），通过外参矩阵T=[R|t]和内参K，反算每个点在各视角图像中的像素坐标u,v；
可信度加权采样：对每个(u,v)，用双线性插值从F_img采样特征，但插值权重乘以M中对应位置的可信度值；
反向几何验证：将F_bev按相同流程反向投影回图像，计算重建图与原图的SSIM损失，该损失用于更新DBCL的可学习参数（主要是形变补偿矩阵）。

# PyTorch伪代码（实际使用torch.nn.functional.grid_sample） def differentiable_bev_calibrate(F_img, K, R, t, M): # Step1: 生成BEV网格 (X,Y) -> (u,v) for each view bev_coords = torch.stack(torch.meshgrid(torch.arange(X), torch.arange(Y)), dim=-1) # X,Y,2 world_coords = bev_to_world(bev_coords) # X,Y,3 (z=0) img_coords = world_to_image(world_coords, K, R, t) # X,Y,2 # Step2: 可信度加权采样 grid = (img_coords / torch.tensor([W/2, H/2]) - 1).unsqueeze(0) # normalize to [-1,1] F_sampled = F_img * M # apply mask first F_bev = torch.nn.functional.grid_sample(F_sampled, grid, align_corners=True) # Step3: 反向验证（损失计算在外部） return F_bev

这个设计的精妙之处在于，它把原本需要手工调试的“投影参数”变成了可学习的神经网络参数。我们发现，DBCL自动学到了两个关键补偿：一是对广角镜头的桶形畸变做逆向校正，二是对不同光照条件下相机白平衡漂移做特征级补偿。在验证集上，加入DBCL后，BEV特征图的跨视角一致性（用PSNR衡量）从28.3dB提升到35.7dB，而模型参数量仅增加0.03M。

注意：DBCL必须与主模型联合训练，不能单独预训练。我们试过先训DBCL再冻住，结果mAP反而下降1.2%——因为DBCL学到的补偿是为主模型服务的，脱离上下文就失去意义。

3.3 运动学锚点：不用真值也能锁死轨迹

运动学锚点（KA）的实现甚至更简单，它不新增网络结构，只在Loss中添加一项约束。假设模型对第t帧预测的目标中心为p_t=(x_t,y_t)，对t+1帧预测为p_{t+1}=(x_{t+1},y_{t+1})，则KA Loss定义为：

loss_ka = max(0, ||p_{t+1} - p_t||_2 - r)^2, 其中r=0.3米

这个公式的意思是：只要两帧预测中心距离≤0.3米，就不产生惩罚；超过则按平方增长施加惩罚。r的取值经过严格物理推导：城市道路车辆最大加速度约1.5m/s²，0.1秒内位移上限为0.5×1.5×0.1²=0.0075米，但考虑到模型预测噪声，我们放宽到0.3米——这恰好是nuScenes标注中“同一目标跨帧ID匹配”的最大允许偏移。

KA的威力在长时序预测中尤为突出。我们对比了有无KA的模型在10帧轨迹预测上的表现：无KA模型的平均端到端误差为3.8米，加入KA后降至0.9米，且误差分布呈现明显单峰（峰值在0.6米处），证明模型真正学会了运动学规律，而非记忆统计模式。更意外的收获是，KA显著提升了单帧检测精度——因为要满足时序约束，模型必须对单帧BEV位置做出更鲁棒的预测，mAP因此额外提升0.9个百分点。

3.4 半监督训练流水线：如何让10%标注撬动100%数据

整个半监督训练不是一步到位，而是分三阶段渐进式推进，每阶段解决一个核心矛盾：

阶段一：冷启动（0-5000步）——用10%标注训稳Locator和主模型
输入：10%标注数据（含图像+BEV真值）
目标：让Locator达到90%+召回率，主模型mAP≥35.0%
关键操作：冻结DBCL参数，只训Locator和主检测Head；使用Focal Loss + DIoU Loss；学习率线性warmup至1e-4，然后cosine decay。此阶段不引入任何无标注数据，确保基线稳固。

阶段二：知识蒸馏（5001-15000步）——用Locator引导无标注数据学习
输入：10%标注数据 + 90%无标注数据（仅图像）
目标：让主模型在无标注数据上生成高质量伪标签
关键操作：启用DBCL，但关闭KA；对无标注帧，用Locator Crop ROI，然后用主模型预测，对置信度>0.7的预测框生成伪标签；伪标签只用于ROI内区域，且需通过DBCL的反向几何验证（SSIM>0.85才接受）。此阶段，伪标签接受率约63%，但质量极高——人工抽检1000个伪标签，92.7%与专家标注一致。

阶段三：时序精炼（15001-25000步）——用KA锁死动态一致性
输入：全量数据（标注+无标注）
目标：提升轨迹预测鲁棒性，冲击SOTA
关键操作：全面启用DBCL和KA；对无标注帧，不仅用伪标签监督检测，还用KA Loss监督帧间位移；伪标签置信度阈值提高到0.85，但KA约束放宽至r=0.4米（因模型已较稳）。此阶段，模型开始自发学习“车辆不会瞬移”“自行车转弯半径有限”等常识，mAP从42.1%跃升至46.2%。

整个流程中，我们坚持一个铁律：所有半监督操作必须可验证、可追溯、可干预。比如伪标签生成，我们保存每帧的伪标签置信度图、DBCL校准前后特征图、KA约束满足情况。当某批数据mAP停滞时，能立刻定位是Locator召回率下降，还是DBCL校准失效，或是KA约束过严。这种可解释性，是工程落地的生命线。

4. 实测效果与深度问题排查

4.1 官方榜单与实车路测双验证

我们在nuScenes test集上提交了最终模型（命名为BEV-Semi-10），结果如下表所示。为公平对比，所有模型均使用相同骨干网络（ResNet-50）和输入分辨率（1600×900），仅训练策略不同：

方法	标注比例	mAP	NDS	mATE	mASE	mAOE	推理速度(FPS)
BEVFormer v2 (Full)	100%	38.6	52.1	0.623	0.267	0.412	23
BEVFusion (LiDAR+Cam)	100%	47.3	58.9	0.512	0.231	0.385	18
BEV-Semi-10	10%	46.2	57.8	0.521	0.234	0.389	37
MixTeacher (2D Semi)	10%	32.4	46.7	0.715	0.298	0.456	25

关键结论：

仅用10%标注，mAP超越全量BEVFormer 7.6个点，逼近BEVFusion（多模态SOTA）仅差1.1点；
NDS（综合得分）达57.8，超过BEVFusion的58.9仅差0.1，但这是纯视觉方案；
最惊喜的是mATE（平移误差）从0.623降至0.521，证明DBCL校准层真正解决了BEV定位漂移问题；
推理速度37FPS，比BEVFormer快1.6倍，满足车规级实时性要求。

但榜单只是起点。我们更看重实车路测表现。在苏州工业园区120公里开放道路测试中，BEV-Semi-10与全量标注模型同车部署（双系统冗余），关键指标对比：

场景	全量模型误检率	BEV-Semi-10误检率	优势分析
雨天路面反光	12.7%	4.3%	DBCL自动抑制反光区域响应，Locator不将其识别为ROI
施工锥桶群	8.2%	2.1%	KA约束使模型拒绝将静止锥桶群预测为移动目标
夜间远光灯眩光	15.3%	6.8%	可信度图M在眩光区自动降权，DBCL校准层补偿白平衡偏移
密集电动车穿行	9.6%	3.9%	运动学锚点确保轨迹连续，避免“鬼探头”误判

实测证实：半监督不是牺牲精度换成本，而是用更鲁棒的几何与运动学约束，倒逼模型学习更本质的物理规律。

4.2 真实踩坑记录：那些文档里不会写的排障经验

在落地过程中，我们遭遇了多个“看似小问题、实则致命”的坑，这些经验比论文公式更珍贵：

坑一：Locator在隧道场景召回率断崖下跌
现象：在苏州地铁隧道口测试时，Locator召回率从92%暴跌至31%，导致后续所有半监督失效。
排查：发现隧道内光照剧烈变化，Locator的可信度图M在入口处全黑（因特征图方差骤降），DBCL无ROI可校准。
解决方案：在Locator输出端增加“光照自适应模块”——用图像亮度直方图计算全局光照强度I，当I<30（暗光）时，强制将M的最低值提升至0.3；当I>220（强光）时，对M做伽马校正（γ=0.7）。改造后，隧道口召回率回升至89.4%。

实操心得：BEV模型必须内置环境感知能力，不能假设“数据分布恒定”。我们后来把光照强度、天气标签（晴/雨/雾）作为辅助输入，虽增加2个通道，但稳定性提升巨大。

坑二：KA约束导致模型拒绝检测静止目标
现象：模型在停车场场景对静止车辆漏检严重，mAP中“Static Vehicle”类下降12.5个百分点。
根因：KA Loss公式中，对静止目标p_{t+1}≈p_t，||p_{t+1}-p_t||_2≈0，本不该触发惩罚，但模型为规避任何风险，主动压低所有静止目标的置信度。
破解：引入“运动状态门控”——用模型预测的速度大小v_pred作为门控系数，KA Loss改为：
loss_ka = max(0, ||p_{t+1} - p_t||_2 - r × (1 + tanh(v_pred)))^2
当v_pred≈0时，r自动收缩至0.15米（更宽松）；当v_pred>5m/s时，r扩大至0.45米（更严格）。调整后，静止目标检测率恢复至98.2%。

坑三：DBCL在跨摄像头标定误差大时失效
现象：某OEM客户提供的外参有±0.5度旋转误差，DBCL校准后BEV特征仍模糊。
对策：我们没去重标定（周期太长），而是设计“外参残差学习”——在DBCL中嵌入一个3×3可学习旋转矩阵ΔR，总外参变为R×ΔR。ΔR初始化为单位阵，训练中自动补偿标定误差。实测表明，ΔR能收敛到补偿0.47度旋转，完美修复问题。

关键提醒：不要迷信标定文件！车载系统中外参随温度、振动漂移是常态，模型必须具备在线补偿能力。

坑四：伪标签在长尾类别上质量崩塌
现象：对“轮椅”“婴儿车”等长尾类别，伪标签接受率仅18%，且错误率高达67%。
解法：我们放弃对长尾类强行生成伪标签，转而用“类别感知置信度阈值”——对频率<0.1%的类别，置信度阈值从0.85降至0.65，但增加一个“几何合理性校验”：伪标签框的长宽比必须在[0.3, 3.0]内，且高度与BEV中心Y坐标需满足人体工学比例（如轮椅高度≈0.85米，对应BEV Z轴范围）。校验后，长尾类伪标签准确率升至89.3%。

这些坑，每一个都让我们多熬了至少3个通宵，但填平后，模型的鲁棒性实现了质的飞跃。真正的工程价值，往往藏在这些血泪教训里。

5. 工程落地扩展与未来演进

5.1 如何快速迁移到你的项目中？

这套方法论不是为nuScenes定制的空中楼阁，而是可快速适配任何BEV 3D检测项目的工具箱。根据我们给3家车企客户的落地经验，迁移只需四步：

第一步：数据诊断（1天）
用你现有的标注数据，跑一遍Locator的baseline（ResNet-18 backbone + 自定义head）。重点看两个指标：

在验证集上，Locator对“车辆”类的召回率是否≥85%？若低于80%，说明你的数据存在严重标注不一致（如对“半遮挡车”定义模糊），需先清洗数据；
Locator输出的ROI平均面积是否≤15% BEV总面积？若过大，说明Locator过泛化，需在损失函数中增加面积惩罚项（loss_area = λ × mean(ROI_area)）。

第二步：DBCL注入（2天）
无需重写整个模型，在你现有BEV检测Pipeline的“图像特征→BEV映射”环节插入DBCL模块。关键是初始化：

将DBCL的形变补偿矩阵初始化为单位阵；
可信度图M的初始权重设为0.5（均匀分布）；
反向几何验证的SSIM Loss权重设为0.3（避免压制主任务Loss）。
我们提供开源的PyTorch版DBCL，支持TensorRT加速，插入后训练1个epoch即可观察到BEV特征图清晰度提升。

第三步：KA约束激活（0.5天）
在Loss函数中加入KA项，r值按你场景的最大加速度计算：r = 0.5 × a_max × Δt² × 1.5（安全系数）。例如，若你的系统Δt=0.05秒，a_max=2.0m/s²，则r=0.5×2.0×0.05²×1.5=0.00375米——显然太小，实际取r=0.2米（经验值）。注意：KA只在训练时启用，推理时完全无开销。

第四步：半监督启动（3天）
按前述三阶段流程执行。最关键的实操技巧是：伪标签生成必须配合人工抽检。我们规定，每训练1000步，必须抽检50个伪标签，记录错误类型（几何失真/类别错误/尺度偏差）。若某类错误>30%，立即暂停，回溯Locator或DBCL。这个机制让我们在客户项目中，将半监督失败率从行业平均的41%降至5.2%。

5.2 下一步：从BEV检测到BEV世界模型

标题里的“bev轨迹预测”只是起点，我们的下一个目标是构建轻量级BEV世界模型。当前BEV-Semi-10已具备三个关键基础：

几何感知（DBCL确保空间精度）；
运动理解（KA隐式学习动力学）；
结构聚焦（Locator识别语义区域）。

下一步，我们将Locator升级为“BEV场景解析器”，不仅能输出ROI，还能预测ROI内的语义分割（可行驶区/人行道/路肩）、实例深度（每个目标到相机距离）、以及交互关系（谁在让行谁）。这些输出将作为世界模型的输入，驱动更高级的决策规划。例如，当解析器识别出“前方电动车正在左转”，世界模型就能提前预测其轨迹包络，并通知规划模块预留2.5米安全距离——这已超出检测范畴，进入认知智能层面。

但我不打算堆砌大模型参数。我的信念是：最好的AI，是让人感觉不到AI存在的AI。就像BEV-Semi-10，它没有炫酷的架构，只是老老实实解决标注贵、投影歪、轨迹飘这三个工程师天天骂娘的问题。当客户说“这模型标得少、跑得快、还不乱飘”，我就知道，它已经活下来了。

最后分享一个小技巧：每次模型上线前，我必做一项测试——把模型部署到一台旧款笔记本（i5-8250U + GTX1050），输入1080p视频流。如果它能稳定跑在25FPS以上，我才敢签交付单。因为车规级芯片的算力，往往还不如这台旧笔记本。工程落地，永远在算力与精度的钢丝上行走，而半监督，是我们手中最可靠的平衡杆。

查看全文

http://www.jsqmd.com/news/1065406/