走马观碑的图像识别
简 介:本文反映了参加"走马观碑"比赛的选手在图像识别环节遇到的技术困境。团队使用龙芯2k0300处理器和低分辨率摄像头,被迫将神经网络压缩到仅有几千参数的微型模型,却要应对2300种目标板样式和复杂背景干扰的题库。这种硬件限制导致模型准确率难以提升,车辆被迫降速运行,严重影响了比赛应有的竞速体验。选手们建议适当缩减题库规模或降低背景复杂度,让比赛重心回归到底盘控制和速度比拼上,而非过度聚焦于图像识别。同时指出,在小规模数据集上模型表现良好,但面对50万张大数据集时误判率显著上升,进一步佐证了当前赛题与硬件配置之间的不匹配问题。
关键词:智能车竞赛,走马观碑
走马怎么能够观碑?
01【走马观碑中的图像识别】
卓老师您好, 我是今年参加“走马观碑”组别的选手。
这几个月为了备赛, 我们团队实拍了 20 多万张数据集去训练, 一直在努力死磕视觉方案。 但在实车联调后, 我们发现目前的赛题难度和咱们这组的硬件配置之间, 跨度确实非常大。 所以想以参赛学生的视角, 跟老师们反映一下我们在底层开发时遇到的真实痛点。
我们使用的是龙芯2k0300加上 320乘以240 分辨率的摄像头。 为了保证车辆跑起来能有最基本的处理帧率, 我们不得不把神经网络压缩到了极致, 目前模型的参数只能控制在“几千”的级别, 模型的“脑容量”确实非常小。
但目前的真实题库是: 可能出现的目标板样式高达 2300 种, 而且里面还包含了大量带有复杂背景的干扰板。
这就让我们遇到了一个非常艰难的瓶颈:
在 320*240 的模糊画质下, 想要用一个只有几千参数的微型模型, 去硬扛 2300 种包含复杂背景的混合题库, 并从中提取出 3 大类的特征。 我们实测下来,模型很容易陷入随机乱猜的状态, 准确率很难提升。
我们知道,也许比赛中会有技术特别拔尖的顶尖队伍能突破这个限制, 但对于我们绝大多数队伍而言, 这确实远超了大家常规的工程优化能力。
更让我们迷茫的是, 大家来参加智能“车”比赛, 初衷都是为了比拼底盘控制和竞速跑图。 但现在为了提高一点点可怜的识别率, 车子只能被迫降速到像乌龟一样在赛道上“蠕动”; 一旦稍微提点速,单核 CPU 处理不过来, 直接漏报罚时。 这让比赛完全失去了“跑起来”的竞速体验。
听说其他组别结合实际情况, 已经对相关规则做了合理的优化。 因此,我们真诚地请求老师们结合 1GHz 单核的真实算力, 对题库难度进行适当的“减负”:
我们不求降低“3大类”的分类要求, 只求能适当缩减这 2300 种样式的绝对基数, 或者考虑减少那些带有复杂背景的干扰板。
恳请老师们给几千参数的轻量化小模型留一点处理空间, 让比赛的重心能够更多地回归到“比拼车速与底层控制”的竞速初衷上, 而不是让大部分队伍把时间和精力都卡死在图像识别上。 希望能得到老师们的理解, 听听一线学生的真实反馈。
卓老师,我们通过实测, 在训练数据集数量只有4万张的情况下, 该轻量化小分类模型可以比较准确的识别准所训练的图片。 准确率大概在90%以上。
但是我们对全部数据集进行训练, 训练数量会达到50万张, 在此条件训练出的模型会出现大概率的误判。
所以建议减少一部分难以分辨的数据集。 谢谢卓老师,老师辛苦了。
卓老师,我们通过实测, 在训练数据集数量15类每类800张的情况下, 该轻量化小分类模型可以比较准确的识别准所训练的图片。 准确率大概在90%以上(前面表述错误了)
