当前位置: 首页 > news >正文

自动驾驶数据驱动规控进化之路

阶段一:纯粹的行为克隆(Behavior Cloning)—— “看图打方向盘” (2016)

最早的数据驱动尝试极其简单粗暴:把人类驾驶时的摄像头画面作为 $X$,把方向盘转角作为 $Y$,用一个简单的卷积神经网络(CNN)做有监督回归训练。

  • 痛点(协变量偏移 Covariate Shift):这种模型只会顺风局。一旦在现实中车子稍微偏离了车道线中心(由于风偏或小误差),模型就会看到一个“训练集中从未见过的画面”,然后彻底宕机,不知如何“救车”。

  • 标志性工作/依据:

    • PilotNet (NVIDIA, 2016):端到端自动驾驶的开山之作。英伟达用一个 9 层的 CNN,成功让一辆车在相对简单的乡村道路上保持在车道内行驶。(参考论文:End to End Learning for Self-Driving Cars, arXiv 2016

阶段二:鲁棒模仿学习与数据增强 —— “故意犯错,教机器救车” (2018-2021)

为了解决“偏离轨迹就不会开”的问题,工程师开始在数据层面做文章。

  • 核心逻辑:在给人类轨迹打标签时,故意在模拟器中生成大量“偏离中心、压线”的劣质合成数据,然后强制神经网络学习“如何打方向盘回到正确路线上”。

  • 标志性工作/依据:

    • ChauffeurNet (Waymo, 2018):Waymo 的经典之作。它证明了单纯模仿好司机是不够的,必须合成大量“坏数据”,强迫网络学习从恶劣状态中恢复。(参考论文:ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst, RSS 2019

    • Urban Driver (Waymo, 2021):不再输入图片,而是基于矢量化的高精地图(PointNet 架构)进行端到端的轨迹闭环学习,大大提升了在复杂城市路口的表现。(参考论文:Urban Driver: Learning to Drive from History and Local Graph, CoRL 2021

阶段三:打破“因果混淆”的离线强化学习 (2020-2023)

模仿学习有一个致命缺陷叫因果混淆(Causal Confusion)。比如:前车刹车灯亮了,老司机踩了刹车。模型在学习时,可能会误以为“因为我的脚踩了刹车板,所以前车的尾灯才亮了”。

  • 核心逻辑:引入离线强化学习(Offline RL)。不再仅仅是盲目模仿(监督学习),而是利用强化学习的奖励机制(Reward),从静态数据集中主动去寻找“即使人类司机没这么做,但理论上得分更高、更安全的轨迹”。

  • 标志性工作/依据:

    • CQL 在自动驾驶中的应用 (UC Berkeley & 行业前沿, 2020+):Conservative Q-Learning (CQL) 等算法被广泛引入。它通过在价值函数计算中惩罚“未见过的危险状态”,让 AI 在纯离线数据中也能学到极为稳健的规控策略,解决了直接用 RL 训练实车不安全的痛点。

阶段四:Transformer 大一统与“无图化”端到端 (2023-2024)

随着 BEV(鸟瞰图)和 Transformer 的成熟,数据驱动规控进入了大一统时代。各种独立的网络被融合成一个巨无霸,并且开始彻底抛弃昂贵的高精地图。

  • 核心逻辑:原始传感器数据输入,网络内部自动生成动态/静态元素的 Token(词元),并通过自注意力机制直接输出自车的规划轨迹。

  • 标志性工作/依据:

    • VAD (Vectorized Autonomous Driving, ICCV 2023):提出了一种完全矢量化的无图端到端框架。它直接从多视角图像中隐式学习车道拓扑,极大地提高了规控在没有高精地图路段的稳定性和运行速度。

    • UniAD (CVPR 2023 Best Paper, 上汽/上海AI实验室):将追踪、建图、轨迹预测和自车规划全部放入一个 Transformer 管道中联合优化,是目前学术界最标杆的端到端范式。

    • Tesla FSD v12 (2024):工业界真正实现了“光子输入,控制输出(Photon-in, Control-out)”。马斯克彻底干掉了超过 30 万行规控 C++ 代码,全靠特斯拉车队海量的视频片段驱动一个巨大的神经网络输出控制指令。

阶段五:生成式“世界模型”与大语言模型 (VLA) 的降维打击 (2024-2026)

纯数据驱动的黑盒模型缺乏“物理常识”和“逻辑推理”。最新的趋势是给规控装上 LLM 的大脑。

  • 核心逻辑:

    1. 世界模型:让 AI 学习物理规律,在脑海的“虚拟世界”里预演自己的规控轨迹是否会撞车。

    2. VLM/LLM:让大模型充当“教练”,面对长尾罕见场景(如路边有猪、交警挥手),用人类文字推理出正确的规控意图。

  • 标志性工作/依据:

    • GAIA-1 & Lingo-2 (Wayve, 2023/2024):前者是 90 亿参数的世界模型,能逼真预测各种罕见规控后果;后者是能一边控制实车、一边用英语解释自己“为什么要这么踩刹车”的闭环 VLA 大模型。

    • DriveVLM-Dual (清华 & 理想, 2024):一种混合架构。当路况正常时,底层的端到端小模型快速输出规控指令;当遇到奇怪的障碍物时,VLM 大模型立刻介入进行“慢思考”逻辑推理,指导底层修改规控轨迹。

    • DriveDPO (NeurIPS 2025):将大语言模型界最火的偏好对齐(DPO)直接用于自动驾驶轨迹规划,直接让模型对比“好人类”和“坏人类”的开车区别,而不需要复杂的强化学习奖励设计。

从纯粹的模仿,到强化学习的寻优,再到大语言模型的推理,数据驱动正在彻底重塑汽车的“运动神经”。

http://www.jsqmd.com/news/923505/

相关文章:

  • 从飞线到PCB:为Luos生物识别系统打造模块化Arduino扩展板
  • WeChatMsg完全指南:如何永久保存并智能分析你的微信聊天记录
  • 全球TOP 23款Gemini原生应用的商店描述逆向工程报告(含17个不可复制的语义锚点)
  • 完全掌控你的数字记忆:微信聊天记录导出的终极解决方案
  • 从肌电信号到机械臂:基于Arduino的仿生控制全栈实践
  • 告别单调,用Mousecape打造你的专属macOS光标主题
  • GlosSI终极指南:在Windows上实现全局Steam控制器支持
  • 基于Arduino与超声波传感器的智能楼梯灯:事件驱动与单线模式实战
  • 如何通过命令行精确控制F3D中3D模型的渲染视角:5个专业级策略
  • 5个关键参数配置:从机械语音到自然音色的AI语音合成优化指南
  • 基于555定时器的LED闪烁PCB圣诞树:从原理到制作的完整电子DIY项目
  • 【Gemini产品退役终极指南】:20年Google生态专家亲授迁移避坑清单与替代方案速查表
  • 超速离心机哪个牌子好?国内外头部品牌综合实力大揭秘 - 品牌推荐大师
  • ngx_http_core_find_config_phase
  • 微信聊天记录永久保存指南:如何将珍贵对话转化为数字资产
  • 终极微信QQ防撤回指南:5步实现消息永久保留
  • Python之yabormeparser包语法、参数和实际应用案例
  • 如何快速实现AI智能图像分层:免费工具Layerdivider完整指南
  • 东莞市大岭山玥盛:龙岗胶合板木箱公司 - LYL仔仔
  • 告别License烦恼:一份给Aurix新手的Tasking TriCore环境自查清单
  • 乌鲁木齐企业选择一般纳税人还是小规模纳税人的经验分享 - 新疆全疆企业服务
  • Tinkercad Codeblocks实战:用可视化编程制作3D飞机起飞动画
  • TensorFlow.js 时间序列预测实战:从数据预处理到浏览器端模型部署
  • Xbox 360模拟器Xenia Canary实战指南:深度解析与专业配置方案
  • Gemini数据出境安全评估:7步完成跨境传输备案,避开92%企业踩过的雷区
  • AI瞄准系统:三档性能方案让游戏新手也能体验职业选手的精准度
  • 基于Arduino与涂鸦IoT平台打造智能植物监测系统
  • 如何在浏览器中免费编辑GPX文件:GPX Studio完全指南 [特殊字符]️
  • 番茄小说本地化收藏:告别网络依赖的数字阅读新方案
  • 揭秘谷歌Gemini首发公关战役:如何用3天引爆全球科技媒体头条