当前位置: 首页 > news >正文

faster r cnn 用到所有技术和流程

按时间顺序拆成 4 大段、12 个小步,并指出每一步用到的关键模块 / 公式 / 损失。

  1. 输入与数据准备
    ① 图像预处理
    • Resize + Pad 到固定短边 600 px(可配置)
    • 减 ImageNet 均值/方差
    • 水平翻转、随机裁剪做数据增强
    • 标注:每张图给出 N 个真值框 (x₁,y₁,x₂,y₂) 与类别标签

  1. Backbone 特征提取
    ② 任选 CNN(ImageNet 预训练)
    • VGG16/ResNet50+FPN 等
    • 输出一组多尺度特征图 {C2,C3,C4,C5}(stride=4,8,16,32)
    • 若无 FPN,只用末尾 conv5(C5, stride=16)

  1. Region Proposal Network(RPN)——“生成候选框”
    ③ 在特征图上铺 Anchor
    • 3 尺度 × 3 长宽比 = 9 anchor/像素
      ④ 3×3 conv 滑窗 → 两条 1×1 兄弟分支
    • objectness 分类(2k 分数):判断 anchor 是否包含物体
    • bbox 回归(4k 偏移):Δx,Δy,Δw,Δh
      ⑤ 采样 256 个 anchor/图(pos:neg ≈ 1:3)
      ⑥ 计算 RPN 损失
    • 分类:二值交叉熵 L_cls^RPN
    • 回归:Smooth-L1,仅对正样本 L_reg^RPN
    • 总损失 L_RPN = L_cls^RPN + λ·L_reg^RPN
      ⑦ 生成约 20k 框 → 按分数排序 → Top-k+NMS → 300 个候选区域 RoI

  1. RoI Head(检测头)——“精细分类+二次回归”
    ⑧ RoI Align / RoI Pool
    • 把 300 个候选框映射到特征图 → 统一 7×7(或 14×14)网格
    • 采样点用双线性插值(Align 版消除量化误差)
      ⑨ 两条并行全连接分支(共享 fc)
    • 分类:Softmax 输出 N+1 类(含背景)
    • 回归:再一次 bbox 精修(Δx,Δy,Δw,Δh)
      ⑩ 采样 512 RoIs/图(pos:neg ≈ 1:3,IoU≥0.5 为正)
      ⑪ 计算 Fast R-CNN 损失
    • 分类:多类交叉熵 L_cls^RCNN
    • 回归:Smooth-L1 L_reg^RCNN
    • 总损失 L_RCNN = L_cls^RCNN + λ·L_reg^RCNN

  1. 训练与推理差异
    ⑫ 训练阶段
    • 端到端联合训练:Backbone + RPN + RoI Head 三段损失反向传播
    • 总损失 L = L_RPN + L_RCNN
      ⑬ 推理阶段
    • 同样流程,但无需采样/损失;RoI Head 输出 300 框后 → 再做一次 NMS → 保留高置信度结果

  1. 可选增强(现代实现常用)
  • FPN:把 {C2,C3,C4,C5} → {P2,P3,P4,P5,P6},RPN 与 RoI Head 都在多尺度上工作,小目标 AP 提升明显
  • ResNet-FPN + GroupNorm / Deformable Conv / Cascade 级联 head 等
  • 数据:多尺度训练/测试、OHEM、在线难例挖掘
http://www.jsqmd.com/news/63141/

相关文章:

  • FEM/BDC Test Platform for BMW Key Programmer – Test F20 F30 F35 X5 X6 I3 Without Gearbox Plug
  • 春招准备之MyBatis框架篇 - 详解
  • 上海助听器验配哪家好?2025 年12月权威机构推荐报告:从资质核验到场景适配的全维度选择策略
  • 使用fail2ban屏蔽LINUX恶意暴力破解密码
  • 对接墨西哥股票市场 k线图表数据klinechart 数据源API
  • 代码随想录Day28_贪心2
  • 10412_基于Springboot的员工绩效管理系统
  • NFL如何用统一数据平台提升比赛与体验
  • MAF快速入门(1)化繁为简的Agent创建范式
  • CDN 迁移至 EdgeOne 工具使用指南
  • ssh连接错误:WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! - Hello
  • 20251205 - USPD 攻击事件:初始化缺失露破绽,黑客潜伏多日终得手
  • 每日反思(2025年12月5日)
  • DEBIAN 12.6手动安装LNMP环境记录
  • 如何将 iPhone 或 iPad 备份移至外置硬盘
  • 联想小新Pad Studio平板重装国际版系统教程(TB351FU)
  • Linux指定端口连接Redis
  • CSDN博客终于搬家至博客园了!
  • Linux 分页显示
  • 深入解析:AUTOACT论文翻译
  • Nacos 全方位学习笔记
  • Http 客户端 Feign 学习笔记
  • Gemini 2.5 Flash / Nano Banana 系统提示词泄露:全文解读+安全隐患分析
  • S6 All System OBD Scanner: 28 Resets (IMMO/BMS/TPMS/ABS) + Lifetime Free Scans
  • 第五十六篇
  • Linux中级のSSH远程连接
  • Qt C++ 软件开发工程师面试题 - 教程
  • 06 前后端分离的架构
  • C 语言 Day02
  • LLL格基约简算法(2)