当前位置: 首页 > news >正文

机器学习周报三十六

摘要

本周阅读了一篇关于空间转换器的论文,虽然论文只是在早期的操作,但是也可以是一种轻量化的特征抽取模型。对我的实验有一定的启发。

Abstract

This week, I read a paper on spatial transformers. Although the paper is only in its early stages of development, it can still serve as a lightweight feature extraction model. It provides some inspiration for my experiments.

1 空间转换器

  • 背景

图像识别任务的理想是把物体的特征提取出来,不管是物体经过旋转、缩放等,CNN中的局部最大池化可以提取特征,但是尺寸太小了,比如2 × 2 2\times 22×2个像素大小。需要堆叠很多层池化才能捕捉到较大的特征不变性。

空间转换器模块是一种动态机制,可以通过为每个输入样本生成适当的转换来主动地空间转换图像(或特征图)。然后在整个特征图上执行转换(非局部),可以包括缩放、裁剪、旋转以及非刚性变形。这使得包含空间转换器的网络不仅可以选择图像中最相关(注意力)的区域,还可以将这些区域转换为规范的、预期的姿势,以简化后续层的识别。值得注意的是,空间转换器可以使用标准反向传播进行训练,允许对它们注入的模型进行端到端训练。

  • 空间转换器

参数预测:一个小型的神经网络,接受特征图U的输入,然后输出要对该特征进行空间变换的参数η \etaη。不同的任务有不同的参数,由任务决定,但是值由模型训练。

网格生成器:创建一个规则网络G = G i G={G_i}G=Gi,每一个G i = ( x i t , y i t ) G_i=(x_i^t,y_i^t)Gi=(xit,yit)代表输出图V上的一个目标坐标;变换操作T,将V中的每一个点,映射到特征图U上,得到一组源坐标( x i s , y i s ) (x_i^s,y_i^s)(xis,yis),然后执行对应的变换T,例如对于2D仿射变换,计算方式:( x i s , y i s ) = η ∗ ( x i t , y i t ) (x_i^s,y_i^s)^=\eta*(x_i^t,y_i^t)(xis,yis)=η(xit,yit)。当前的输出的特征图V就是骨架。

可微分采样:输出特征图V上的每一个位置( x i t , y i t ) (x_i^t,y_i^t)(xit,yit),根据源坐标( x i s , y i s ) (x_i^s,y_i^s)(xis,yis),在U上去颜色值,采样双线性插值对周围四个像素点取平均。

2 应用

修改模型任务目标为残差,原始图片img1和目标图片img2之间只有文本不一致,背景部分是一致的,那么预测残差部分可以降低预测全图的复杂度。

总损失

注意力图

img_attn
text_attn
编辑效果
result
img1
img2
一张img1被划分为256个patch,那么就会有256个位置指令(pos_inst),修改为残差之后,背景相同的区域不应该再使用位置指令随机自回归了,这样会浪费计算,而且随机顺序没有控制会导致模型大多数学习到的顺序都不相同(256!),可能影响模型收敛。

那么就需要一个变换器来指导模型对哪些区域进行随机自回归预测是有效的。

总结

后续将会把空间转换器应用到实验中监督模型的生成,输入[rec2,img1]到一个轻量级的GPT模型f,输出区域权重,然后再对选定的区域应用随机自回归,这样模型的泛化能力和收敛速度都会在理论上有所提升。

http://www.jsqmd.com/news/482819/

相关文章:

  • Phi-4-reasoning-vision-15B部署案例:curl health返回200但Web页面空白的CSS资源加载排查
  • 基于大语言模型的毕设实战:AI辅助开发全流程避坑指南
  • 精准掌控:MouseTester开源鼠标性能分析工具全解析
  • 手把手教你解决Moxa UPort1150在Linux下的驱动加载失败问题
  • 避开Keil5软件仿真的那些坑:STM32芯片兼容性与调试技巧
  • 解决方案:4个步骤实现智能高效的抖音直播自动录制系统
  • RMBG-2.0效果实测:复杂背景中人物发丝分割精度达99.2%(CEILab测试集)
  • windows7操作知识点详解
  • 【Android】Android 车机 + AI Agent 有没有搞头?
  • 大彩串口屏控件交互实战:如何用Lua脚本精准捕获按钮、文本和菜单事件
  • B 端拓客核验难题:精准度与成本,到底该怎么平衡?今天给大家介绍一下氪迹科技法人股东号码核验提效工具
  • SQL漏洞注入——sqlmap基础指令教学
  • Phi-3-vision-128k-instruct部署教程:vLLM服务健康检查与Chainlit联调
  • 在命令行中编译cpp文件
  • CAN总线节能秘籍:用TJA1145实现智能部分网络(Partial Networking)配置
  • 【毕设】基于STM32F103C8T6与MAX30102的心率血氧手表设计与实现
  • 使用DAMOYOLO-S与AI Agent构建自动化内容审核系统
  • Audio Pixel StudioGPU算力适配:Jetson Nano边缘设备部署可行性验证
  • jEasyUI 树形菜单加载父/子节点详解
  • 避开溶出曲线查询的5个坑:从FDA到日本蓝皮书的实战经验分享
  • 深入解析 tzst:一个基于 Zstandard 的现代 Python 归档库
  • DDU显卡驱动深度清理技术指南:从故障诊断到系统优化
  • 革新Mod管理体验:KKManager全攻略——从混乱到秩序的开源解决方案
  • 2026年03月15日 星期日 22:44:23 +0800
  • CTF实战:利用JWT弱密钥漏洞攻防解析
  • 3步构建个人健康数据自动化系统:Zepp Life同步工具全指南
  • Gofile下载工具深度实践指南:从问题解决到效能优化
  • 魔兽争霸III开源优化工具链:跨平台性能调优完全指南
  • 智能客服系统对接实战:从架构设计到生产环境避坑指南
  • 【实证分析】上市公司企业可持续发展绩效数据-含代码(2009-2023年)