当前位置: 首页 > news >正文

传音TEX AI团队AI消除算法技术成果入选ECCV 2026

传音控股TEX AI团队联合上海交通大学最新产学研成果“AI消除算法”,近日成功被计算机视觉领域国际顶级会议ECCV 2026( European Conference on Computer Vision)接收。ECCV与CVPR、ICCV长期被认为是计算机视觉领域最具影响力的国际顶级学术会议之一,每两年举办一届。本届会议共有10,473篇论文进入评审流程,最终2,883篇论文被接收,接收率为27.5%。

该研究成果聚焦智能手机影像领域中的重要AI能力——AI目标消除(AI Object Removal),突破传统扩散模型推理效率瓶颈,在保持高质量生成效果的同时,大幅降低模型推理成本,为生成式AI技术在移动终端影像场景中的规模化应用提供了新的技术路径。未来,该技术将应用于传音手机图库AI消除能力以及智能助手AI修图产品,为全球用户带来更加自然、高效、智能的影像编辑体验。

从“多步生成”到“单步推理”,突破AI消除效率瓶颈

随着智能手机影像能力不断升级,用户对于照片编辑的要求也从简单的滤镜、美化,提高到基于生成式AI的智能编辑,AI正在重新定义移动影像体验。其中,AI目标消除作为生成式影像的重要应用方向,可以帮助用户快速去除照片中的路人、杂物、文字等干扰内容,并自动恢复自然背景。当前基于扩散模型的生成式编辑方法虽然具备优秀的视觉生成能力,但通常依赖多轮迭代去噪过程,推理耗时较长,难以满足手机影像场景对于实时交互、快速响应和低计算成本的需求。

针对上述挑战,TEX AI算法团队联合上海交通大学开展深入研究,探索如何将先进生成式AI技术转化为适用于智能终端场景的高效算法能力。团队创新性地提出OSOR(One-Step Object Removal)单步扩散目标消除算法框架,将复杂的多步扩散生成过程压缩为一次前向推理,实现了高质量与高效率兼顾的AI消除能力。相比传统扩散式消除方案,该技术实现了显著的速度提升,在多个测试场景中达到4倍至30倍推理加速,同时保持优异的图像生成质量。在1024×1024分辨率图像处理任务中,可在单张A100 GPU上实现1秒以内完成推理。这一突破进一步推动生成式AI影像技术从“高质量生成”向“高效率应用”发展,为未来智能手机中的实时AI编辑提供技术基础。

图示:OSOR与现有方法推理速度和效果对比。OSOR能够有效消除目标物体及其关联视觉影响(如阴影),在保持高质量生成效果的同时,相比次优方法ObjectClear实现10.6倍推理加速。单张1024×1024分辨率图像可在单张A100 GPU上1秒内完成处理。该效果对比基于六个公开测试基准综合得出。

面向真实用户场景,让AI消除更加简单可靠

在真实手机影像场景中,用户通常不会进行精细化的目标标注,而是通过简单涂抹、圈选等方式选择希望移除的对象。因此,如何适应用户输入的不精准性,并在复杂拍摄环境下实现自然恢复,成为AI消除技术走向产品化的重要挑战。与此同时,真实照片中的目标物体往往与周围环境存在复杂的视觉关联,例如阴影、反射、倒影等,仅对目标区域进行简单移除容易造成背景不自然、画面违和等问题。

针对这些实际使用难点,团队研究提出了面向真实交互场景优化的鲁棒性AI消除方案。通过引入轻量化Alpha区域感知机制,模型能够智能理解用户选定区域与目标物体之间的关系,自动推断目标主体及其关联影响范围。即使用户圈选区域存在偏差,模型仍能够完成更完整、更精准的目标移除,并恢复自然一致的背景环境。此外,团队针对真实目标消除任务构建了系统化的数据生成与验证流程,建立包含28万组高质量目标消除样本的数据集,为模型学习复杂场景理解能力提供了可靠的数据支撑。

这些技术创新推动AI消除能力从传统的“删除目标”,进一步升级为基于场景理解的“智能重建”,让用户能够以更简单的操作获得更加自然真实的照片编辑效果。

图示:模型能够基于用户提供的不完整目标掩码,智能推理待消除目标及其附带阴影等视觉影响区域,实现完整区域识别,并完成自然背景恢复。

此次入选ECCV 2026,是传音在计算机视觉领域的又一重要成果。长期以来,传音持续关注视觉智能、生成式AI、多模态交互等前沿方向的研究,并致力于将这些能力转化为可落地的终端产品体验,逐步打通从基础研究、技术研发到产品开发的创新链路。

基于此次研究成果,图库AI消除与智能助手AI修图能力将率先在传音手机产品中落地,帮助用户快速去除照片中的干扰元素,实现更自然的影像优化,同时结合多模态理解能力,提升照片编辑的智能化与自动化水平。未来,传音将继续以用户真实需求为出发点,加速AI技术在智能终端场景中的创新应用,让更多用户享受到更智能、高效、自然的影像体验。

http://www.jsqmd.com/news/1109426/

相关文章:

  • 基于74HC32与PIC18F97J60的2x2矩阵键盘设计
  • QMcDump:终极QQ音乐加密文件解码工具完整指南
  • 米联客F31-4EV(B) Linux开机测试完整流程(零基础手把手)
  • 基于TPAFE0808和MK51DN512的多通道信号采集系统设计
  • NVIDIA A5000与STM32L442KC构建安全边缘计算方案
  • 低成本条码采集系统设计与实现:基于LV30和PIC18F4550
  • League Akari 1.5.0:英雄联盟LCU工具箱完整使用教程,快速提升游戏效率
  • 基于Si4732与PIC18F2525的高保真收音机设计
  • AI工具如何解决本科毕业论文写作三大痛点
  • 工业级房价预测实战:可解释回归建模全流程复盘
  • STM32G431KB与LV3296嵌入式数据采集系统设计
  • 中国车牌生成器:快速生成逼真车牌图像的终极解决方案
  • 基于PIC18F2620的RGB灯带控制系统设计与实现
  • 告别平台限制:3分钟学会用qmcdump解锁QQ音乐加密文件
  • 基于Si4731与STM32的数字收音机设计与实现
  • RPG Maker游戏解密终极指南:3步轻松提取加密资源
  • STM32与Si4731打造低成本可编程收音机系统
  • MuleSoft+LLM企业级AI编排:打通系统孤岛与语义断层
  • STM32F765ZI与BMI270的6DoF IMU开发指南
  • 2026海南省黄金回收白银回收铂金回收旧料回收怎么选?五家高实价铂金白银线下门店测评清单 + 联系方式
  • PIC18F86J16实现DC-DC降压电源设计与优化
  • ICM-42605与PIC18LF4515实现运动追踪系统设计
  • 基于Si4731与PIC18F2585的数字收音机系统设计与实现
  • 5分钟掌握B站视频转换技巧:m4s-converter完全指南
  • Sqribble文档流水线:模板驱动的结构化PDF生成系统
  • DroidRun:基于AI视觉大模型的Android自动化测试与RPA实践
  • Python处理超大CSV文件的内存崩溃与性能优化
  • hAL-TIM
  • 炉石传说脚本:5分钟掌握自动化游戏秘籍,解放你的双手!
  • 暗黑破坏神2存档编辑器:5分钟学会修改角色与装备的完整指南