当前位置: 首页 > news >正文

上海交通大学破解声音分离与提取的核心难题

上海交通大学破解声音分离与提取的核心难题



论文标题USE: A Unified Model for Universal Sound Separation and Extraction

作者团队:上海交通大学、南京大学等
发布时间:2025 年 12 月 24 日
论文链接:https://arxiv.org/pdf/2512.21215

Github 地址

大模型实验室 Lab4AI 论文阅读

✨ 研究背景

在复杂的声学环境下,传统的声音分离(SS)技术往往无法处理未知数量的声源。

而目标声音提取(TSE)技术虽然能定向取音,却高度依赖高质量的外部指令(如一段参考音频或文字),一旦指令模糊便难以工作。

✨ 研究内容

上海交通大学团队提出了 USE 统一模型。该模型由两个核心部分组成:

  • ✔️EDA 吸引子网络:负责“自主思考”,自动推断混合声音的数量并捕捉每一个独立声源。
  • ✔️多模态线索网络:负责“理解指令”,能够同时识别文字、视频或声音标签等不同形式的提示信息。
  • ✔️ 通过创新的联合训练策略,模型让 AI 能够根据场景灵活切换:既能“全自动分离”所有声音,也能“按需提取”特定目标。

✨ 核心贡献

  • ✔️ 提出 USE:旨在协同结合 SS 和 TSE 任务,以克服各自的局限性。
  • ✔️ 性能提升:在 SS 任务上相比基准模型提升了 1.4dB,目标提取准确率高达 86%。
  • ✔️ 极高稳健性:即便在提示信息低质量或缺失的情况下,模型依然能保持稳定的处理性能。
  • ✔️ 高效推理性能:推理计算量随声源数线性增长,即使处理 6 个声源,计算量仍低于 30GFLOPS。

这项成果,不仅为自动驾驶(识别警笛声)、视障辅助(环境音解析)等领域提供了技术支撑,更让 AI 在复杂现实世界中的“听力”水平迈上了一个大台阶。

http://www.jsqmd.com/news/246403/

相关文章:

  • 恋活游戏增强补丁完全指南:7步解锁完整游戏体验
  • 麦橘超然Flux控制台使用总结,值得推荐的5个理由
  • HeyGem + 科哥定制版:比原版更好用的细节揭秘
  • Z-Image-Turbo提示词技巧:这样写才能生成高质量图像
  • 单麦语音降噪新选择|FRCRN-16k镜像一键推理实战
  • 企业级应用:DCT-Net在社交平台头像生成中的落地实践
  • 对比传统TTS:VibeVoice在长对话中的优势太明显
  • 告别密码焦虑!开源密码神器 password-XL:安全、美观、全能的私有密码管家
  • Multisim元器件图标大全:高效使用策略系统学习
  • 2025年度AI编程Prompt排行榜
  • GTA5游戏模组重构革新:从技术债务到架构优化
  • Avogadro 2分子编辑器:打造专业级分子建模与可视化体验
  • 手把手教程:基于电感的低通滤波器设计
  • YOLOv8实战:智能家居宠物监控系统
  • GPT-OSS-20B多模态应用:云端GPU免调试,设计师友好
  • 为什么选择端点(陕西)科技有限公司的系统?
  • 利用STM32 HAL库快速配置24l01话筒操作指南
  • 客服对话分析:如何用ASR镜像快速处理大量通话录音
  • NotaGen应用开发:集成到DAW工作流案例
  • STM32CubeMX教程:工业电机控制配置实战案例
  • 文档处理技术解析:双边滤波在去噪中的优势
  • unet人像卡通化输出模糊?高清渲染参数设置技巧分享
  • 用Qwen-Image生成带标语的广告图,效果惊艳
  • 2024年ESWA SCI1区TOP,基于自适应模糊惩罚的多约束无人机路径规划状态转移算法,深度解析+性能实测
  • 从0开始学verl:快速掌握HybridFlow论文开源实现
  • HeyGem实测体验:上传音频就能生成专业数字人
  • JLink接口定义与SWD模式对比核心要点
  • DeepSeek-R1-Distill-Qwen-1.5B法律文书应用:F1提升12%落地实操
  • 小白也能懂:Qwen3-4B大模型快速上手与场景应用
  • Qwen1.5-0.5B-Chat成本优化:低资源环境部署成功案例