当前位置：首页 > news >正文

上海交通大学破解声音分离与提取的核心难题

news 2026/3/27 3:13:06

上海交通大学破解声音分离与提取的核心难题

论文标题：USE: A Unified Model for Universal Sound Separation and Extraction

作者团队：上海交通大学、南京大学等
发布时间：2025 年 12 月 24 日
论文链接：https://arxiv.org/pdf/2512.21215

Github 地址

大模型实验室 Lab4AI 论文阅读

✨ 研究背景

在复杂的声学环境下，传统的声音分离（SS）技术往往无法处理未知数量的声源。

而目标声音提取（TSE）技术虽然能定向取音，却高度依赖高质量的外部指令（如一段参考音频或文字），一旦指令模糊便难以工作。

✨ 研究内容

上海交通大学团队提出了 USE 统一模型。该模型由两个核心部分组成：

✔️EDA 吸引子网络：负责“自主思考”，自动推断混合声音的数量并捕捉每一个独立声源。
✔️多模态线索网络：负责“理解指令”，能够同时识别文字、视频或声音标签等不同形式的提示信息。
✔️ 通过创新的联合训练策略，模型让 AI 能够根据场景灵活切换：既能“全自动分离”所有声音，也能“按需提取”特定目标。

✨ 核心贡献

✔️ 提出 USE：旨在协同结合 SS 和 TSE 任务，以克服各自的局限性。
✔️ 性能提升：在 SS 任务上相比基准模型提升了 1.4dB，目标提取准确率高达 86%。
✔️ 极高稳健性：即便在提示信息低质量或缺失的情况下，模型依然能保持稳定的处理性能。
✔️ 高效推理性能：推理计算量随声源数线性增长，即使处理 6 个声源，计算量仍低于 30GFLOPS。

这项成果，不仅为自动驾驶（识别警笛声）、视障辅助（环境音解析）等领域提供了技术支撑，更让 AI 在复杂现实世界中的“听力”水平迈上了一个大台阶。

查看全文

http://www.jsqmd.com/news/246403/

恋活游戏增强补丁完全指南：7步解锁完整游戏体验

麦橘超然Flux控制台使用总结，值得推荐的5个理由

HeyGem + 科哥定制版：比原版更好用的细节揭秘

Z-Image-Turbo提示词技巧：这样写才能生成高质量图像

单麦语音降噪新选择｜FRCRN-16k镜像一键推理实战

企业级应用：DCT-Net在社交平台头像生成中的落地实践

对比传统TTS：VibeVoice在长对话中的优势太明显

告别密码焦虑！开源密码神器 password-XL：安全、美观、全能的私有密码管家

Multisim元器件图标大全：高效使用策略系统学习

2025年度AI编程Prompt排行榜

GTA5游戏模组重构革新：从技术债务到架构优化

Avogadro 2分子编辑器：打造专业级分子建模与可视化体验

手把手教程：基于电感的低通滤波器设计

YOLOv8实战：智能家居宠物监控系统

GPT-OSS-20B多模态应用：云端GPU免调试，设计师友好

为什么选择端点（陕西）科技有限公司的系统？

利用STM32 HAL库快速配置24l01话筒操作指南

客服对话分析：如何用ASR镜像快速处理大量通话录音

NotaGen应用开发：集成到DAW工作流案例

STM32CubeMX教程：工业电机控制配置实战案例

文档处理技术解析：双边滤波在去噪中的优势

unet人像卡通化输出模糊？高清渲染参数设置技巧分享

用Qwen-Image生成带标语的广告图，效果惊艳

2024年ESWA SCI1区TOP，基于自适应模糊惩罚的多约束无人机路径规划状态转移算法，深度解析+性能实测

从0开始学verl：快速掌握HybridFlow论文开源实现

HeyGem实测体验：上传音频就能生成专业数字人

JLink接口定义与SWD模式对比核心要点

DeepSeek-R1-Distill-Qwen-1.5B法律文书应用：F1提升12%落地实操

小白也能懂：Qwen3-4B大模型快速上手与场景应用

Qwen1.5-0.5B-Chat成本优化：低资源环境部署成功案例

上海交通大学破解声音分离与提取的核心难题

✨ 研究背景

✨ 研究内容

✨ 核心贡献

相关文章：