当前位置：首页 > news >正文

大模型部署革命：Cornserve实现Any-to-Any模型3.81倍性能提升（值得收藏）

news 2026/4/11 1:12:51

Cornserve是首个面向Any-to-Any多模态模型的在线服务系统，通过"细胞"抽象和自动规划框架，将复杂模型智能拆解为独立组件，结合分布式运行时实现高效负载均衡。相比现有方案，最高可提升3.81倍吞吐量，降低5.79倍P99延迟，标志着大模型服务从"人工调优"迈向"自动规划"的新阶段。

在大模型迈向“全能”的时代，Any-to-Any 多模态模型正迅速崛起——它们不仅能理解文本、图像、视频、音频等多种输入，还能生成文本、图像、语音等任意组合的输出。然而，这类模型的复杂异构结构，让现有推理系统“不堪重负”。有没有一种方法，能像“乐高积木”一样灵活拆装这些模型，实现高效部署？

答案来了！来自密歇根大学、南加州大学与Cisco Research的团队，推出了全球首个面向通用 Any-to-Any 模型的在线服务系统——Cornserve。实验证明，Cornserve 相比现有方案，最高可提升 3.81 倍吞吐量，并将P99 尾延迟降低 5.79 倍。更关键的是，这一切无需人工干预，系统能自动“看模型+看负载”决定最优部署策略。

论文标题：Cornserve: Efficiently Serving Any-to-Any Multimodal Models
论文链接：https://arxiv.org/abs/2512.14098

核心看点

Cornserve首次实现了对Any-to-Any 多模态模型的通用、高效在线服务。这类模型由多模态编码器（如图像/音频编码器）、大语言模型（LLM）和多模态生成器（如扩散模型）等异构组件构成，不同请求会触发不同的计算路径，造成严重的请求类型异构性和计算扩展异构性。

Cornserve 的核心突破在于：提出了一套自动规划+分布式运行时的协同架构。其规划器（Planner）能根据模型结构和工作负载，智能决定是否以及如何将模型拆解（disaggregate）为独立组件，并以细胞（Cell）为单位进行资源分配；其分布式运行时则通过“记录-回放”机制动态路由请求，实现零控制开销的静态负载均衡。该系统已在 Qwen Omni、InternVL 3、Qwen-Image 等前沿模型上验证有效。

研究背景

当前主流的大模型服务系统，如vLLM或SGLang，主要针对纯文本或仅能输出文本的多模态大语言模型（MLLMs）；而图像/视频生成引擎如xDiT则专注于单一模态生成。这些“点方案”面对真正的 Any-to-Any 模型——即同时支持多模态输入与多模态输出的模型——显得力不从心。

问题根源在于两大异构性：一是请求与计算路径异构性，不同请求（如“图文输入 → 文本输出” vs “音视频输入 → 语音输出”）激活的组件和路径完全不同；二是计算扩展异构性，各组件（如 60 亿参数的视觉编码器 vs 17.5 亿参数的音频生成器）的计算吞吐差异巨大。若将它们“打包”成一个单体服务（Monolith），整体性能将被最慢组件拖累。

现有方案虽提出如Prefill–Decode(PD) 或Encode–Prefill–Decode(EPD) 等拆解策略，但这些策略是“一刀切”的，无法自适应模型和负载变化。因此，亟需一个自动化规划器，能在单体、拆解、或混合部署之间做出最优选择。

核心贡献

Cornserve 的创新体现在方法、理论与实证三个层面。

在方法上，团队提出了基于细胞（Cell）抽象的规划框架。一个 Cell 是一个固定大小（2 的幂次，如 1/2/4/8 GPU）的完整模型实例。规划器首先在离线阶段为每种 Cell 大小求解一个简化版的多商品网络设计问题（Multicommodity Network Design Problem），找出其最大吞吐能力。随后，面对任意 GPU 预算或吞吐目标，规划器只需像“拼凑零钱”一样，组合这些预计算好的高效 Cell，即可快速得到全局近似最优解。这种设计将原本 NP-Hard 的复杂问题，转化为高效的背包问题变种，时间复杂度从指数级降至对数级。

在系统实现上，Cornserve 设计了灵活的任务抽象（Task Abstraction）和记录-回放图调用（Record & Replay Graph Invocation）机制。开发者只需用 Python 编写模型逻辑，系统在运行时会先“模拟执行”（Record）以提取当前请求所需的计算子图，再将子图中的任务分发给对应组件执行（Replay）。这使得系统能天然支持任意复杂的控制流（如循环、分支），同时通过请求静态路由（Request-Static Routing）实现负载均衡——即根据规划器预设的流量分配比例，为每类请求静态选择路径，避免了查询队列长度等动态控制开销。实验显示，该方法相比动态负载均衡，吞吐量高出3.7 倍。

在实证成果上，Cornserve 在多种前沿模型上展现了卓越性能。对于Qwen 2.5 Omni，在 16 GPU 配置下，系统吞吐量达基线单体部署的3.81 倍，P99 延迟从 375.2 秒降至39.6 秒（降低 5.79 倍）。对于Qwen 3 Omni，单体部署因显存不足（OOM）根本无法运行，而 Cornserve 通过智能拆解成功完成服务。对于传统的 MLLM（如InternVL 3），Cornserve 也能自动选择最优策略——在 KV 缓存为瓶颈的负载下选择单体部署，在图像密集型负载下则混合拆解与单体实例，吞吐量超越所有手工配置的基线。

行业意义

Cornserve 的出现，标志着大模型服务正从“人工调优”迈向“自动规划”的新阶段。它不仅解决了 Any-to-Any 模型这一前沿领域的服务难题，其细胞抽象和混合部署思想也为整个 AI 推理基础设施提供了新范式。

在技术路线上，Cornserve 与训练领域的自动化并行框架（如Alpa、GSPMD）形成呼应，实现了“训练-推理”全链路的资源优化。在产业层面，该系统能显著降低多模态 AI 应用的部署门槛和计算成本，为智能客服、AIGC 内容工厂、具身智能等场景提供强大支撑。随着国家对算力基础设施（如“东数西算”）和绿色 AI（降低能耗）的重视，Cornserve 这类能最大化硬件利用率、提升单位算力产出的系统，无疑将成为推动产业智能化变革的关键引擎。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200%，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。