当前位置：首页 > news >正文

大型语言模型的 MOE 和 MOA

news 2026/3/31 9:22:15

原文：towardsdatascience.com/moe-moa-for-large-language-models-c1cafeffd6a5?source=collection_archive---------8-----------------------#2024-07-16

寻求专家小组的建议

https://medium.com/@rahulvir?source=post_page---byline--c1cafeffd6a5--------------------------------https://towardsdatascience.com/?source=post_page---byline--c1cafeffd6a5-------------------------------- Rahul Vir

·发表于 Towards Data Science ·阅读时间：4 分钟·2024 年 7 月 16 日

–

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/16d3e9edea3d8545cbef99ac81077d6d.png

图片由作者提供（AI 生成 leonardo.ai）

大型语言模型（LLMs）无疑已经掀起了科技行业的风暴。它们的迅猛崛起得益于来自维基百科、网页、书籍、大量研究论文，以及我们喜爱的社交媒体平台的用户内容的大型数据集。这些数据和计算资源密集型的模型一直在热切地整合来自音频和视频库的多模态数据，并且已经使用了成千上万的英伟达 GPU，进行数月的训练，以打造最先进的（SOTA）模型。这一切让我们不禁思考，这种指数级增长是否能够持续下去。

这些大型语言模型面临的挑战是多方面的，但让我们在此探讨其中的一些。

成本与可扩展性：更大的模型在训练和部署过程中可能需要数千万美元，这成为了日常应用中广泛采用的障碍。（参见训练 GPT-4 的成本）
训练数据饱和：公开可用的数据集很快就会耗尽，可能需要依赖缓慢生成的用户内容。只有那些拥有稳定新内容来源的公司和机构，才能够生成进一步的改进。
幻觉：生成虚假且无根据信息的模型将成为一种障碍，因为用户在使用这些信息进行敏感应用之前，期望从权威来源获得验证。
探索未知：LLMs 现在被用于超出其原始目的的应用。例如，LLMs 在游戏玩法、科学发现和气候建模方面展现了极大的能力。我们将需要新的方法来解决这些复杂情况。

在我们开始过于担心未来之前，先来看一下 AI 研究人员如何不懈努力以确保持续进展。Mixture-of-Experts（MoE）和 Mixture-of-Agents（MoA）的创新表明，希望就在眼前。

首次引入于 2017 年，Mixture-of-Experts技术表明，多个专家和一个能够选择稀疏专家的门控网络能够以更低的计算成本产生显著改善的结果。门控决策使得可以关闭网络的大部分部分，从而启用条件计算，并且专门化提高了语言建模和机器翻译任务的性能。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/076aab63ab3201d9a51a7913193f052f.png

来源：来自极大规模神经网络的 MoE 层

上图展示了 Mixture-of-Experts 层如何被集成到一个递归神经网络中。门控层仅激活两个专家来处理任务，并随后将它们的输出合并。

尽管这一点已经在一些选定的基准上得到了验证，但条件计算为我们提供了一个途径，可以在不依赖日益增大的模型规模的情况下看到持续的改进。

受到 MOE 的启发，Mixture-of-Agents技术利用多个 LLM 来改善结果。问题通过多个 LLMs（即代理）进行处理，这些代理在每个阶段增强结果，作者已经证明，与更大的 SOTA 模型相比，这种方法能够用更小的模型产生更好的结果。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e010a39fddb47fcbc620ad668c47e232.png

来源：Mixture-of-Agents 增强了大语言模型的能力 | 许可

该图展示了 4 个 Mixture-of-Agents 层，每个层中有 3 个代理。为每一层选择合适的 LLMs 非常重要，以确保适当的协作并产生高质量的响应。(来源)

MOA 依赖于这样一个事实：LLMs 之间的协作能产生更好的输出，因为它们能够结合其他模型的响应。LLMs 的角色分为生成多样输出的提议者和可以将其结合起来生成高质量响应的聚合器。多阶段方法可能会增加“首次令牌时间”（TTFT），因此需要开发缓解方法使其适用于广泛的应用。

MOE 和 MOA 具有相似的基础元素，但表现不同。MOE 基于选择一组专家来完成任务的概念，门控网络的任务是选择合适的专家集。MOA 则依赖于团队在前一团队工作的基础上进行建设，并在每个阶段改进结果。

MOE 和 MOA 的创新开辟了一条创新路径，在这条路径上，专门化的组件或模型的组合通过合作和信息交流，能够持续提供更好的结果，即使在模型参数和训练数据集的线性扩展不再简单时。

尽管我们只有回顾时才能知道大语言模型（LLM）创新是否能持久，但我一直在关注该领域的研究以获取见解。从各大高校和研究机构的成果来看，我对未来的进展非常看好。我确实感到，我们正处于新能力和新应用的“热身”阶段，这些将彻底改变我们的生活。我们不知道它们是什么，但可以相当确定，未来的日子不会让我们失望。

“我们往往高估技术在短期内的影响，而低估它在长期内的影响。” - 阿马拉定律

参考文献

[1] Wang, J., Wang, J., Athiwaratkun, B., Zhang, C., & Zou, J. (2024). 代理混合体增强大语言模型能力。arXiv [预印本]。arxiv.org/abs/2406.04692

[2] Shazeer, N., Mirhoseini, A., Maziarz, K., Davis, A., Le, Q., Hinton, G., & Dean, J. (2017). 极其庞大的神经网络：稀疏门控专家混合层。arXiv 预印本 arXiv:1701.06538.

查看全文

http://www.jsqmd.com/news/339851/

YOLO26涨点改进 | 独家创新，特征融合涨点改进篇 | TGRS 2025 | 引入ATEM仿射变换融合增强模块，含多种创新改进点，对边缘和纹理信息进行自适应增强，提升小目标和弱目标检测能力

AI模型推理延迟突增？架构师教你：模型轻量化+缓存优化应急响应技巧

解锁更多编曲玩法，AI编曲软件为原创音乐人补充歌曲创作思路

Claude, Cursor, Aider, Copilot，AI编程助手该选哪个？

AI编曲软件激发歌曲创作灵感，原创音乐人轻松跨越思路障碍

深蓝海域中标大型机电企业大模型知识工程平台项目

分发安卓证书在线生成：一键搞定应用签名，安全便捷有保障

大数据领域 Hive 的监控与调优策略

老板必须盯的5个生产指标，90%的工厂一个都没盯对！

网络流量监控神器， Wireshark看着太累了

ubuntu 新建文件夹软连接

面试-Tokenizer训练

一文理清好人事管理的底层思维是什么

绿联科技冲刺港股：9个月营收64亿利润4.7亿绿联管理与和顺四号共套现近4亿

大数据平台中Eureka的多数据中心部署方案

iOS 27 曝光！折叠屏、AI医生、Siri整容……看完我只想说：苹果这次拼了！

基于数万次真机评测，RoboChallenge 首份年度报告发布

基于Springboot健身房管理系统【附源码+文档】

大坝、隧道深部位移监测节段式位移计系统组网核心要求是什么？

复杂超深基坑环境监测难，不受天气人工影响且精确度高，自动化监测优势何在？

基于SpringBoot的多媒体信息共享平台毕业设计

展厅迎宾接待机器人技术深度解析与主流产品选型指南 - 智造出海

2026年维保服务公司品牌综合评测与选型指南 - 2026年企业推荐榜

实用指南：Python文件反编译，轻松找回自己的源码

谷歌太壕了！编程Agent大招至简：开源且免费，百万上下文、多模态、MCP全支持

一省之精，诚意可鉴：「省酒·省省酱」初品体验报告

GRR-RIPPER木工推料器，美国发明专利正在发起亚马逊站内侵权投诉！（US10011037B2）

15年前，小沈阳一个晚上爆红年赚上亿，如今却“销声匿迹”？

普推知产：商标申请注册怎样风险低一些?

普推知产：申请注册商标注意不规范汉字字形！

寻求专家小组的建议

相关文章：