当前位置: 首页 > news >正文

2026年AI爆发:Qwen3.5与MiniMax M2.5混合注意力模型架构深度解析!

2026年,大模型厂商继续推出新模型。根据注意力机制(Attention)的设计差异,当前大模型的注意力范式主要分为三类:Hybrid(Linear+Full)、GQA和DSA。其中,Qwen3.5(2026年2月发布)是一款采用混合注意力路线的视觉语言模型;MiniMax M2.5(2026年2月发布)则是一款沿用GQA框架的大语言模型。本文主要介绍这两款模型的架构。

1 Qwen3.5

Qwen3.5系列模型作为原生视觉-语言模型,在结构上沿用了Qwen-Next的设计。其MoE版本采用混合注意力(Gated DeltaNet + Gated Attention)与MoE相结合,例如Qwen3.5 397B A17B;Dense版本则采用混合注意力(Gated DeltaNet + Gated Attention)与FFN相结合,例如Qwen3.5 27B。

整体特点:

  • Gated DeltaNet blocks与Gated Attention blocks比例为3:1

  • Gated Attention:

    ▪有一个输出门(gate用sigmoid控制),在attention输出之后、残差叠加之前进行缩放;

    ▪采用了QK归一化(zero-centered RMSNorm)

    ▪部分RoPE处理,通过参数:partial_rotary_factor控制

  • Gated DeltaNet,采用GDN论文形态,包含两个门控参数。

  • 主模型输出之后采用MTP(Multi-Token Prediction)。

1.1 Qwen3.5 397B A17B

高清图地址:https://github.com/CalvinXKY/InfraTech/tree/main/models/qwen3_5

模型结构描述:

  • 类型:带视觉编码器的因果语言模型

  • 上下文长度:原生支持 262,144,可扩展至最多 1,010,000 个 token。

  • 参数总量:共 397B,激活参数为 17B

  • 隐藏层维度:4096

  • Token 嵌入维度:248320(已填充)

  • 层数:60

    ▪隐藏层结构:15 * (3 * (Gated DeltaNet -> MoE) -> 1 * (Gated Attention -> MoE))

  • 语言模型输出维度:248320(已填充)

  • MTP:采用多步训练策略

Gated DeltaNet:

  • 线性注意力头数量:V 为 64,QK 为 16
  • 头维度:128

Gated Attention:

  • 注意力头数量:Q 为 32,KV 为 2
  • 头维度:256
  • 旋转位置嵌入维度:64

混合专家(MoE)

  • 专家总数:512
  • 激活专家数:10 个路由专家 + 1 个共享专家
  • 专家中间层维度:1024

相关资料

  • 整体介绍(官方博客)[1]
  • 模型配置文件[2]
  • Transformer模型定义[3]

1.2 Qwen3.5(Dense)

Dense版本采用混合注意力(Gated DeltaNet + Gated Attention)与FFN相结合,示例为Qwen3.5 27B。

高清图地址:https://github.com/CalvinXKY/InfraTech/tree/main/models/qwen3_5

模型结构描述

  • 类型:带视觉编码器的因果语言模型
  • 上下文长度:原生支持 262,144,可扩展至最多 1,010,000 个 token。
  • 参数量:27B
  • 隐藏层维度:5120
  • Token 嵌入维度:248320(Padded)
  • 层数:64
  • 隐藏层结构:16 × (3 × (Gated DeltaNet → FFN) -> 1 × (Gated Attention -> FFN))
  • 语言模型输出维度:248320(Padded)
  • MTP:采用多步训练

Gated DeltaNet:

  • 线性注意力头数量:V 为 48,QK 为 16
  • 头维度:128

Gated Attention:

  • 注意力头数量:Q 为 24,KV 为 4
  • 头维度:256
  • 旋转位置编码维度:64

前馈网络(FFN)

  • 中间层维度:17408

相关资料

  • 模型配置文件[4]
  • Transformer模型定义[5]
  • 模型卡片[6]

2 MiniMax M2.5

MiniMax-M2.5模型采用GQA + MoE结构,总参数量为229B,推理时激活的参数为10B。从M1到M2,MiniMax重新采用了Full Attention机制,M2.5的架构则与M2保持一致。支持序列长度200k。

效果:在SWE-Bench Verified、Multi-SWE-Bench和BrowseComp(含上下文管理)等评测中分别取得了80.2%、51.3%和76.3%的高分。

性能:SWE-Bench Verified评测的速度比M2.1快37%,与Claude Opus 4.6的速度相当。

2.1 整体架构

高清图地址:https://github.com/CalvinXKY/InfraTech/tree/main/models/minimax_m_2_5

架构特点

  • Attention模块:

    ▪采用partial rope计算位置编码

    ▪使用QK RMSNorm

    ▪GQA模式

  • MoE模块:均采用独立专家,单token仅8个专家计算

2026年AI行业最大的机会,毫无疑问就在应用层

字节跳动已有7个团队全速布局Agent

大模型岗位暴增69%,年薪破百万!

腾讯、京东、百度开放招聘技术岗,80%与AI相关……

如今,超过60%的企业都在推进AI产品落地,而真正能交付项目的大模型应用开发工程师**,**却极度稀缺!

落地AI应用绝对不是写几个prompt,调几个API就能搞定的,企业真正需要的,是能搞定这三项核心能力的人:

✅RAG:融入外部信息,修正模型输出,给模型装靠谱大脑

✅Agent智能体:让AI自主干活,通过工具调用(Tools)环境交互,多步推理完成复杂任务。比如做智能客服等等……

✅微调:针对特定任务优化,让模型适配业务

目前,脉脉上有超过1000家企业发布大模型相关岗位,人工智能岗平均月薪7.8w!实习生日薪高达4000!远超其他行业收入水平!

技术的稀缺性,才是你「值钱」的关键!

具备AI能力的程序员,比传统开发高出不止一截!有的人早就转行AI方向,拿到百万年薪!👇🏻👇🏻

AI浪潮,正在重构程序员的核心竞争力!现在入场,仍是最佳时机!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

⭐️从大模型微调到AI Agent智能体搭建

剖析AI技术的应用场景,用实战经验落地AI技术。从GPT到最火的开源模型,让你从容面对AI技术革新!

大模型微调

  • 掌握主流大模型(如DeepSeek、Qwen等)的微调技术,针对特定场景优化模型性能。

  • 学习如何利用领域数据(如制造、医药、金融等)进行模型定制,提升任务准确性和效率。

RAG应用开发

  • 深入理解检索增强生成(Retrieval-Augmented Generation, RAG)技术,构建高效的知识检索与生成系统。
  • 应用于垂类场景(如法律文档分析、医疗诊断辅助、金融报告生成等),实现精准信息提取与内容生成。

AI Agent智能体搭建

  • 学习如何设计和开发AI Agent,实现多任务协同、自主决策和复杂问题解决。
  • 构建垂类场景下的智能助手(如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等)。

如果你也有以下诉求:

快速链接产品/业务团队,参与前沿项目

构建技术壁垒,从竞争者中脱颖而出

避开35岁裁员危险期,顺利拿下高薪岗

迭代技术水平,延长未来20年的新职业发展!

……

那这节课你一定要来听!

因为,留给普通程序员的时间真的不多了!

立即扫码,即可免费预约

「AI技术原理 + 实战应用 + 职业发展

「大模型应用开发实战公开课」

👇👇

👍🏻还有靠谱的内推机会+直聘权益!!

完课后赠送:大模型应用案例集、AI商业落地白皮书

http://www.jsqmd.com/news/497660/

相关文章:

  • 重庆专业寻人机构实力推荐榜:找人公司/重庆企业背景调查/重庆信息调查/重庆债务找人/重庆商务调查/重庆失联亲友查找/选择指南 - 优质品牌商家
  • 2026年膜结构基坑封闭优质产品推荐榜:气膜厂家/气膜基坑/气膜建筑/气膜游乐场/ETFE 膜结构建筑/基坑气膜/选择指南 - 优质品牌商家
  • Python基础学习(2)——基本数据类型
  • polar-web部分中等题目
  • 算法:用哈希求最长连续序列
  • SpringBoot+Vue2.x+MQTT+TDengine3.x搭建物联网设备管理平台
  • 2026年高稳定手游联运平台系统推荐指南:搭建手游平台/游戏联运平台/游戏聚合发行系统/H5联运平台系统/手游平台sdk/选择指南 - 优质品牌商家
  • Django个人主页网站搭建全指南
  • ### 2. `isTransformResponse: true` 或不设置时(默认) 返回的是转换后的数据,通常是 `res.data` 的内容:
  • 列表推导式详解与实战应用
  • 基于springboot“茶见”在线商城设计与开发(源码+精品论文+答辩PPT等资料)
  • 第 18 篇 综合项目实战:基于 RK3568 的安卓智能门禁系统,全栈开发
  • 《我从达尔文那里学到的投资知识》
  • 力扣 hot100 滑动窗口最大值 单调双端队列 java 简单题解
  • 金融交易系统高可用测试指南:构建永不宕机的安全防线
  • SGI备份还原单文件版
  • 天地图中使用html2canvas问题
  • Zen Browser:基于 Firefox 的极简开源浏览器,隐私与速度兼得
  • Linux系统文件操作简介
  • OpenClaw 核心功能解析:一文让你彻底搞懂 OpenClaw
  • Win 32 API:初步了解与应用
  • 2026年SCI论文降AI率用什么工具?实测5款后选了这个
  • 4K型护套连接器ZE0703-09(250)参数
  • hello-agent task01打卡
  • PDF文件拆分, 不限制文件大小
  • 携程任我行礼品卡回收秒变现攻略 - 京顺回收
  • 任务栏标语图片
  • 加一 - 题目笔记
  • MySQL主键设计原则与自增ID的潜在问题分析
  • 自动化测试常用函数(元素的定位)