当前位置: 首页 > news >正文

Qwen和DS相关八股

Qwen2

模型结构

decoder only

特点

(1)旋转编码

(2)GQA(训练加速)GroupedQueryAttention

(3)RMSNorm(训练加速)

RMSNorm VS LayerNorm

方差和均方根

Qwen3

主要在2的基础上增加了MOE结构

DeepSeek

模型结构

特点

(1) MLA(模型加速)

具体计算

KV联合压缩

Q压缩

(2)MOE代替FFN输出(加速)

(3)多标记预测(Multi-token-prediction MTP)(加速)

训练:

推理:

http://www.jsqmd.com/news/478118/

相关文章:

  • MusePublic Art Studio开源镜像部署:12GB显存下SDXL高清渲染实战
  • HY-Motion 1.0保姆级教学:从镜像拉取到http://localhost:7860实时预览
  • Nanbeige4.1-3B开源镜像部署案例:CentOS+CUDA 11.8环境3步完成GPU加速推理
  • Creo学习随笔1
  • “手工打造 至尊经典”:普通程序员的终极出路?
  • Qwen2.5-1.5B多轮对话能力展示:连续追问5轮仍保持上下文准确性的案例
  • Flowise部署教程:WSL2环境下Windows快速启动Flowise服务
  • 如何优化ComfyUI加载时间?模型预加载部署技巧
  • 小龙虾(OpenClaw)使用教程详解
  • PP-DocLayoutV3低成本GPU算力方案:A10单卡支撑10并发文档分析服务
  • 【数字孪生与仿真技术】16:数字线程实战:打通设计-制造-运维数据孤岛(OPC UA/MQTT+IIoT网关+完整代码)
  • 服饰结构可视化新标准:软萌拆拆屋生成可印刷级拆解PDF方案
  • Ollama部署本地大模型实操:DeepSeek-R1-Distill-Qwen-7B 7B版在Jetson Orin边缘设备部署尝试
  • 滑动窗口(水果成篮)(5)
  • 【简记】vbox虚拟机放开nat域名解析支持宿主机专用网络域名解析
  • Java高频面试题(三): IO与NIO核心原理精解
  • LiuJuan20260223Zimage惊艳案例分享:从单关键词到复杂描述的LiuJuan人像生成进阶实践
  • MySQL 数据类型核心指南:选型、实战与避坑
  • 力扣第73题:柱形图中最大的矩形
  • 7. AI面试题之 区别小结
  • InstructPix2Pix惊艳修图作品分享:保留构图前提下的精准语义编辑
  • JVM常见命令记录
  • 国家非物质文化遗产代表性目录、传承人数据
  • YOLOv10改进策略【卷积层】| ICCV 2025 UniConvNet 感受野聚合器RFA 小核组合扩ERF + AGD保持提表征,兼顾精度与效率
  • ARM处理器运行模式(ARM处理器架构模型——内核工作模式)
  • 腾视科技重磅发布全场景无人叉车及智能调度系统解决方案,开启工业物流智能新时代
  • cv_resnet18_ocr-detection模型部署与使用:完整流程详解
  • 基于华为云码道 + 高德地图MCP Server快速搭建行程规划助手
  • ARM存储系统概述与数据类型(ARM处理器架构模型——存储系统,上篇)
  • Android功耗系列专题理论之十三:MTK平台待机功耗问题分析方法