当前位置: 首页 > news >正文

DeepSeek新模型Model1曝光!或为V4内部代号

DeepSeek在GitHub上更新FlashMLA代码,一个名为 Model1 的模型引起了网友的注意。Model 1与V32作为不同的模型出现,在新代码的114个文件中有28处提到。

出品 | 51CTO技术栈(微信号:blog51cto)

DeepSeek R1一周年之际,DeepSeek一个神秘的新模型Model 1悄然在其Github库中现身。

近日,DeepSeek在GitHub上更新FlashMLA代码,一个名为 Model1 的模型引起了网友的注意。Model 1与V32作为不同的模型出现,在新代码的114个文件中有28处提到。

V32指的是DeepSeek-V3.2,而Model 1在代码库中是一个与V32并列且独立的分支,由此可以合理推断出Model1 是 DeepSeek 下一代旗舰模型 DeepSeek-V4 的内部开发代号或首个工程版本。

根据对代码的具体分析,其核心差异在于:

1、架构回归标准化:MLA 的 head_dim 从 V3 的 576 回归到 512 维,可能为更好适配 Blackwell(SM100)并优化 Latent 压缩与算力对齐。

2、面向 Blackwell 深度优化:新增 SM100 专用算子,B200 需 CUDA 12.9;Sparse MLA 在 B200 上已达 350 TFLOPs,H800 上 Dense MLA 达 660 TFLOPs。

3、Token-level Sparse MLA:引入 稀疏/稠密并行解码,KV Cache 用 FP8 存储 + BF16 计算,显著降低长上下文显存与推理成本。

4、新机制增强长上下文:加入 VVPA(Value Vector Position Awareness) 改善位置信息衰减,并配合 Engram 机制进行 KV/存储与吞吐优化。

在X上,也有不少网友纷纷开始猜测,Model1 很可能就是传闻中 DeepSeek 即将在春节前后发布的新模型的代号。

那么,大佬们,你们觉得这个新模型会是DeepSeek-V4吗?

http://www.jsqmd.com/news/437041/

相关文章:

  • 属性选择器
  • 代码道德扫描器:自动检测算法偏见
  • OpenClaw本地环境搭建教程——Molili带你轻松上手
  • 变电站在线监测,让电网设备从此“声”而不同
  • 完整教程:ViewHolder设计模式深度剖析:iOS开发者掌握Android列表性能优化的实战指南
  • 大数据可视化:Tableau的实战案例剖析
  • YOLO26改进63:全网首发--使用MPCA改进特征融合模块
  • 逆势破局,哈趣领跑投影新周期
  • 2026年3月四川二手新风设备公司推荐,精准检测与稳定性能深度解析 - 品牌鉴赏师
  • 揭秘大数据时代MongoDB的分布式锁机制
  • 大数据领域数据产品的ETL过程优化
  • 大数据建模中的知识图谱:构建智能数据关联网络
  • 在SEO优化中长尾关键词的运用及其重要性
  • 多维数组
  • 信号处理中的脉冲压缩、匹配滤波、相关处理的技术分析与典型应用
  • 独凤轩集团中熬汤业海南项目投产 赋能骨汤产业高质量发展
  • 49.字母异位词分组
  • 从零起步掌握SEO技能,稳步提升网站流量与优化效果
  • 信息学奥赛一本通1359:围成面积 ← Flood fill
  • 考虑柔性负荷的综合能源系统低碳经济调度探索
  • 明天就要开学。
  • 快板厂pcb4层板打样哪家快又稳
  • 2026年3月武汉装修一条龙公司最新推荐,聚焦全屋定制与全案交付能力 - 品牌鉴赏师
  • 在 React 中,什么情况下需要用 useCallback 和 useMemo?它们的区别是什么?
  • 3月4日(121-123题)
  • 十二层PCB选型指南:2026高速电路板厂商排名
  • PCB四层板哪家好?5大厂商综合评测排名
  • 无线数采网关有哪些功能特点
  • 某能源企业AI转型:提示工程架构师介入后,设备故障率降18%
  • 风机润滑数据采集物联网解决方案