当前位置: 首页 > news >正文

突发,Deepseek新模型MODEL1曝光!

作为明星产品,必须得用放大镜看!

正值DeepSeek-R1 发布一周年之际,DeepSeek 在 GitHub 上悄悄更新了一波代码。

结果,眼尖的开发者在 DeepSeek 核心的推理优化库FlashMLA中,发现了一个此前从未公开过的神秘代号:“MODEL1”

目前,行业内普遍猜测,这极有可能就是DeepSeek即将发布的下一代旗舰模型。

而这次曝光的“MODEL1”,到底是什么来头?

首先,我们要知道它是怎么被发现的。

这次泄露的源头,来自DeepSeek的一个开源项目——FlashMLA

可能大家对FlashMLA不太熟悉,这里给大家简单介绍一下。

这是DeepSeek自研工具,专门为英伟达GPU做深度优化。

正是有了它,DeepSeek才能在模型架构层面减少内存占用,把GPU硬件的性能榨干到极致,从而实现了“低成本高性能”。

而在最近更新的代码中,开发者们发现在横跨114个文件中,有28处都明确提到了“MODEL1”这个新标识符。

在代码逻辑里,“MODEL1”是与“V32”(也就是DeepSeek-V3.2)并列存在的。

这意味着,它绝不是V3版本的简单修补,而是一个采用了全新架构的独立模型。

根据技术大神的深度分析,“MODEL1”的核心变化主要体现在“回归标准”和“极致效率”上。

以前的V3模型,为了追求极致性能,采用了一种比较特殊的576维设计,而“MODEL1”则切换回了512维的标准配置。

这样做的好处非常明显:它能更好地适配英伟达下一代Blackwell(SM100)芯片。

不仅如此,“MODEL1”还引入了更高级的“稀疏化”技术。

在代码中,出现了大量针对FP8(8位浮点数)数据格式的解码支持,以及键值(KV)缓存的优化。

它能在处理极长内容时,智能地跳过不重要的计算步骤,同时利用FP8格式把记忆内容进行高保真压缩。

这直接带来的结果就是:内存占用大幅降低,计算效率成倍提升。

这意味着,可以用更便宜的显卡,就能跑得动更强的模型。

那么,这个“MODEL1”到底是传说中的V4,还是推理模型R2?

目前行业内主要有两种看法。

一种观点认为,它是DeepSeek V4

按照 DeepSeek 的命名惯例,在 V3.2 之后的旗舰级架构跨越,逻辑上即为 V4。

并且此前就有外媒报道,DeepSeek计划在2月(春节前后)发布新一代旗舰模型V4,且内部测试显示其编程能力已经超越了市场上的顶级模型。

另一种观点则认为,它是DeepSeek R2

最近一个月,DeepSeek团队连续发布了两篇重磅技术论文,介绍了一种名为“优化残差连接(mHC)”的新训练方法,以及一种模仿生物大脑的“AI记忆模块(Engram)”。

如果“MODEL1”整合了这些最新的黑科技,让AI拥有了类似人类的记忆机制,那它极有可能就是备受期待的“推理之王”R2。

不论是V4还是R2,至少有一点可以确定,DeepSeek的新模型快发布了!

结合目前模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证。

这意味着,新模型的上线时间越来越近了。

那个曾在全球掀起波澜的“DeepSeek时刻”还会在今年重现吗?我们拭目以待!

http://www.jsqmd.com/news/285889/

相关文章:

  • YOLO26改进 - C2PSA | C2PSA融合TSSA(Token Statistics Self-Attention)令牌统计自注意力,优化遮挡目标感知
  • 内容、媒体、时间:详解影响软文收录的三大变量及优化策略
  • dwmredir.dll文件丢失找不到问题 免费下载方法分享
  • 【毕业设计】基于springboot的面向大学生的职业兴趣评估与就业指导平台(源码+文档+远程调试,全bao定制等)
  • Java计算机毕设之基于springboot的企业内部知识产权管理系统基于SpringBoot+Vue的企业内部知识产权管理系统(完整前后端代码+说明文档+LW,调试定制等)
  • 【毕业设计】基于springboot的企业内部知识产权管理系统(源码+文档+远程调试,全bao定制等)
  • RAG 检索模型如何学习:三种损失函数的机制解析
  • 【课程设计/毕业设计】基于SpringBoot3+Vue3面向大学生的职业兴趣评估与就业指导平台基于springboot的面向大学生的职业兴趣评估与就业指导平台【附源码、数据库、万字文档】
  • Langchain 快速入门(一)
  • 微信小程序开发公司哪家比较好?最新测评报告给你答案
  • 100dB 深度消回音 + AI 智能降噪!WX-0813 语音处理模组,重塑全场景音频通话体验
  • YOLO26改进 - SPPF模块 | SPPELAN 空间金字塔池化与增强局部注意力:替代SPPF增强多尺度上下文捕获,提升检测精度
  • 【毕业设计】基于springboot的食品安全管理系统(源码+文档+远程调试,全bao定制等)
  • 2026全国学历提升机构TOP10盘点:选课攻略+避坑指南
  • 微信小程序商城怎么开通?来自程序员的实用教程
  • ffmpeg 二叉树代码测试及分析 - 详解
  • Java毕设项目推荐-基于SpringBoot的在线食品安全信息平台系统基于springboot的食品安全管理系统【附源码+文档,调试定制服务】
  • Java毕设选题推荐:基于springboot的企业智慧知识产权资产运营平台企业内部知识产权管理系统【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 2026年拼多多代运营公司排名前五权威深度测评
  • 2026执业药师考试培训前十机构测评:通关攻略与避坑指南
  • Java毕设项目推荐-基于springboot高校学生就业信息推送系统springboot的面向大学生的职业兴趣评估与就业指导平台【附源码+文档,调试定制服务】
  • 实现Unity录音、百度云语音转文字
  • Java毕设选题推荐:基于springboot大学生就业服务平台springboot的面向大学生的职业兴趣评估与就业指导平台【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 亿可达×飞书:一键搞定定时群通知,告别人工重复提醒
  • 2026最新版!微信小程序SaaS模板平台前十排名报告
  • 深入解析:Rust 练习册 :Matching Brackets与栈数据结构
  • 2026 年 AI PPT 工具深度评测:拒绝 “科技与狠活”,寻找真正能解决职场痛点的生产力工具
  • 2026年专业深度测评:淘宝代运营公司排名前五权威榜单
  • 【计算机毕业设计案例】基于Java的在线食品安全信息平台基于springboot的食品安全管理系统(程序+文档+讲解+定制)
  • Java毕设项目:基于springboot的食品安全管理系统(源码+文档,讲解、调试运行,定制等)