当前位置: 首页 > news >正文

刚刚,DeepSeek大更新!多模态终于来了

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

转载自:DeepTech深科技、CVer

4 月 29 日下午,DeepSeek 多模态团队负责人陈小康(Xiaokang Chen)在 X 发布动态:“Now, we see you. 👀”,配图为两只 DeepSeek 鲸鱼 logo,一只仍戴着海盗眼罩,一只已经睁开眼睛。这是他在 24 小时内第二次释放类似信号。前一天,他曾发布措辞为“Soon, we see you”的同主题预告,随后该推文被删除。

图丨相关推文(来源:X)

陈小康目前在 DeepSeek 负责多模态预训练与后训练,统领 DeepSeek 大模型的多模态能力建设。其北大博士阶段导师为曾刚教授,研究方向涵盖视觉-语言模型、半监督分割、masked image modeling 等。

与预告同步,部分用户已在 DeepSeek 官方 App 中灰度到“识图模式”(可惜笔者和同事们都没能被灰度测试到)。截图显示,App 输入栏上方除原有的“快速模式”“专家模式”外,新增“识图模式”按钮,并标注“图片理解功能内测中”。社交平台流出的内测截图显示,用户上传一张图片后,能够输出包括“分析用户需求”“分析图片”在内的结构化描述,识别图片具体内容。

图丨新上的识图模式(来源:小红书@云涧梦)

这是 DeepSeek 主线产品中首次出现具备图像理解能力的模式。此前 4 月 8 日,DeepSeek App 完成第一轮模式分层改版,上线“快速模式”和“专家模式”,根据 V4 发布后的官方说明,前者由 V4-Flash 驱动,后者对应 V4-Pro。当时已有微博用户(@蚁工厂)放出含“快速/专家/视觉”三档选项的截图,但视觉一档迟迟未开放。从今天起,这一档开始进入小范围灰度。

这次内测距 V4 正式发布刚过 5 天。4 月 24 日 DeepSeek 发布的 V4 系列预览版(V4-Pro 1.6T 参数 / V4-Flash 284B 参数,均支持 1M token 上下文)仍是纯文本模型,这一点和此前外界关于“V4 将原生多模态”的密集传闻不符。V4 技术报告第 6 节“Conclusion, Limitations, and Future Directions”中明确写道,下一步工作之一是“将多模态能力融入模型体系”。

图丨通过浏览器开发者工具抓取 chat.deepseek.com 的 settings 接口可以看到该模式的后端配置已经下发:"model_type": "vision"、"name": "识图模式"、"description": "图片理解功能内测中"、"enabled": true、"is_default": false、"switchable": false。也就是说,识图模式已经在后端启用,但默认关闭、不允许用户手动切换。(来源:DeepTech)

值得注意的是,V4 发布前后曾有一系列围绕 DeepSeek 多模态人才流失的报道。4 月 12 日,自动驾驶公司元戎启行确认 DeepSeek 多模态模型核心贡献者阮翀已加盟出任首席科学家;DeepSeek-OCR 系列核心作者魏浩然在春节前后离职。此次陈小康的两次预告与识图模式灰度上线,是 DeepSeek 多模态团队近三个月来第一次以产品形式对外释放进展。

不过,目前可观察到的能力仍限于图像理解(vision-language understanding),而非外界过去半年反复猜测的“原生多模态生成”。从 App 灰度截图的输出风格判断,识图模式更接近一个挂载在 V4 主干上的视觉理解模块。

Amusi 发现手机端DeepSeek被灰度到了,于是简单实测了一波,内容如下:

  • 建筑物识别

  • 人物识别

目前 DeepSeek 还不具备图像编辑、图像生成能力。

DeepSeek 自己的说法是:具备多模态视觉理解能力,目前还不支持图片/视频生成和编辑功能。

DeepSeek 官方目前未对识图模式的开放范围、正式发布时间、底层模型来源做出说明。但从陈小康从“Soon”到“Now”的两次发帖节奏判断,更大范围的开放或许在数日之内。

参考资料:

1.https://x.com/PKUCXK/status/2049381471669080209

运营/排版:何晨龙

本文系学术转载,如有侵权,请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载566页课件PPT!大家赶紧学起来!

CVPR 2026 所有论文和代码下载

在CVer公众号后台回复:CVPR2026,即可下载CVPR 2026 所有论文和代码!

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看
http://www.jsqmd.com/news/733583/

相关文章:

  • 大语言模型训练实战:并行策略、吞吐优化与稳定性调优
  • 3步快速获取百度网盘提取码:智能工具让资源解锁从未如此简单
  • TikTok评论采集器:3步获取完整评论数据,无需编程技能
  • 别再死记硬背了!用一张图+实战代码搞懂UVM Phase的执行顺序与依赖关系
  • 大语言模型与人类脑机制在句法处理中的对比研究
  • 告别版本混乱!手把手教你用TortoiseSVN管理团队代码(附图标含义详解)
  • Office Custom UI Editor:终极指南,3步打造你的专属Office工作台
  • Focus-dLLM:动态稀疏注意力机制优化长上下文LLM推理
  • 体验Taotoken多模型聚合端点的稳定与低延迟响应
  • MCP Gateway:基于Kubernetes的AI应用统一接入与工具管理平台
  • 如何高效使用Pulover‘s Macro Creator实现Windows自动化:终极技术指南
  • 腐蚀-Rust-服务器开服联机教程
  • 社交智能LLM代理的心智理论与应用实践
  • 告别野指针和内存泄漏:MISRA-C 2012实战避坑指南(嵌入式C程序员必看)
  • 在stm32物联网项目中集成多模型ai对话功能
  • ANSYS Workbench瞬态分析后处理:除了点鼠标,你还可以用Python这样玩
  • 主流深度学习框架对比与选型指南
  • 在多轮对话场景下体验 Taotoken 路由能力的稳定性
  • SHAMISA框架:自监督学习在无参考图像质量评估中的创新应用
  • AMD Ryzen处理器底层调试工具SMUDebugTool深度解析:解锁硬件性能的专业指南
  • 5分钟掌握163MusicLyrics:音乐爱好者的终极歌词管理神器
  • Focus-dLLM:扩散模型加速LLM推理的技术解析
  • 如何用Boss-Key一键隐藏窗口实现高效工作隐私保护?
  • CodeCombat:基于认知科学的编程学习系统如何彻底改变编程教育
  • TimeSformer复现避坑大全:从环境配置到训练完成的10个常见错误及解决方案
  • 别再只问NTP了!手把手教你用Wireshark抓包分析PTP(精确时间协议)的报文交互
  • AI工具箱构建实战:从ChatGPT到Midjourney的高效资源管理指南
  • 逆向工程OpenAI API安全令牌:PoW与Sentinel机制深度解析
  • 不花一分钱,在 VS Code 里用上 Claude Code,配置一次永久免费!
  • 9.人工智能实战:GPU 服务如何上 Kubernetes?从单机部署到 K8s + NVIDIA Device Plugin + HPA 的生产级改造