当前位置：首页 > news >正文

刚刚，DeepSeek大更新！多模态终于来了

news 2026/6/25 11:53:35

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用！发论文/搞科研/涨薪，强烈推荐！

转载自：DeepTech深科技、CVer

4 月 29 日下午，DeepSeek 多模态团队负责人陈小康（Xiaokang Chen）在 X 发布动态：“Now, we see you. 👀”，配图为两只 DeepSeek 鲸鱼 logo，一只仍戴着海盗眼罩，一只已经睁开眼睛。这是他在 24 小时内第二次释放类似信号。前一天，他曾发布措辞为“Soon, we see you”的同主题预告，随后该推文被删除。

图丨相关推文（来源：X）

陈小康目前在 DeepSeek 负责多模态预训练与后训练，统领 DeepSeek 大模型的多模态能力建设。其北大博士阶段导师为曾刚教授，研究方向涵盖视觉-语言模型、半监督分割、masked image modeling 等。

与预告同步，部分用户已在 DeepSeek 官方 App 中灰度到“识图模式”（可惜笔者和同事们都没能被灰度测试到）。截图显示，App 输入栏上方除原有的“快速模式”“专家模式”外，新增“识图模式”按钮，并标注“图片理解功能内测中”。社交平台流出的内测截图显示，用户上传一张图片后，能够输出包括“分析用户需求”“分析图片”在内的结构化描述，识别图片具体内容。

图丨新上的识图模式（来源：小红书@云涧梦）

这是 DeepSeek 主线产品中首次出现具备图像理解能力的模式。此前 4 月 8 日，DeepSeek App 完成第一轮模式分层改版，上线“快速模式”和“专家模式”，根据 V4 发布后的官方说明，前者由 V4-Flash 驱动，后者对应 V4-Pro。当时已有微博用户（@蚁工厂）放出含“快速/专家/视觉”三档选项的截图，但视觉一档迟迟未开放。从今天起，这一档开始进入小范围灰度。

这次内测距 V4 正式发布刚过 5 天。4 月 24 日 DeepSeek 发布的 V4 系列预览版（V4-Pro 1.6T 参数 / V4-Flash 284B 参数，均支持 1M token 上下文）仍是纯文本模型，这一点和此前外界关于“V4 将原生多模态”的密集传闻不符。V4 技术报告第 6 节“Conclusion, Limitations, and Future Directions”中明确写道，下一步工作之一是“将多模态能力融入模型体系”。

图丨通过浏览器开发者工具抓取 chat.deepseek.com 的 settings 接口可以看到该模式的后端配置已经下发："model_type": "vision"、"name": "识图模式"、"description": "图片理解功能内测中"、"enabled": true、"is_default": false、"switchable": false。也就是说，识图模式已经在后端启用，但默认关闭、不允许用户手动切换。（来源：DeepTech）

值得注意的是，V4 发布前后曾有一系列围绕 DeepSeek 多模态人才流失的报道。4 月 12 日，自动驾驶公司元戎启行确认 DeepSeek 多模态模型核心贡献者阮翀已加盟出任首席科学家；DeepSeek-OCR 系列核心作者魏浩然在春节前后离职。此次陈小康的两次预告与识图模式灰度上线，是 DeepSeek 多模态团队近三个月来第一次以产品形式对外释放进展。

不过，目前可观察到的能力仍限于图像理解（vision-language understanding），而非外界过去半年反复猜测的“原生多模态生成”。从 App 灰度截图的输出风格判断，识图模式更接近一个挂载在 V4 主干上的视觉理解模块。

Amusi 发现手机端DeepSeek被灰度到了，于是简单实测了一波，内容如下：

建筑物识别

人物识别

目前 DeepSeek 还不具备图像编辑、图像生成能力。

DeepSeek 自己的说法是：具备多模态视觉理解能力，目前还不支持图片/视频生成和编辑功能。

DeepSeek 官方目前未对识图模式的开放范围、正式发布时间、底层模型来源做出说明。但从陈小康从“Soon”到“Now”的两次发帖节奏判断，更大范围的开放或许在数日之内。

参考资料：

1.https://x.com/PKUCXK/status/2049381471669080209

运营/排版：何晨龙

本文系学术转载，如有侵权，请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载566页课件PPT！大家赶紧学起来！

CVPR 2026 所有论文和代码下载

在CVer公众号后台回复：CVPR2026，即可下载CVPR 2026 所有论文和代码！

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群 CVer计算机视觉（知识星球）人数破万！如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料，一定要扫描下方二维码，加入CVer知识星球！最强助力你的科研和工作！ ▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号 整理不易，请点赞和在看

查看全文

http://www.jsqmd.com/news/733583/

大语言模型训练实战：并行策略、吞吐优化与稳定性调优

3步快速获取百度网盘提取码：智能工具让资源解锁从未如此简单

TikTok评论采集器：3步获取完整评论数据，无需编程技能

别再死记硬背了！用一张图+实战代码搞懂UVM Phase的执行顺序与依赖关系

大语言模型与人类脑机制在句法处理中的对比研究

告别版本混乱！手把手教你用TortoiseSVN管理团队代码（附图标含义详解）

Office Custom UI Editor：终极指南，3步打造你的专属Office工作台

Focus-dLLM：动态稀疏注意力机制优化长上下文LLM推理

体验Taotoken多模型聚合端点的稳定与低延迟响应

MCP Gateway：基于Kubernetes的AI应用统一接入与工具管理平台

如何高效使用Pulover‘s Macro Creator实现Windows自动化：终极技术指南

腐蚀-Rust-服务器开服联机教程

社交智能LLM代理的心智理论与应用实践

告别野指针和内存泄漏：MISRA-C 2012实战避坑指南（嵌入式C程序员必看）

在stm32物联网项目中集成多模型ai对话功能

ANSYS Workbench瞬态分析后处理：除了点鼠标，你还可以用Python这样玩

主流深度学习框架对比与选型指南

在多轮对话场景下体验 Taotoken 路由能力的稳定性

SHAMISA框架：自监督学习在无参考图像质量评估中的创新应用

AMD Ryzen处理器底层调试工具SMUDebugTool深度解析：解锁硬件性能的专业指南

5分钟掌握163MusicLyrics：音乐爱好者的终极歌词管理神器

Focus-dLLM：扩散模型加速LLM推理的技术解析

如何用Boss-Key一键隐藏窗口实现高效工作隐私保护？

CodeCombat：基于认知科学的编程学习系统如何彻底改变编程教育

TimeSformer复现避坑大全：从环境配置到训练完成的10个常见错误及解决方案

别再只问NTP了！手把手教你用Wireshark抓包分析PTP（精确时间协议）的报文交互

AI工具箱构建实战：从ChatGPT到Midjourney的高效资源管理指南

逆向工程OpenAI API安全令牌：PoW与Sentinel机制深度解析

不花一分钱，在 VS Code 里用上 Claude Code，配置一次永久免费！

9.人工智能实战：GPU 服务如何上 Kubernetes？从单机部署到 K8s + NVIDIA Device Plugin + HPA 的生产级改造

相关文章：