当前位置：首页 > news >正文

DeepSeek识图模式是个新模型？！一手实测在此（没错我被灰度到了）

news 2026/6/24 11:14:32

鱼羊发自凹非寺
量子位 | 公众号 QbitAI

今天，你被DeepSeek识图模式灰度到了吗？

大家对DeepSeek的多模态属实期待了太久太久，如今惊喜紧随V4的发布而来，没等DeepSeek官方释出更多信息，民间已经从各个方向开始挖掘“识图”背后的种种蛛丝马迹。

还真有不少发现。

比如，DeepSeek识图模式背后，看上去是一个独立于V4 flash/pro的新模型。

又比如，DeepSeek在V4技术报告里的“未来展望”，实际上可能都做的差不多了……

今天眼睛一睁，俺也喜提灰度，这就来展示一下实测成果。

实测DeepSeek识图模式

在识图模式下，可以选择是否开启深度思考。

非思考模式下，这个DeepSeek视觉模型的速度非常快，~~比闪电五连鞭还要快。~~

点击发送键，几乎无需等待，答案就吭哧吭哧冒了出来。

那么思考和非思考模式下，DeepSeek识图模式的推理能力会有什么样的差别？

推理能力

先上一道空间推理题：要想使右侧图形在不旋转的情况下拼合成左侧的正方体造型，还需在问号处添加的图形是哪个？

非思考模式秒给答案，然后……秒错。

开启深度思考后，DeepSeek成功闯关，给出了正确答案D。

但可以看到，它思考这个问题整整用了4分多钟。

这个思考过程的冗长程度，我们可以直观地感受一下——

在思考的中段，其实DeepSeek已经找到了正确答案：

但马上就是一个“等等”，然后……又绕了一大堆。

这个问题有人也在DeepSeek研究员陈小康的推文下反馈了。

再试试图片找不同：找出两张图片中所有的不同点。

非思考模式下，DeepSeek很快找到了7处不同。

可以很明显地看出，其中幻觉不少，比如第5点托盘里的钥匙不知道是怎么来的，第7点苹果和香蕉之间也没有白色的空盘子。

思考模式这次则只用了16秒的时间，找出了12处不同。

但……不知道是不是图片本身的原因，幻觉更多了。

实用功能

推理部分还有进步空间，那么在实用功能方面，DeepSeek的识图模式是否靠谱呢？

试试OCR。

把DeepSeek V4技术报告的摘要丢进DeepSeek识图模式，不开深度思考的情况下，它依然是闪电出结果，还贴心地给开源链接给超链了。

纯文本看上去问题不大，再看看表格DeepSeek能不能hold住。

没什么问题，格式上也能用markdown码得整整齐齐。

而更受欢迎的一种新玩法是，把网页图片发给DeepSeek，它直接能给你复原出HTML来（非思考模式就能实现）。

其中的按钮都是可用的，比如给出API文档的链接，它能自动配置好实现跳转。

DeepSeek还能顺利通过“隐藏图片”测试。

但在色盲测试中，偶见翻车。

根据识图模式自己的回答，它的知识和DeepSeek V4 flash/pro一样，截止到2025年5月。

而从它的世界知识中，有博主发现了端倪：视觉模型知道Ta，而V4 flash/pro则并不了解Ta。

是不是说，识图模式中的视觉模型，是独立训练的？

验证了一下，flash不联网的时候确实没有关于这位主包的知识。但识图模式则找到了2026年4月的信息。

做的比说的更快

目前，DeepSeek的识图模式还在灰度测试当中，陈小康透露灰度范围正在逐步扩大。

实测下来坦白说，DeepSeek Vision还有不少可以精进之处。

但话说回来，谁又能想到DeepSeek的多模态，来的这么快呢？

当DeepSeek在V4的技术报告中写下，“我们也正在努力将多模态能力整合到我们的模型中”，大家都以为这还只是个优先级没那么高的目标，不少朋友都在惋惜的同时，也认同“资源有限的情况下优先做好纯文本是对的”。

而现在看来，DeepSeek做到的或许比外界想象的更多、更快。

那么论文中提到的“在MoE和稀疏注意力架构之外，将积极探索模型稀疏性的其他新维度”，是不是也……

参考链接：
[1]https://x.com/teortaxesTex/status/2049422327914332307?s=20
[2]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

—完—

👑 量子位智库「2026中国AI应用全景图谱」与「值得关注落地案例」评选启动征集！

👇 扫码申报，让你的产品定义2026中国AI应用行业格局。

查看全文

http://www.jsqmd.com/news/732363/

血泪教训+落地实操：2026年5月天梭官方售后网点踩坑实录（含迁址/新开）本人亲测与防坑指南 - 亨得利官方服务中心

洛谷B3862：图的遍历（简单版）← 邻接表

denite.nvim核心功能详解：文件、缓冲区、寄存器操作完全指南

终极MapleStory资源编辑指南：用Harepacker复活版打造专属游戏世界

别再只把接口当合同了！聊聊JDK8的default和static方法如何帮你优雅地升级老项目

SCMP持证者职业发展路径分析 - 众智商学院官方

Phi-3.5-mini-instruct入门必看：Chainlit消息流控制与响应格式定制

Qwen3.5-9B-AWQ-4bitOCR辅助理解实战：手机截图→文字提取→业务摘要三步生成

iPhone USB网络共享驱动终极解决方案：快速解决Windows连接问题

智能密码恢复：用ArchivePasswordTestTool轻松找回加密压缩包密码

初次使用Taotoken模型广场进行模型选型与对比的体验

3分钟掌握SRWE：游戏窗口分辨率自定义工具让你的截图瞬间升级

深度学习超分辨率技术终极指南：从秒级到毫秒级的性能突破

终极Windows激活指南：如何用KMS_VL_ALL_AIO轻松解决系统授权问题

使用 Node js 与 Taotoken 构建一个简单的聊天机器人后端

上海婚纱照不踩雷排名｜2026 综合星级榜单 + 坑店直接避雷 - 江湖评测

1分钟搞定！购买公众号排版工具发票申请全流程 - 小小智慧树~

Electron打包winCodeSign下载失败？别慌，手把手教你手动下载并配置这三个依赖包（附国内镜像源）

PPTAgent技术深度解析：智能文档转PPT的革命性架构设计

10个Lc0实战技巧：从基础对弈到高级分析

终极指南：如何用SHAP解释器破解AI黑盒，轻松提取答案证据

Xournal++：免费开源的手写笔记神器，让你的数字笔记体验超越纸质

我的小车转弯老翻车？用STM32+MPU6050状态机实现精准90度转向的保姆级教程

抖音无水印视频下载完整指南：2种简单方法快速保存高清内容

LFM2.5-1.2B-Thinking-GGUF开源可部署：国产化ARM服务器适配实测报告

用C++模拟“超能力者大赛”贪心策略：从L3-034真题看算法竞赛中的状态维护技巧

PvZ Toolkit终极指南：让植物大战僵尸变得如此简单

亚数TrustAsia vs iTrustSSL：谁是证书自动化的王者？

AI编程助手对开发效率与代码质量的影响研究

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI

实测DeepSeek识图模式

推理能力

实用功能

做的比说的更快

相关文章：

鱼羊发自凹非寺
量子位 | 公众号 QbitAI