当前位置：首页 > news >正文

DeepSeek 开始测试识图模式，国产模型又近了一步

news 2026/6/25 11:12:16

看到消息说 DeepSeek 正在灰度测试识图模式。

说实话，这个消息让我有点兴奋。

DeepSeek 这个团队我一直在关注。他们的模型开源、便宜、效果还不错，之前在开发者圈子里热度很高。但一直有一个短板，就是不支持多模态。

你只能跟它聊文字，发图片给它，它会说「我不支持图片输入」。

现在终于补上了。

先说说识图这个能力本身。

「识图」听起来好像很玄乎，但坦率的讲，就是让 AI 能「看懂」图片。你发一张截图给它，它能告诉你这张图里有什么。你发一个表格给它，它能帮你分析数据。你发一个报错截图给它，它能告诉你问题出在哪。

这个能力有多重要？

我跟你说，重要到你一旦习惯了，就回不去了。

举个例子。

你写代码的时候遇到一个报错，传统做法是什么？复制报错信息，粘贴到 Google 或 StackOverflow，搜索解决方案。

现在呢？直接截图，发给 AI，AI 告诉你问题出在哪，怎么修。

你说这个差别大不大？

再举个例子。

你看到一篇文章，很长，不想读完。直接截图关键段落，发给 AI，让它给你总结。

你说这个效率高不高？

我自己的感受是，识图能力已经从「锦上添花」变成了「刚需」。GPT-4V 出来之后，我发图片给 AI 的频率越来越高了。有时候甚至懒得打字，直接截图完事。

再聊聊 DeepSeek 这个产品本身。

DeepSeek 是国产开源模型里的一匹黑马。

它的特点是什么？便宜，快，效果还行。

坦率的讲，不是最好的，但性价比极高。你用 GPT-4 的 API，一个月可能要花几百块。用 DeepSeek，可能只要几十块。

对于很多开发者来说，这个差价是实打实的成本。

而且 DeepSeek 是开源的，你可以自己部署。对于有数据安全需求的企业来说，这是一个很大的优势。

但之前 DeepSeek 最大的短板就是没有多模态能力。你只能用它来处理文本任务。发图片？不支持。

现在补上这个短板之后，DeepSeek 的可用场景一下子拓宽了很多。

但我也要说说我的顾虑。

识图这个能力，听起来简单，但做好其实很难。

GPT-4V 刚出来的时候，就被曝出过不少问题。比如把人种识别错，比如看不懂某些专业图表，比如被一张图骗过去回答错误的问题。

DeepSeek 的识图能力能做到什么水平？

目前还在灰度测试阶段，我没有亲自用过，所以不能给出评价。但从小模型的一般规律来看，识图精度可能不如 GPT-4V。

这是取舍。

你要便宜、开源、可自部署，就得接受精度上的差距。你要精度高，就得接受付费和云端调用。

但我觉得，精度差距是可以接受的。

因为绝大多数的日常场景，不需要 GPT-4V 那个级别的精度。你让它看一个报错截图，它只要能识别出关键信息就行了。你让它看一个菜单翻译，它只要能翻译个大概就行了。

完美主义在这里没有意义。

能用、便宜、离你近，这三个特点加起来，才是 DeepSeek 的核心竞争力。

说到这块，我想聊聊国产模型的整体态势。

过去两年，我们看着 GPT-4 一骑绝尘，国产模型在后面追赶。说没有焦虑感是假的。

但这个焦虑感最近在慢慢减轻。

为什么？

因为我们发现，追赶的速度比想象中快。

国产模型在文本能力上已经追得差不多了，现在在多模态能力上也在补课。文心一言、通义千问、智谱、DeepSeek，都在陆续推出多模态能力。

差距还在，但不再是那种「遥不可及」的差距了。

我一直觉得，AI 这个赛道是一场马拉松，不是百米冲刺。GPT-4 跑得快，不代表它能一直领先。技术的扩散速度比想象中快，今天的护城河，明天可能就被填平了。

最后说说我怎么看待这个消息。

DeepSeek 测试识图模式，不是什么惊天动地的大新闻。但它是国产模型在多模态领域的又一次进步。

对于开发者来说，多了一个选择。你可以继续用 GPT-4V，也可以试试 DeepSeek，看看性价比和精度的平衡点在哪里。

对于普通用户来说，国产模型的能力越来越全，意味着你可以用更低的成本享受到 AI 的能力。

对于行业来说，竞争会越来越激烈。大厂会被迫加速迭代，创业公司会被迫找到差异化定位。

这些都是好事。

AI 正在从一个「贵族工具」变成「大众工具」。从云端走向终端，从付费走向免费，从闭源走向开源。

这个趋势，我觉得不可逆转。

DeepSeek 只是这个趋势中的一个节点。但它代表了一个更大的方向，AI 能力正在快速扩散，扩散到每个普通人的口袋里。

这个未来，值得期待。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

谢谢你看我的文章，我们，下次再见。

查看全文

http://www.jsqmd.com/news/742497/

VSCode写论文效率翻倍：我的LaTeX Workshop终极配置分享（含XeLaTeX/BibTeX/latexmk链）

告别手动录入！用Python的img2table库，5分钟把PDF/图片里的表格变成Excel

轻量级表格数据处理库undersheet：零依赖的Python数据操作利器

2026届毕业生推荐的AI学术助手解析与推荐

CHUWI LarkBox X迷你主机评测：AMD Ryzen 7 3700U性能解析

深度解析太阳能发电与充电原理：从光伏效应到储能应用的完整技术体系

2026Q2迪奥名包回收：成都名包上门回收电话、成都名表上门回收电话、成都名表回收电话、成都品牌名表回收电话、成都奢侈品名表回收电话选择指南 - 优质品牌商家

2026四川光纤放大器技术解析：光纤偏振控制器源头厂家推荐/光纤延迟线厂家/光纤延迟线哪里有/光纤延迟线报价/光纤拉伸器公司推荐/选择指南 - 优质品牌商家

别再只玩SAM了！手把手教你用LLaVA+SAM复现LISA，解锁AI看图说话+圈点的新玩法

声明式配置驱动：用emdash简化命令行任务编排与团队协作

终端AI智能体集中监控：基于Node.js与Ink的TUI开发实践

AzurLaneAutoScript技术实现：3种核心架构解析与多服务器自动化方案

【6】为什么有了 HTTP/1.1 ，还要 HTTP/2 和 HTTP/3

基于Electron+React构建智能代码片段管理与项目模板工具

避坑指南：用VS2022编译libuvc控制USB摄像头时，驱动替换和依赖库的那些坑

知乎创作保护指南：3个步骤永久保存你的知识资产

3分钟掌握WorkshopDL：跨平台玩家的Steam创意工坊下载神器

ctf学习路径

机器学习置信度校准原理与实践指南

大语言模型自动评估与动态对齐技术实践

成本感知贝叶斯优化在交互设备原型设计中的应用

CoolProp热力学计算中R-134a参考状态差异的技术深度解析

轻量级任务编排工具Maestro：简化开发与运维自动化

手把手教你：用欧姆龙SYSMAC STUDIO搞定基恩士DL-EP1的EIP通讯（附EDS文件下载）

TranslucentTB终极解决方案：5种方法快速修复Microsoft.UI.Xaml依赖问题

SlowFast网络与智能帧选择在视频理解中的实践

ARM调试与跟踪技术：DTAP与ETM实战解析

深入解析 Zsh 与 Oh-My-Zsh：打造高效现代化终端