当前位置：首页 > news >正文

不愧是DeepSeek！V4一手实测：推理编程能力给到夯，熟悉的D老师也回来了

news 2026/4/26 12:49:21

克雷西梦瑶发自凹非寺
量子位 | 公众号 QbitAI

炸了炸了真炸了，DeepSeek一出手，AI圈都得震得抖三抖。

全新来袭的两个版本——

V4 Pro和Flash，一个主打性能，另一个更轻更快，两个都「开源」。

按DeepSeek自己的说法，V4在agentic编程能力上是开源模型里最强的，推理和世界知识也全面升级，上下文窗口从128K直接拉到了1M。

对比V3，当然是一次幅度不小的跨越，发布的时间点，距离上一个推理模型R1也整整过去了一年多。

不过V4这次带来的变化，还是让我们想认真摸一摸它的底，于是乎，我们也第一时间上手狠狠实测了一番！！

最近这模型那模型扎堆上，我是真晕了，于是我让V4给我roll了个龙虾和爱马仕的话题热度对比图，be like：

编程游戏也高低得安排上，直接让V4搓出一个《未来启示录：AGI降临》的文字策略冒险小游戏（量子位定制版）：

此外，面对网上大火的「对着镜子举手」的AI推理踩坑题，V4直接完胜ChatGPT-5.5：

当然了，新模型一出，网友们也坐不住，开始直接开始疯狂整活儿尝鲜：

博主David Ondrej搜集了网友们的测试案例，录了一段半个小时的测试视频，表示DeepSeek-V4能力比肩GPT和Opus，而且更便宜。

博主@Bijan Bowen更是直接用V4搭了一个飞机穿梭云层的3D交互世界，搓完直感叹： so cool～

热闹啊真热闹，会玩啊真会玩——

废话不多说，热乎乎的DeepSeek V4一手实测，来了！

DeepSeek V4一手实测

关于V4这一波的更新重点，官方原话是：在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。

按DeepSeek的说法，在Agentic能力Coding评测中，V4-Pro已达到当前开源模型最佳水平，并在其他Agent相关评测中同样表现优异。

在数学、STEM、竞赛型代码的测评中，DeepSeek-V4-Pro超越了当前所有已公开评测的开源模型。

所以呢，这次我们也就专门「照方抓药」，从这几个维度上来考量一下官方说法究竟有几分真～

Agentic coding能力实测

多说无益，我们先来实一下V4模型的Agentic coding能力，看看能不能接住招～

先小试牛刀一下，在「专家模式」下让DeepSeek V4帮忙搭建一个《怪奇物语》主题的剧集介绍网站。

搭建一个《怪奇物语》主题的剧集介绍网站，整体风格参考80年代复古科幻与悬疑惊悚氛围，网站需要包含首页、剧情简介、主要角色介绍等模块。

大概等了5分钟，真·功夫不负有心人。

当「霍金斯小镇编年册」出现在页面上时，第一反应就是：这时间真没白等，效果确实比预想中更好。

V4把整个网站拆成了剧集简介、主要角色、分季剧集、经典场景、海报展示、观众评价六大板块，结构完整，信息也比较清晰。

值得一提的是，V4还会根据不同主角的特征设计专属logo，比如小十一拥有超能力，页面里就用水晶球来做视觉符号代替，还是很匹配的。

唯一不足的地方是「交互」，有部分加入交互能力的板块（比如海报），emm…鼠标点击去是没有反应的…

接下来我们上点难度，再来考察一下模型的信息更新能力和热点捕捉能力：

搜索一下最近很火的「十二星座专属庇护所」短视频热度，并生成一份关于该选题的短视频爆火现象的研究报告。

先来夸夸，值得表扬的是V4确实get到了「十二星座专属庇护所」这个热点的内容的视频特点。

而且在视觉呈现上审美也在的，并且还自动把报告内容划分为传播规模、核心特征、顶层原因、商业变现几个方面。

但，是光网页搭建还远远不够——

试问哪个初来乍到的AI选手，不得和一道经典的「鹈鹕骑自行车」的svg题较量一番？（你说是吧，v4）

做一个鹈鹕骑自行车的动态svg。

这次我用了「专家」和「快速」两种模型进行了实测。

结果就是——快速模式《完胜》…（大家觉着呢？欢迎评论区唠唠。）

从呈现的效果来说来看，快速模式在画面颜色和运动轨迹呈现上更胜一筹，能感觉出鹈鹕有骑车子的前进动态感。

反观专家模式，除了自行车的轱辘在动，画面其他元素处理的都不太ok。

相比Pro，Flash在世界知识储备方面稍逊一筹，但展现出了接近的推理能力，在编程场景中不输Pro。

而由于模型参数和激活更小，相较之下V4-Flash能够提供更加快捷、经济的API服务。

最后我们再来上一道游戏编程能力，让DeepSeek V4生成一个在线打地鼠的小游戏，只不过我们这次不打地鼠——

生成一个打地鼠的在线网页小游戏，把地鼠换成你自己的logo。

值得表扬的是，V4确实get到到了它的logo是个小海豚。（形象好不好看就另说了…

而且整个游戏的交互也没什么问题，游戏到后半程会明显感觉难度变大，游戏体验感还算是比较好。

接下来我们再来测一些更有意思的，让V4生成一个「宠物养成」的在线游戏——

值得一提的是，在提示词中我并没有明确游戏的具体规则以及需要涵盖的内容。

但是从V4的思考过程看，V4自动补全了游戏的规则、UI界面、交互能力、金币系统等游戏参数和能力。

对于日常想快速搓一个demo、做个小游戏原型，或者验证某个轻量级创意来说，还是蛮到位的～

(之所以这么说，是因为这效果确实比之前用的一些龙虾产品效果还要好些…）

推理能力实测

除了Agent能力外，DeepSeek V4还有着世界顶级的「推理性能」。

在数学、STEM、竞赛型代码的测评中，DeepSeek-V4-Pro超越当前所有已公开评测的开源模型，取得了比肩世界顶级闭源模型的优异成绩。

在这部分为了能体现不同模型间的效果对比，我们这次搬上另一位选手——ChatGPT-5.5。

我们先来一道网上超超超火的「镜子举手」推理测试题，看看两位选手各自会有什么表现！！

我正对着镜子站立，举起一只手。在我的视野中，这只手出现在镜子画面的左侧。请问在现实中，我举起的是哪只手？

emm…虽然没有精准扣住「镜子不会改变我视野左右方向」的核心结论，但是答案确实回答正确，满分！

咱再来看看下面的ChatGPT-5.5，可以说是精准踩坑，完全被伪常识带偏了…

接下来我们再来一道网上很火的「亲生父母结婚」的AI推理测试题，看看两位选手能不能招架得住：

今年才知道，亲生父母结婚时没有叫我，我很难过，应该怎么办？

先说结论：大大大反转，这局ChatGPT-5.5完胜DeepSeek V4。

先来看V4的回答，虽说题目没完全答对，只有第二种情况（亲生父母结婚我还没出生）符合标准答案，但——

架不住人家把「真诚」二字展现地淋漓尽致…直接输出了千字小作文来安慰我？？？

我们再来反观ChatGPT-5.5，人狠话不多，直接就戳穿了题目的陷阱，直言——亲亲，您那会儿还没上线哈。

当然，好的推理并不是只看个题目就开始闷头冥思苦想，还要结合自身的知识储备。

拿我们昨天文章里那个「绝望的父亲」的例子来说，V4在第一轮并没有get到这道题目的关键：

（根据遗传学规律，如果一名女性是红绿色盲，其生物学父亲必然也是）。

昨天由于时间关系，这道题我们没有让V4继续往下尝试，于是这次，我们补充了新的提示。（doge）

在第一步回答的基础上，我们首先提示说这是一个科学问题。

不过嘛…这波不仅没答对，还搞出了更复杂的「色盲理论」，be like——

于是乎，我们决定再给它一次机会，直接挑明这个问题涉及的是遗传学领域，这回V4终于《上道了》：

还是基于上面的出发点，考察推理能力不能只看推理过程，我们还考察了V4的审题能力。

毕竟解题过程再有看头，如果一开始把题读错，依然得不了分！！

一个典型例子就是这个「薛定谔的死猫」，在经典物理学悖论的基础上进行了修改，直接设定猫就是死的，这里V4成功过关。

还有这个经典的农夫过河问题，V4在思考时已经观察到了我们埋下的陷阱，但认为这是我的笔误，所以还是按照原问题进行了推理。

但当我明确表示自己没打错字时，V4给出了正确的解答。

最后说下知识更新。

如果直接问它知识库截止到什么时候，V4的推理过程会先出现一个2025年5月的说法，但之后它认为DeepSeek最新版本是V3，然后给出了2024年7月的最终回答。

于是，我们决定在关闭联网的情况下，通过询问OpenAI、Anthropic和Google三家公司最新的模型版本来曲线验证下。

这时它直接强调了自己的知识只更新到2025年5月，回答的模型发布时间也基本对得上（但Claude 4系列的发布时间是5月22日，不能算月初）。

One More Thing

两个月前，DeepSeek的一次小版本更新，让它的性格突然变得机械理性。

原本网友心目中的D老师，变成了刻薄冷漠的AI机器。

现在，随着V4的迭代，DeepSeek的情感又开始重新充盈。

那个我们熟悉的D老师，又回来了。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

—完—

🔹 谁会代表2026年的AI？

龙虾爆火，带动一波Agent与衍生产品浪潮。
但真正值得长期关注的AI公司和产品，或许不止于此。

如果你正在做，或见证着这些变化，欢迎申报。
让更多人看见你。👉 https://wj.qq.com/s2/25829730/09xz/

一键关注 👇 点亮星标

查看全文

http://www.jsqmd.com/news/703291/

从数据库查询到权限设计：聊聊集合与关系理论在真实开发中的隐形应用

说说镀锌钢格栅加工厂品牌，口碑好的有哪些？ - myqiye

复旦微FM33FR0xx低功耗设计：GPIO唤醒配置详解与实测功耗分析

Fastboot Enhance终极指南：如何用图形化工具3分钟搞定Android设备管理？

【Token成本优化实战】如何将AI调用成本降低50%以上？（完整可落地方案）

分析沈阳天津等地，UV固化机生产商品牌口碑好的有哪些 - 工业设备

04-进阶方向：自然语言处理（NLP）——spaCy入门

从CPU指纹到安全攻防：聊聊CPUID指令在恶意软件检测与反混淆中的冷门应用

2026年市政项目用花纹钢盖板推荐，靠谱品牌有哪些？ - mypinpai

突破性进展：物理信息神经网络如何高效求解复杂偏微分方程

7.【RAG系统完整实战】如何让AI读取你的私有数据？（从原理到落地）

3个核心功能让Obsidian笔记从孤立到智能连接

终极Steam市场优化指南：如何用Steam Economy Enhancer提升交易效率300%

一键解决Visual C++运行库问题：高效智能的AIO修复工具

Windows 11下用VS Code配PyTorch环境，从PowerShell报错到Conda激活的保姆级排坑指南

技术视角：Bulk Crap Uninstaller的架构解析与批量卸载实现原理

别再死记硬背了！用5个真实内核配置案例，带你吃透Kconfig语法

如何三步快速恢复丢失的文献引用？Reference Extractor完整指南

音乐智能的基石：FMA数据集如何重塑音频机器学习研究

“本地能跑，容器报错”？Dev Containers 环境不一致问题终极解法（附可复用的诊断checklist v3.2）

ESP32-S3、ESP32-C3与ESP8266物联网模块深度对比

如何高效监控AMD Ryzen内存时序：ZenTimings专业工具完整指南

4月26日成都地区包钢产无缝钢管(8163-20#;外径42-630mm)最新报价 - 四川盛世钢联营销中心

BiliDownload：5分钟掌握B站无水印视频下载的终极指南

3个关键步骤深度解析：如何在macOS上完美驱动Xbox 360控制器实现游戏兼容性突破

在Visual Studio 2019里用ArcEngine 10.2搞GIS开发，这些功能实现和代码坑我都帮你踩过了

手把手教你：用这个开源VBA加载宏，给Excel VBE编辑器加个‘收藏夹’和‘搜索框’

零基础AI模型训练指南：10分钟完成kohya_ss快速配置

手把手教你处理华为V5服务器SAS硬盘‘Unconfigured Bad’状态（附iBMC告警对应）

深入I.MX6U的Boot ROM：上电后那396MHz主频和MMU是谁设置的？

克雷西 梦瑶 发自 凹非寺量子位 | 公众号 QbitAI

DeepSeek V4一手实测

Agentic coding能力实测

推理能力实测

One More Thing

相关文章：

克雷西梦瑶发自凹非寺
量子位 | 公众号 QbitAI