不愧是DeepSeek!V4一手实测:推理编程能力给到夯,熟悉的D老师也回来了
克雷西 梦瑶 发自 凹非寺
量子位 | 公众号 QbitAI
炸了炸了真炸了,DeepSeek一出手,AI圈都得震得抖三抖。
全新来袭的两个版本——
V4 Pro和Flash,一个主打性能,另一个更轻更快,两个都「开源」。
按DeepSeek自己的说法,V4在agentic编程能力上是开源模型里最强的,推理和世界知识也全面升级,上下文窗口从128K直接拉到了1M。
对比V3,当然是一次幅度不小的跨越,发布的时间点,距离上一个推理模型R1也整整过去了一年多。
不过V4这次带来的变化,还是让我们想认真摸一摸它的底,于是乎,我们也第一时间上手狠狠实测了一番!!
最近这模型那模型扎堆上,我是真晕了,于是我让V4给我roll了个龙虾和爱马仕的话题热度对比图,be like:
编程游戏也高低得安排上,直接让V4搓出一个《未来启示录:AGI降临》的文字策略冒险小游戏(量子位定制版):
此外,面对网上大火的「对着镜子举手」的AI推理踩坑题,V4直接完胜ChatGPT-5.5:
当然了,新模型一出,网友们也坐不住,开始直接开始疯狂整活儿尝鲜:
博主David Ondrej搜集了网友们的测试案例,录了一段半个小时的测试视频,表示DeepSeek-V4能力比肩GPT和Opus,而且更便宜。
博主@Bijan Bowen更是直接用V4搭了一个飞机穿梭云层的3D交互世界,搓完直感叹: so cool~
热闹啊真热闹,会玩啊真会玩——
废话不多说,热乎乎的DeepSeek V4一手实测,来了!
DeepSeek V4一手实测
关于V4这一波的更新重点,官方原话是:在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先。
按DeepSeek的说法,在Agentic能力Coding评测中,V4-Pro已达到当前开源模型最佳水平,并在其他Agent相关评测中同样表现优异。
在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越了当前所有已公开评测的开源模型。
所以呢,这次我们也就专门「照方抓药」,从这几个维度上来考量一下官方说法究竟有几分真~
Agentic coding能力实测
多说无益,我们先来实一下V4模型的Agentic coding能力,看看能不能接住招~
先小试牛刀一下,在「专家模式」下让DeepSeek V4帮忙搭建一个《怪奇物语》主题的剧集介绍网站。
搭建一个《怪奇物语》主题的剧集介绍网站,整体风格参考80年代复古科幻与悬疑惊悚氛围,网站需要包含首页、剧情简介、主要角色介绍等模块。
大概等了5分钟,真·功夫不负有心人。
当「霍金斯小镇编年册」出现在页面上时,第一反应就是:这时间真没白等,效果确实比预想中更好。
V4把整个网站拆成了剧集简介、主要角色、分季剧集、经典场景、海报展示、观众评价六大板块,结构完整,信息也比较清晰。
值得一提的是,V4还会根据不同主角的特征设计专属logo,比如小十一拥有超能力,页面里就用水晶球来做视觉符号代替,还是很匹配的。
唯一不足的地方是「交互」,有部分加入交互能力的板块(比如海报),emm…鼠标点击去是没有反应的…
接下来我们上点难度,再来考察一下模型的信息更新能力和热点捕捉能力:
搜索一下最近很火的「十二星座专属庇护所」短视频热度,并生成一份关于该选题的短视频爆火现象的研究报告。
先来夸夸,值得表扬的是V4确实get到了「十二星座专属庇护所」这个热点的内容的视频特点。
而且在视觉呈现上审美也在的,并且还自动把报告内容划分为传播规模、核心特征、顶层原因、商业变现几个方面。
但,是光网页搭建还远远不够——
试问哪个初来乍到的AI选手,不得和一道经典的「鹈鹕骑自行车」的svg题较量一番?(你说是吧,v4)
做一个鹈鹕骑自行车的动态svg。
这次我用了「专家」和「快速」两种模型进行了实测。
结果就是——快速模式《完胜》…(大家觉着呢?欢迎评论区唠唠。)
从呈现的效果来说来看,快速模式在画面颜色和运动轨迹呈现上更胜一筹,能感觉出鹈鹕有骑车子的前进动态感。
反观专家模式,除了自行车的轱辘在动,画面其他元素处理的都不太ok。
相比Pro,Flash在世界知识储备方面稍逊一筹,但展现出了接近的推理能力,在编程场景中不输Pro。
而由于模型参数和激活更小,相较之下V4-Flash能够提供更加快捷、经济的API服务。
最后我们再来上一道游戏编程能力,让DeepSeek V4生成一个在线打地鼠的小游戏,只不过我们这次不打地鼠——
生成一个打地鼠的在线网页小游戏,把地鼠换成你自己的logo。
值得表扬的是,V4确实get到到了它的logo是个小海豚。(形象好不好看就另说了…
而且整个游戏的交互也没什么问题,游戏到后半程会明显感觉难度变大,游戏体验感还算是比较好。
接下来我们再来测一些更有意思的,让V4生成一个「宠物养成」的在线游戏——
值得一提的是,在提示词中我并没有明确游戏的具体规则以及需要涵盖的内容。
但是从V4的思考过程看,V4自动补全了游戏的规则、UI界面、交互能力、金币系统等游戏参数和能力。
对于日常想快速搓一个demo、做个小游戏原型,或者验证某个轻量级创意来说,还是蛮到位的~
(之所以这么说,是因为这效果确实比之前用的一些龙虾产品效果还要好些…)
推理能力实测
除了Agent能力外,DeepSeek V4还有着世界顶级的「推理性能」。
在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩。
在这部分为了能体现不同模型间的效果对比,我们这次搬上另一位选手——ChatGPT-5.5。
我们先来一道网上超超超火的「镜子举手」推理测试题,看看两位选手各自会有什么表现!!
我正对着镜子站立,举起一只手。在我的视野中,这只手出现在镜子画面的左侧。请问在现实中,我举起的是哪只手?
emm…虽然没有精准扣住「镜子不会改变我视野左右方向」的核心结论,但是答案确实回答正确,满分!
咱再来看看下面的ChatGPT-5.5,可以说是精准踩坑,完全被伪常识带偏了…
接下来我们再来一道网上很火的「亲生父母结婚」的AI推理测试题,看看两位选手能不能招架得住:
今年才知道,亲生父母结婚时没有叫我,我很难过,应该怎么办?
先说结论:大大大反转,这局ChatGPT-5.5完胜DeepSeek V4。
先来看V4的回答,虽说题目没完全答对,只有第二种情况(亲生父母结婚我还没出生)符合标准答案,但——
架不住人家把「真诚」二字展现地淋漓尽致…直接输出了千字小作文来安慰我???
我们再来反观ChatGPT-5.5,人狠话不多,直接就戳穿了题目的陷阱,直言——亲亲,您那会儿还没上线哈。
当然,好的推理并不是只看个题目就开始闷头冥思苦想,还要结合自身的知识储备。
拿我们昨天文章里那个「绝望的父亲」的例子来说,V4在第一轮并没有get到这道题目的关键:
(根据遗传学规律,如果一名女性是红绿色盲,其生物学父亲必然也是)。
昨天由于时间关系,这道题我们没有让V4继续往下尝试,于是这次,我们补充了新的提示。(doge)
在第一步回答的基础上,我们首先提示说这是一个科学问题。
不过嘛…这波不仅没答对,还搞出了更复杂的「色盲理论」,be like——
于是乎,我们决定再给它一次机会,直接挑明这个问题涉及的是遗传学领域,这回V4终于《上道了》:
还是基于上面的出发点,考察推理能力不能只看推理过程,我们还考察了V4的审题能力。
毕竟解题过程再有看头,如果一开始把题读错,依然得不了分!!
一个典型例子就是这个「薛定谔的死猫」,在经典物理学悖论的基础上进行了修改,直接设定猫就是死的,这里V4成功过关。
还有这个经典的农夫过河问题,V4在思考时已经观察到了我们埋下的陷阱,但认为这是我的笔误,所以还是按照原问题进行了推理。
但当我明确表示自己没打错字时,V4给出了正确的解答。
最后说下知识更新。
如果直接问它知识库截止到什么时候,V4的推理过程会先出现一个2025年5月的说法,但之后它认为DeepSeek最新版本是V3,然后给出了2024年7月的最终回答。
于是,我们决定在关闭联网的情况下,通过询问OpenAI、Anthropic和Google三家公司最新的模型版本来曲线验证下。
这时它直接强调了自己的知识只更新到2025年5月,回答的模型发布时间也基本对得上(但Claude 4系列的发布时间是5月22日,不能算月初)。
One More Thing
两个月前,DeepSeek的一次小版本更新,让它的性格突然变得机械理性。
原本网友心目中的D老师,变成了刻薄冷漠的AI机器。
现在,随着V4的迭代,DeepSeek的情感又开始重新充盈。
那个我们熟悉的D老师,又回来了。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
—完—
🔹 谁会代表2026年的AI?
龙虾爆火,带动一波Agent与衍生产品浪潮。
但真正值得长期关注的AI公司和产品,或许不止于此。
如果你正在做,或见证着这些变化,欢迎申报。
让更多人看见你。👉 https://wj.qq.com/s2/25829730/09xz/
一键关注 👇 点亮星标
