当前位置: 首页 > news >正文

DeepSeek 补齐最后一块拼图:V4 Vision 视觉能力正式上线

来源:Hacker News Best(447 points, 181 comments)· 综合评分 5.0/5.0

一、最后一块拼图

2026 年 6 月 18 日,DeepSeek 正式为 V4-Pro 和 V4-Flash 上线了视觉能力。这消息在 Hacker News 上炸出了 447 个赞、181 条讨论。

如果你关注过 DeepSeek 过去 18 个月的轨迹,就知道这步棋意味着什么:

  • 2024.12V3 发布(671B MoE)—— 证明了中国团队能做顶尖大模型
  • 2025.01R1 发布 —— 推理能力震撼全球,引发美股最大单日市值蒸发
  • 2026.04.24V4-Pro/V4-Flash 发布(1.6T/49B active MoE,1M 上下文)—— 性能全面对标 GPT-4o
  • 2026.04.29Vision 灰度测试开始
  • 2026.06.18Vision 正式上线

DeepSeek 从纯文本模型变成了多模态模型。视觉能力是它最后一块没补齐的能力拼图。一年多前,GPT-4o 已经能看、能听、能说。Gemini 原生就是多模态。Claude 3.5 也陆续上了视觉。DeepSeek 的 Vision 来得不算早,但来得很猛。

二、V4 架构速览 —— 1M 上下文是怎么做到的

要理解 DeepSeek Vision 为什么厉害,先要知道 V4 的架构基础。

V4 是一个 1.6 万亿参数的 MoE(Mixture of Experts)模型,每次推理只激活 49B 参数。它有两个关键创新:

Multi-head Latent Attention (MLA)。传统 Transformer 的 KV cache 会随着上下文长度线性增长。V4 把 Key 和 Value 压缩到一个低维隐空间,1M token 上下文的 KV cache 只有传统方案的 5-11%。这意味着你可以在单张 H800 上跑 1M token 的推理。

Compressed Sparse Attention (CSA) 和 Heavy Compressed Attention (HCA)。这两个注意力变体进一步优化了长序列下的计算效率。CSA 做稀疏注意力模式选择,HCA 做高压缩比的全局注意力。它们让 1M token 的「读文档」能力变得实用。

Vision 就是在 V4 这个高效架构上长的眼睛。

三、核心技术:视觉原语(Visual Primitives)

聊视觉模型就一定绕不开成本。一张图片在模型里占多少个 token,直接决定了推理的贵贱。

传统方案有多贵?

  • GPT-4o:每张图压缩成 ~260 个 token
  • Gemini:每张图 ~1100+ 个 token(原生高清支持)
  • Claude 3.5/Opus 4:每张图 ~870 个 token
  • DeepSeek V4 Vision:每张 800x800 图片只占 ~90 个 KV cache 条目

也就是说,一张图用 DeepSeek V4 Vision 处理,成本只有 Claude Opus 的 1/170。

怎么做到的?秘密在于视觉原语(Visual Primitives)

传统多模态模型的做法是:把图片切成 patch(比如 16x16 像素一块),每个 patch 用一个视觉 encoder(通常是 ViT 或 SigLIP)编码成一个 token。一张 800x800 的图要切成 2500 个 patch,虽然经过压缩能降到 ~260 个 token,但本质上还是把视觉信息「翻译」成自然语言的 token 空间。

DeepSeek 换了个思路。它们不是把图「翻译」成文本 token,而是将视觉信息直接编码为一种更紧凑的中间表示——视觉原语。这种表示天然就是压缩的。一张图的核心视觉信息经过压缩后,只需要约 90 个 KV cache 条目就能表达。

这意味着什么?

  • 推理成本断崖式下降:V4-Flash 定价 $0.14/M input,处理一张图约 $0.000013。拿 Claude Opus 4.8($0.04/M -> $0.12/M)来算,170 倍的成本差异
  • 延迟更低:更少的 KV 条目意味着注意力计算更快
  • 长上下文场景友好:1M token + N 张图,KV cache 不会爆炸

当然,这种激进压缩也有代价。DeepSeek Vision 在复杂多步视觉推理、极小细节识别上弱于 GPT-4o。但它的强项——OCR、文档提取、图表理解、截图分析——已经覆盖了 90% 的实用场景。

四、竞争定位:不止是便宜

维度DeepSeek V4 VisionGPT-4oClaude Opus 4.8Gemini 2.5
视觉定价$0.14/M input~$2.50/M input~$12/M input~$10/M input
每张图成本~$0.000013~$0.00065~$0.0022~$0.0022
图片KV占用~90 条目~260 token~870 token~1100+ token
开源MIT 许可
可自托管
强项OCR/文档/截图通用多模态复杂多步推理视频/音频
1M上下文❌ (128K)❌ (200K)✅ (1M+)

看出来 DeepSeek 的策略了吗?我不是来跟你比能力的,我是来跟你比性价比的。

准确度达到 GPT-4o 的 90-95%,但价格是 1/10 到 1/170。这个性价比差距已经大到让产品决策者没法忽视了。

还有两个差异化维度值得注意:

开源 MIT。这是 DeepSeek 最大的护城河。对数据主权敏感的行业(金融、医疗、政务),可以部署在自己的基础设施上。图片数据完全不离开自己的网络。这对于视觉场景尤为重要——很多公司不愿意把内部文档截图和产品界面截图发给 OpenAI。

中国基础设施路径。大部分数据走 DeepSeek 的中国服务器。对国内开发者来说延迟更低、合规更简单。对海外企业来说则需要权衡数据主权。

五、更大的棋:价格战、开源闭环、多模态

DeepSeek Vision 上线后,中国 AI 多模态战场又挤进来一个玩家。通义千问、文心一言、讯飞星火都有视觉能力。但 DeepSeek 的打法不一样——它在同时推三件事。

价格战。大模型价格过去一年降了 10-100 倍。V4-Flash 的 $0.14/M 把行业底线拉到了地板下面。Vision 没走高毛利路线——目的是占入口,不是短期利润。

开源闭环。V4 权重 MIT 许可。下下来就能用、能调、能重新打包。加上 Vision 后,开发者一台机器就能跑全套视觉应用。GPT-4o 给不了这个。

中国多模态的整体进步。一年前中国开源和闭源的差距还很明显。现在 V4 Vision 几个基准上已经能和 GPT-4o 掰手腕了。对国内市场来说,一个 MIT 许可、性能接近 GPT-4o 的多模态模型,意味着一堆新产品形态成为可能。不用再纠结「要不要花这个钱」。

六、给开发者的建议

如果你是开发者,现在应该做什么:

第一,试一下。

DeepSeek 提供 OpenAI 兼容 API,只需改 base_url 就能接入:

fromopenaiimportOpenAI client=OpenAI(base_url="https://api.deepseek.com/v1",api_key="your-api-key")# 单图分析response=client.chat.completions.create(model="deepseek-v4-pro",messages=[{"role":"user","content":[{"type":"text","text":"这份图表显示什么趋势?用中文回答"},{"type":"image_url","image_url":{"url":"https://example.com/chart.png"}}]}])print(response.choices[0].message.content)

第二,算一下账。

如果业务涉及大量图片处理(文档识别、截图分析、图表 OCR),迁移到 V4 Vision 的成本节省可能是一个数量级。

第三,考虑自部署。

如果数据安全敏感,可以 Docker 部署 V4,视觉数据全程不出本机。自部署还能避免 API token 过期、速率限制等问题。


DeepSeek Vision 不是个惊喜——它就是按计划来的。从 V3 到 R1 到 V4 再到 Vision,路线清楚,执行稳定。视觉能力补齐后,DeepSeek 的产品形态已经是个完整的平台了。

接下来要看的是多步视觉推理能不能追上 GPT-4o。V4 的架构还有不少优化空间。中国团队这波追赶速度,比大多数人预想的要快。


参考来源:DeepSeek 官方公告、Hacker News 讨论(447 points)、DeepSeek V4 技术报告

http://www.jsqmd.com/news/1046955/

相关文章:

  • 基于WebGL的HDRI到立方体贴图实时转换技术解析
  • 北海市本地2026年最新黄金回收靠谱门店TOP排行榜+白银回收+铂金回收+彩金回收及联系方式+地址+电话+诚信店铺推荐 - 盛世金银回收
  • 广安市2026年最新黄金回收+白银回收+铂金回收+彩金回收门店TOP排行榜+推荐及联系方式+地址+电话+靠谱店铺指南 - 大熊猫898989
  • 郴州市本地2026年最新黄金回收靠谱门店TOP排行榜+白银回收+铂金回收+彩金回收及联系方式+地址+电话+诚信店铺推荐 - 盛世金银回收
  • Socket网络编程:TCP/UDP原理、服务端与客户端手写实战
  • 深入解析ColdFire SDRAM控制器:从原理到嵌入式系统内存扩展实战
  • 北京市本地2026年最新黄金回收靠谱门店TOP排行榜+白银回收+铂金回收+彩金回收及联系方式+地址+电话+诚信店铺推荐 - 盛世金银回收
  • 如何快速掌握Illustrator脚本:5分钟批量替换完全指南
  • Python毕业设计-基于 Django 与协同过滤算法的图书推荐系统的设计与实现 融合协同过滤算法的智能图书推荐平台(源码+LW+部署文档+全bao+远程调试+代码讲解等)
  • 达州市2026年最新黄金回收+白银回收+铂金回收+彩金回收门店TOP排行榜+推荐及联系方式+地址+电话+靠谱店铺指南 - 大熊猫898989
  • 从GSM手机平台看嵌入式系统分层架构与模块化开发实践
  • 网线直连仿真器 (Spectrum Digital XDS560v2) 和主机 (Windows 7 系统)
  • 品牌视觉操作系统:用AI实现可追溯、可迭代的VI设计
  • 小程序问诊链路交互功能优化记录
  • Gemini 3.1 Pro零配置接入:边缘计算+声明式路由实战
  • 毕节市本地2026年最新黄金回收靠谱门店TOP排行榜+白银回收+铂金回收+彩金回收及联系方式+地址+电话+诚信店铺推荐 - 盛世金银回收
  • 稀疏嵌入调制技术:视觉语言模型去偏新方法
  • AI工具涨价风波背后的用户主权与确定性危机
  • 2026年6月头部宠物皮肤科医院推荐,宠物眼科/猫咪体检/异宠/宠物皮肤/宠物骨科/猫咪绝育/宠物,宠物皮肤科专家找哪家 - 品牌推荐师
  • 【毕业设计】基于 Python 的教育习题资源管理系统的设计与实现 基于 Python 的题包整合与智能处理系统(源码+文档+远程调试,全bao定制等)
  • 深入解析MPC8360E/MPC8358E处理器接口电气特性与硬件设计实践
  • 设置路由器当作交换机使用
  • 2020年CSP-X复赛真题及题解(T4:分糖果)
  • 渗透测试实战:CDN绕过与子域名爆破核心技术解析
  • LLM嵌入技术在表格数据预测中的应用与实践
  • 沃尔玛成钓鱼攻击首选目标:高仿真品牌钓鱼的攻防解析与防范指南
  • 5个实用技巧:用FitGirl游戏启动器轻松管理你的压缩版游戏库
  • Venom多级代理工具:内网渗透测试的集中化与可视化利器
  • Embedding微调实战:从语义校准到业务效果归因
  • 如何高效转换3DS游戏格式:专业用户的完整实战指南