当前位置：首页 > news >正文

DeepSeek 补齐最后一块拼图：V4 Vision 视觉能力正式上线

news 2026/6/20 7:02:04

来源：Hacker News Best（447 points, 181 comments）· 综合评分 5.0/5.0

一、最后一块拼图

2026 年 6 月 18 日，DeepSeek 正式为 V4-Pro 和 V4-Flash 上线了视觉能力。这消息在 Hacker News 上炸出了 447 个赞、181 条讨论。

如果你关注过 DeepSeek 过去 18 个月的轨迹，就知道这步棋意味着什么：

2024.12V3 发布（671B MoE）—— 证明了中国团队能做顶尖大模型
2025.01R1 发布 —— 推理能力震撼全球，引发美股最大单日市值蒸发
2026.04.24V4-Pro/V4-Flash 发布（1.6T/49B active MoE，1M 上下文）—— 性能全面对标 GPT-4o
2026.04.29Vision 灰度测试开始
2026.06.18Vision 正式上线

DeepSeek 从纯文本模型变成了多模态模型。视觉能力是它最后一块没补齐的能力拼图。一年多前，GPT-4o 已经能看、能听、能说。Gemini 原生就是多模态。Claude 3.5 也陆续上了视觉。DeepSeek 的 Vision 来得不算早，但来得很猛。

二、V4 架构速览 —— 1M 上下文是怎么做到的

要理解 DeepSeek Vision 为什么厉害，先要知道 V4 的架构基础。

V4 是一个 1.6 万亿参数的 MoE（Mixture of Experts）模型，每次推理只激活 49B 参数。它有两个关键创新：

Multi-head Latent Attention (MLA)。传统 Transformer 的 KV cache 会随着上下文长度线性增长。V4 把 Key 和 Value 压缩到一个低维隐空间，1M token 上下文的 KV cache 只有传统方案的 5-11%。这意味着你可以在单张 H800 上跑 1M token 的推理。

Compressed Sparse Attention (CSA) 和 Heavy Compressed Attention (HCA)。这两个注意力变体进一步优化了长序列下的计算效率。CSA 做稀疏注意力模式选择，HCA 做高压缩比的全局注意力。它们让 1M token 的「读文档」能力变得实用。

Vision 就是在 V4 这个高效架构上长的眼睛。

三、核心技术：视觉原语（Visual Primitives）

聊视觉模型就一定绕不开成本。一张图片在模型里占多少个 token，直接决定了推理的贵贱。

传统方案有多贵？

GPT-4o：每张图压缩成 ~260 个 token
Gemini：每张图 ~1100+ 个 token（原生高清支持）
Claude 3.5/Opus 4：每张图 ~870 个 token
DeepSeek V4 Vision：每张 800x800 图片只占 ~90 个 KV cache 条目

也就是说，一张图用 DeepSeek V4 Vision 处理，成本只有 Claude Opus 的 1/170。

怎么做到的？秘密在于视觉原语（Visual Primitives）。

传统多模态模型的做法是：把图片切成 patch（比如 16x16 像素一块），每个 patch 用一个视觉 encoder（通常是 ViT 或 SigLIP）编码成一个 token。一张 800x800 的图要切成 2500 个 patch，虽然经过压缩能降到 ~260 个 token，但本质上还是把视觉信息「翻译」成自然语言的 token 空间。

DeepSeek 换了个思路。它们不是把图「翻译」成文本 token，而是将视觉信息直接编码为一种更紧凑的中间表示——视觉原语。这种表示天然就是压缩的。一张图的核心视觉信息经过压缩后，只需要约 90 个 KV cache 条目就能表达。

这意味着什么？

推理成本断崖式下降：V4-Flash 定价 $0.14/M input，处理一张图约 $0.000013。拿 Claude Opus 4.8（$0.04/M -> $0.12/M）来算，170 倍的成本差异
延迟更低：更少的 KV 条目意味着注意力计算更快
长上下文场景友好：1M token + N 张图，KV cache 不会爆炸

当然，这种激进压缩也有代价。DeepSeek Vision 在复杂多步视觉推理、极小细节识别上弱于 GPT-4o。但它的强项——OCR、文档提取、图表理解、截图分析——已经覆盖了 90% 的实用场景。

四、竞争定位：不止是便宜

维度	DeepSeek V4 Vision	GPT-4o	Claude Opus 4.8	Gemini 2.5
视觉定价	$0.14/M input	~$2.50/M input	~$12/M input	~$10/M input
每张图成本	~$0.000013	~$0.00065	~$0.0022	~$0.0022
图片KV占用	~90 条目	~260 token	~870 token	~1100+ token
开源	MIT 许可	❌	❌	❌
可自托管	✅	❌	❌	❌
强项	OCR/文档/截图	通用多模态	复杂多步推理	视频/音频
1M上下文	✅	❌ (128K)	❌ (200K)	✅ (1M+)

看出来 DeepSeek 的策略了吗？我不是来跟你比能力的，我是来跟你比性价比的。

准确度达到 GPT-4o 的 90-95%，但价格是 1/10 到 1/170。这个性价比差距已经大到让产品决策者没法忽视了。

还有两个差异化维度值得注意：

开源 MIT。这是 DeepSeek 最大的护城河。对数据主权敏感的行业（金融、医疗、政务），可以部署在自己的基础设施上。图片数据完全不离开自己的网络。这对于视觉场景尤为重要——很多公司不愿意把内部文档截图和产品界面截图发给 OpenAI。

中国基础设施路径。大部分数据走 DeepSeek 的中国服务器。对国内开发者来说延迟更低、合规更简单。对海外企业来说则需要权衡数据主权。

五、更大的棋：价格战、开源闭环、多模态

DeepSeek Vision 上线后，中国 AI 多模态战场又挤进来一个玩家。通义千问、文心一言、讯飞星火都有视觉能力。但 DeepSeek 的打法不一样——它在同时推三件事。

价格战。大模型价格过去一年降了 10-100 倍。V4-Flash 的 $0.14/M 把行业底线拉到了地板下面。Vision 没走高毛利路线——目的是占入口，不是短期利润。

开源闭环。V4 权重 MIT 许可。下下来就能用、能调、能重新打包。加上 Vision 后，开发者一台机器就能跑全套视觉应用。GPT-4o 给不了这个。

中国多模态的整体进步。一年前中国开源和闭源的差距还很明显。现在 V4 Vision 几个基准上已经能和 GPT-4o 掰手腕了。对国内市场来说，一个 MIT 许可、性能接近 GPT-4o 的多模态模型，意味着一堆新产品形态成为可能。不用再纠结「要不要花这个钱」。

六、给开发者的建议

如果你是开发者，现在应该做什么：

第一，试一下。

DeepSeek 提供 OpenAI 兼容 API，只需改 base_url 就能接入：

fromopenaiimportOpenAI client=OpenAI(base_url="https://api.deepseek.com/v1",api_key="your-api-key")# 单图分析response=client.chat.completions.create(model="deepseek-v4-pro",messages=[{"role":"user","content":[{"type":"text","text":"这份图表显示什么趋势？用中文回答"},{"type":"image_url","image_url":{"url":"https://example.com/chart.png"}}]}])print(response.choices[0].message.content)