当前位置：首页 > news >正文

DeepSeek-OCR 2上线魔乐社区，让AI像人一样读文档

news 2026/7/11 19:50:23

当我们阅读一页复杂文档时，视线并不是从左上到右下机械扫描，而是会沿着标题、段落、表格、公式的逻辑顺序自然跳转。DeepSeek 最新发布的 DeepSeek-OCR 2，正是第一次把这种人类阅读逻辑引入OCR模型架构。它不仅识别更准，更重要的是，模型开始学会按语义顺序理解图像，迈向真正的2D推理。

该模型已上线魔乐社区，欢迎开发者下载体验：

🔗 https://modelers.cn/models/deepseek-ai/DeepSeek-OCR-2

模型核心亮点

🚀 亮点一：提出全新视觉因果流（Visual Causal Flow）

DeepSeek-OCR 2 提出图像 token 的顺序应该由语义决定，而不是坐标决定。论文称之为 Visual Causal Flow（视觉因果流）。模型会像人眼一样，根据内容动态调整阅读顺序。

🚀 亮点二：DeepEncoder V2，用语言模型做视觉编码器

DeepSeek-OCR 2 最大的架构创新是 DeepEncoder V2。相较于前代DeepEncoder使用CLIP作为视觉知识压缩模块，V2版本直接用一个小型LLM（Qwen2-0.5B）替代 CLIP 模块，这种设计让 encoder 本身具备因果推理能力。

🚀 亮点三：性能大幅提升，token更少，效果更强

在主流的OmniDocBench v1.5 文档解析基准上，DeepSeek-OCR 2在所有端到端模型中，使用最小的视觉Token上限，取得了91.09%的SOTA综合得分。同时，阅读顺序错误率显著下降，这说明 DeepEncoder V2 确实学会了更符合逻辑的文档阅读路径。

🚀 亮点四：生产可用性提升，重复输出更少

DeepSeek-OCR 2 不仅 benchmark 更强，在真实线上场景也更稳定。无论是处理在线用户日志图像还是PDF数据，DeepSeek-OCR 2的重复率都显著低于前代模型。

🔮 更重要的意义：迈向真正的2D推理

DeepSeek团队提出一个非常有启发性的方向：2D图像理解是否可以通过两个互补的1D因果推理子任务实现？同时，DeepEncoder V2初步验证了语言模型架构作为 VLM 编码器的可行性，这可能是一条通向“原生多模态统一编码器”的新路线。

查看全文

http://www.jsqmd.com/news/351032/

2026年产品管理系统测评：对比选型避坑+能力模型评分

豆包可以做广告吗？2026如何通过豆包AI推广获客？ - 品牌2025

魔乐上新 | PaddleOCR-VL-1.5发布问鼎双榜，0.9B小钢炮攻克“曲面”文档！

基于单片机的汽车多参数安全检测与报警环境设计

LeetCode 3634.使数组平衡的最少移除数目：滑动窗口+优化(一次二分查找+剪枝)

某中心与高校成立AI-ML联合研究计划

从零开始：用Redis构建大数据实时分析系统的完整指南

Claude Code CLI 接入Kimi K2.5模型

代价函数，矩阵的计算

algo

2026国自然申请书模板大改版，科研人员如何应对？

JEX优化发展路径，数字金融平台进入深度建设期

P1775 石子合并（弱化版）

AI应用架构师晋升路径：技术专家 vs 管理路线，该怎么选？

2026年如何选择最优质的加密软件与数据防泄露系统服务商进行评测？ - 睿易优选

JEX强化基础结构，应对全球数字资产环境变化

LocalDate,LocalDateTime,Date,日期串相互转换

AT_abc360_c [ABC360C] Move It

免密批量抓取日志并集中输出

P1057 [NOIP2008 普及组] 传球游戏题解

CANN 生态安全基石：`cann-security-module` 如何构建可信 AI 执行环境

备考2026执医，新课程推荐哪一个？ - 医考机构品牌测评专家

Spring AI Alibaba 核心组件

CANN 生态工具链实战：用 `profiler` 项目深度优化模型性能

相关文章：