当前位置: 首页 > news >正文

DeepSeek-OCR 2上线魔乐社区,让AI像人一样读文档

当我们阅读一页复杂文档时,视线并不是从左上到右下机械扫描,而是会沿着标题、段落、表格、公式的逻辑顺序自然跳转。DeepSeek 最新发布的 DeepSeek-OCR 2,正是第一次把这种人类阅读逻辑引入OCR模型架构。它不仅识别更准,更重要的是,模型开始学会按语义顺序理解图像,迈向真正的2D推理。

该模型已上线魔乐社区,欢迎开发者下载体验:

🔗 https://modelers.cn/models/deepseek-ai/DeepSeek-OCR-2

模型核心亮点

🚀 亮点一:提出全新视觉因果流(Visual Causal Flow)

DeepSeek-OCR 2 提出图像 token 的顺序应该由语义决定,而不是坐标决定。论文称之为 Visual Causal Flow(视觉因果流)。模型会像人眼一样,根据内容动态调整阅读顺序。

🚀 亮点二:DeepEncoder V2,用语言模型做视觉编码器

DeepSeek-OCR 2 最大的架构创新是 DeepEncoder V2。相较于前代DeepEncoder使用CLIP作为视觉知识压缩模块,V2版本直接用一个小型LLM(Qwen2-0.5B)替代 CLIP 模块,这种设计让 encoder 本身具备因果推理能力。

🚀 亮点三:性能大幅提升,token更少,效果更强

在主流的OmniDocBench v1.5 文档解析基准上,DeepSeek-OCR 2在所有端到端模型中,使用最小的视觉Token上限,取得了91.09%的SOTA综合得分。同时,阅读顺序错误率显著下降,这说明 DeepEncoder V2 确实学会了更符合逻辑的文档阅读路径。

🚀 亮点四:生产可用性提升,重复输出更少

DeepSeek-OCR 2 不仅 benchmark 更强,在真实线上场景也更稳定。无论是处理在线用户日志图像还是PDF数据,DeepSeek-OCR 2的重复率都显著低于前代模型。

🔮 更重要的意义:迈向真正的2D推理

DeepSeek团队提出一个非常有启发性的方向:2D图像理解是否可以通过两个互补的1D因果推理子任务实现?同时,DeepEncoder V2初步验证了语言模型架构作为 VLM 编码器的可行性,这可能是一条通向“原生多模态统一编码器”的新路线。

http://www.jsqmd.com/news/351032/

相关文章:

  • 2026年产品管理系统测评:对比选型避坑+能力模型评分
  • 豆包可以做广告吗?2026如何通过豆包AI推广获客? - 品牌2025
  • 魔乐上新 | PaddleOCR-VL-1.5发布问鼎双榜,0.9B小钢炮攻克“曲面”文档!
  • 基于单片机的汽车多参数安全检测与报警环境设计
  • LeetCode 3634.使数组平衡的最少移除数目:滑动窗口+优化(一次二分查找+剪枝)
  • 某中心与高校成立AI-ML联合研究计划
  • 从零开始:用Redis构建大数据实时分析系统的完整指南
  • Claude Code CLI 接入Kimi K2.5模型
  • 代价函数,矩阵的计算
  • algo
  • 2026国自然申请书模板大改版,科研人员如何应对?
  • 数据库容器和 Kubernetes 演进
  • 算法学习——素数筛法
  • 凝胶过滤层析
  • 每位漏洞赏金猎手必用的十大必备工具
  • 多糖纯化干货指南
  • 物联网传感器数据:大数据分析的黄金矿藏
  • JEX优化发展路径,数字金融平台进入深度建设期
  • P1775 石子合并(弱化版)
  • AI应用架构师晋升路径:技术专家 vs 管理路线,该怎么选?
  • 2026年如何选择最优质的加密软件与数据防泄露系统服务商进行评测? - 睿易优选
  • JEX强化基础结构,应对全球数字资产环境变化
  • LocalDate,LocalDateTime,Date,日期串相互转换
  • AT_abc360_c [ABC360C] Move It
  • 免密批量抓取日志并集中输出
  • P1057 [NOIP2008 普及组] 传球游戏 题解
  • CANN 生态安全基石:`cann-security-module` 如何构建可信 AI 执行环境
  • 备考2026执医,新课程推荐哪一个? - 医考机构品牌测评专家
  • Spring AI Alibaba 核心组件
  • CANN 生态工具链实战:用 `profiler` 项目深度优化模型性能