当前位置: 首页 > news >正文

DeepSeek再开源3B-MoE-OCR模型,视觉压缩高达20倍,支持繁琐图表解析等多模态能力!

上周五下午 3 点 17 分,正在公司吭哧吭哧加班,突然看到 DeepSeek 官网弹出消息提醒:

“3B 参数的 OCR 模型,10 倍压缩,97% 精度,开源。”

作为一名 AI 博主,这么重要的模型那必须得尝尝鲜测试下了!要知道 GPT-4V 处理一页 PDF 得吃掉上千 Token,钱包直接破防。结果 DeepSeek-OCR 说:“兄弟,我只要你的十分之一 Token 数量!”

它到底怎么做到的?

那 DeepSeek 最新的 OCR 模型是如何做到能够使用少量视觉 token 就完成了海量文本压缩的?这主要得益于它的两个强大核心组件:DeepEncoder 和 DeepSeek3B-MoE 解码器!今天我们就来详细剖析下这两样组件是啥以及都有什么能力!

1. 双塔结构——SAM 抠细节,CLIP 看全局

DeepEncoder 这玩意儿像个双头怪

  • SAM-base(80M):窗口注意力,专门抠局部,高分辨率也不爆显存。
  • CLIP-large(300M):全局注意力,扫一眼就知道这是化学式还是饼图。

中间夹一个 16× 卷积压缩层,两步 stride=2 的卷积,把 4096 个 patch token 直接砍到 256 个。简单粗暴,效果拔群。

2. 五种分辨率模式——从 Tiny 到 Gundam

模式分辨率输出 Token适用场景
Tiny512×51264手机端实时拍
Small640×640100轻量服务器
Base1024×1024256默认,平衡
Large1280×1280400高清扫描
Gundam动态自适应超大图分块

3. MoE 解码器——570M 激活参数,省钱又省显存

解码器用 DeepSeek-3B-MoE-A570M,每次只激活 570M 参数。公式长这样:

翻译成人话:把 256 个视觉 Token 翻译成几千个文本 Token,但算力只花 570M 的份。

实测数据——真的没吹牛

10 倍压缩:OCR 精度 97%,跟原版几乎没差。

20 倍压缩:还能剩 60% 准确率,应急够用。

单卡 A100-40G:一天干 20 万页 PDF,生产队驴都没它能打。

它能干啥?

1. 学术狗福音——化学公式、数学符号一键转 LaTeX

“之前我用 Mathpix 转公式,一页 3 美元,现在直接本地跑,钱包回血。”

—— 某 985 研二学生,昨晚刚跑完 500 页论文

2. 企业数字化——合同、报表秒变可搜索文本

某跨国律所上周上线,一天扫完 10 年历史合同,老板一下又节省了上万的人工成本!

3. 多语言地狱——僧伽罗文、阿拉伯文都不虚

官方数据:支持识别100 种语言,包括中文、英文、阿拉伯文、僧伽罗文……
实测阿拉伯语 PDF,连从右往左的排版都没翻车。

怎么玩?

GitHub 一把梭

git clone https://github.com/deepseek-ai/DeepSeek-OCR
pip install -r requirements.txt
python demo.py --image your.pdf --output out.md

HuggingFace 两行代码搞定

从 HuggingFace 看,下载完工程后只需要执行以下两行代码,即可快速上手使用!

from deepseek_ocr import DeepSeekOCR
model = DeepSeekOCR.from_pretrained("deepseek-ai/DeepSeek-OCR")
out = model.predict("paper.png", prompt="Convert to markdown.")

最后说两句

说白了,DeepSeek-OCR 就是给长文本处理装上了涡轮增压——
同样的内容,别人烧 1000 Token,你只要 100 个,而且识别的精度还更高。

毕竟谁不想省钱又省显存呢?


想本地部署的可以从以下仓库区下载源码,官网附带了详细部署教程

GitHub 仓库:https://github.com/deepseek-ai/DeepSeek-OCR
HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-OCR

http://www.jsqmd.com/news/370651/

相关文章:

  • 2026年中银通支付卡回收值得一试的三类品牌渠道 - 淘淘收小程序
  • Claude Opus 4.6 关于智慧和灵活的回答
  • 嵌入式学习笔记 - 舵机
  • 2026国产高端EDA工具推荐:自主可控优选 - 品牌2025
  • 从工具到伙伴:以“系统性思维”迎接AI推理赋能的新创业时代
  • 多播委托
  • 2026年质量好的工业设备输送线/铝型材输送线销售厂家推荐哪家好(真实参考) - 品牌宣传支持者
  • 2026年靠谱的动力配电柜/非标配电柜销售厂家推荐哪家好(真实参考) - 品牌宣传支持者
  • AI推理时代开启,创客匠人助力创业者拥抱“智能创业”新范式
  • 02. GUIStyle
  • 【Django毕设全套源码+文档】基于python的养老院健康跟踪系统分析与设计(丰富项目+远程调试+讲解+定制)
  • 旺财助手操作指南
  • 【Django毕设全套源码+文档】基于django的羽毛球服务管理系统的设计与实现(丰富项目+远程调试+讲解+定制)
  • 2026年评价高的机用打包带/手工打包带哪家强生产厂家实力参考 - 品牌宣传支持者
  • 2026年横梁货架品牌精选,这些品牌值得信赖,阁楼货架/仓库货架/货架/中型货架/层板货架,横梁货架生产商推荐榜单 - 品牌推荐师
  • 【Django毕设全套源码+文档】基于django+协同过滤算法的图书推荐系统设计与实现的设计与实现(丰富项目+远程调试+讲解+定制)
  • 基于虚拟力驱动的传感器网络覆盖优化MATLAB实现
  • 2026年口碑好的迷你装冷冻薯条/大份冷冻薯条质量评分排名 - 品牌宣传支持者
  • 【Django毕设全套源码+文档】基于django的县志捐赠与借阅信息管理系统的设计与实现(丰富项目+远程调试+讲解+定制)
  • 【数学】街头写数字赢奖品套路揭秘,看似简单实则藏着心理与概率的双重陷阱
  • 2026年靠谱的糖浆转子泵/酱料转子泵厂家信誉综合参考 - 品牌宣传支持者
  • 脚踏石公司服务比较:从响应到落地的关键点,地铺石/石材/冰裂纹/贴墙石/碎拼石/蘑菇石/砌墙石,脚踏石公司推荐榜单 - 品牌推荐师
  • 基于Matlab车牌识别系统
  • 生态开放度对决:是选择“全家桶”闭环,还是拥抱“最佳组合”开放平台?
  • 游戏大厂技术护城河:你以为他们靠“美术和买量”,其实背后全是硬家伙
  • 2026 工业传动带优选品牌 宁波贝递:同步带/v带/同步带轮/聚氨酯同步带全品类智造标杆 - 深度智识库
  • 2026年评价高的安全阀/蒸汽安全阀哪家专业工厂直供推荐 - 品牌宣传支持者
  • 基于matlab的车牌识别系统设计
  • 基于STM32的永磁同步电机控制:从原理图到代码实现
  • PHP原生App开发新突破:深圳昊客网络携NativePHP v3让企业APP开发成本降低80% - 专业GEO营销推广