当前位置: 首页 > news >正文

完整教程:【Deepseek OCR】重磅测试,mac环境下的体验【本人已经本地实验成功】

文章目录

    • Deepseek ocr 这模型
      • 模型下载
    • 使用用再说
      • 先下下来尝试一下
      • 搭配环境 【conda环境】
      • 使用 hf-mirror.com 替换 https://huggingface.co
      • 报错指南
        • model镜像无法下载
        • 报错cuda错误
      • 最终结果
    • Todo后续会使用gradio来体验
    • 有兴趣拉一下

Deepseek ocr 这模型

在人工智能时代,光学字符识别(OCR)技术已成为数字化转型的核心引擎,从文档扫描到知识提取,其应用正日益扩展。2025年10月20日,DeepSeek-AI团队开源了DeepSeek-OCR模型,这款约30亿参数的视觉-语言模型(VLM)以“上下文光学压缩”(Contexts Optical Compression)为核心创新,通过将长文本转化为视觉令牌,实现7-20倍的压缩率,同时保持高精度。该模型在撰写本文戒指10月23日10:00已在GitHub上迅速积累超过12K星,备受Andrej Karpathy等行业大咖青睥。本文从源码分析、架构设计、本地案例验证及实际使用场景四个维度,深入剖析DeepSeek-OCR的效果与潜力,揭示其在OCR领域的突破性价值。

说了很多,模型参数(3B)足够本地运行了,本人mac 本地环境,想针对该模型进行工作适配。

模型下载

https://huggingface.co/deepseek-ai/DeepSeek-OCR

镜像地址

https://hf-mirror.com/deepseek-ai/DeepSeek-OCR

使用用再说

先下下来尝试一下

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git

如果网络有问题使用如下

git clone https://gitee.com/ZhangALiang/DeepSeek-OCR.git

本人在镜像上用pdf mathTranslate生成了一份中文版论文。可以对照着看。

搭配环境 【conda环境】

conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr

下载依赖

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0
pip install -r requirements.txt

注意,本人使用pip install torch2.6.0 torchvision0.21.0 torchaudio2.6.0 --index-url https://download.pytorch.org/whl/cu118 无法下载。
也没有安装pip install flash-attn
2.7.3 --no-build-isolation
也就是没有使用vllm

使用 hf-mirror.com 替换 https://huggingface.co

在这里插入图片描述

# HUGGINGFACE_CO_URL_HOME = "https://huggingface.co/"
HUGGINGFACE_CO_URL_HOME = "https://hf-mirror.com/"
_HF_DEFAULT_ENDPOINT = "https://hf-mirror.com"
# _HF_DEFAULT_ENDPOINT = "https://huggingface.co"

报错指南

model镜像无法下载
# 1. 设置镜像源(核心)
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
# (可选)2. 设置本地缓存路径(避免每次下载到默认目录)
os.environ["HUGGINGFACE_HUB_CACHE"] = "./my_hf_cache"
报错cuda错误

由于本地是mac的,不支持cuda,那么出现cuda错误,那么就跳转到指定位置,对cuda()注解掉就行。在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

最终结果

识别还是挺准的。就是有点慢

可鞥会更

Todo后续会使用gradio来体验

有兴趣拉一下

代码在
在这里插入图片描述
而且输出内容。有文字内容,同时还有图像分割。
在这里插入图片描述

调整代码地址

http://www.jsqmd.com/news/47656/

相关文章:

  • 使用C# Channel实现工位流水线调度系统
  • 2025年发电机制造厂权威推荐榜单:康姆勒原装发电机组/康姆勒发电机组/全自动柴油发电机组源头厂家精选
  • 2025百元白酒精选推荐指南:十大香型佳酿与纯粮酒挑选策略
  • BLOG1-NCHU-单部电梯调度程序
  • Hadoop生态系统怎样优化存储性能
  • 【matlab】机器学习入门之旅
  • web漏洞、waf繞過和前端加密繞過
  • 部署tendis 集群
  • P4555 [国家集训队] 最长双回文串 踢姐
  • 2025年水肥一体机制造厂权威推荐榜单:便携式水肥一体机/全自动喷淋系统/简易水肥一体源头厂家精选
  • 23207225-华辉-第一次blog作业
  • 英语_阅读_AI models_待读
  • 11.22组会
  • 2025年食品厂生产用水紫外线消毒设备优质厂家权威推荐榜单:牛奶厂紫外线消毒设备/饮料杀菌紫外线消毒设备/啤酒生产紫外线消毒设备源头厂家精选
  • 2025年福建钨钢棒回收公司权威推荐榜单:福州钨钢合金回收/福建钨钢模具回收/福建钨钢块回收服务商精选
  • 扩展RTCM消息 - 教程
  • java.nio.charset.MalformedInputException: Input length = 1
  • 线段树问题-从熟练到精通
  • 完整教程:Flowable工作流引擎:核心表结构概述
  • 2025年粗糙轮廓仪厂家权威推荐榜单:轮廓仪/表面轮廓仪/粗糙度轮廓仪源头厂家精选
  • 使用java实验电梯调度算法
  • 2025年刮板蒸发器定做厂家权威推荐榜单:刮板薄膜蒸发器/薄膜蒸发器/刮板式蒸发器装备源头厂家精选
  • 单部电梯调度程序三次迭代设计与实践总结 - 23207231
  • 格路计数的一类(降维?)技巧
  • 百度PaddleOCR-VL:基于0.9B超紧凑视觉语言模型,支持109种语言,性能超越GPT-4o等大模型 - 详解
  • hadoop处理mysql数据的性能瓶颈
  • hadoop在linux的安装
  • hadoop与mysql的综合应用解决方案
  • hadoop与mysql的数据同步方法
  • 详细介绍:2. 容器常用操作