当前位置: 首页 > news >正文

提高工作效率的OCR利器:Chandra OCR 2![特殊字符]✨

Datalab

前沿的文档智能模型

Datalab的Chandra OCR 2是一个先进的OCR(光学字符识别)模型,能够将图像和PDF转换为结构化的HTML、Markdown或JSON格式,同时保留原始布局信息。其卓越的性能使其在多个应用场景中极为有用。

重要更新

  • 2026年3月 - Chandra 2发布,显著增强了对数学、表格、布局和多语言OCR的支持
  • 2025年10月 - Chandra 1推出

功能特点

Chandra OCR 2具备众多强大的特性,使其在OCR领域表现出色:

  • 在外部olmocr基准测试中名列前茅,并在内部多语言基准中取得显著提升
  • 能够将文档转换为Markdown、HTML或JSON格式,同时提供详细的布局信息
  • 支持90多种语言,为多语言处理提供了极大的便利
  • 对手写体的出色支持,能够准确重建包含复选框的表单
  • 在处理表格、数学公式和复杂布局时表现优越
  • 可从文档中提取图像和图表,并添加标题及结构化数据
  • 提供两种推理模式:本地(HuggingFace)和远程(vLLM服务器)

托管API

我们提供Chandra的托管API,访问更为准确和快速。您还可以在免费试玩平台上体验Chandra,无需安装。

快速入门

要快速开始,可以使用命令行工具:

pipinstallchandra-ocr# 使用推荐的轻量级vLLM安装chandra_vllm chandra input.pdf ./output# 使用HuggingFace(需要torch)pipinstallchandra-ocr[hf]chandra input.pdf ./output--methodhf# 启动交互式Streamlit应用pipinstallchandra-ocr[app]chandra_app

基准测试

Chandra 2重点关注多语言性能。由于缺乏良好的公共多语言OCR基准,我们创建了自己的基准测试,涵盖表格、数学、排序、布局和文本精度。

实际应用示例

以下是Chandra在不同类型文档处理的应用实例:

类型名称链接
数学CS229教科书查看
数学手写数学查看
数学中文数学查看
表格统计分布查看
表格财务表格查看
表单注册表单查看
表单租赁表单查看
手写体草书查看
手写体手写笔记查看
语言阿拉伯语查看
语言日语查看
语言印地语查看
语言俄语查看
其他图表查看
其他化学查看

安装指南

使用包安装

# 基础安装(用于vLLM后端)pipinstallchandra-ocr# 使用HuggingFace后端(包含torch、transformers)pipinstallchandra-ocr[hf]# 完整安装所有额外功能pipinstallchandra-ocr[all]

如果您使用HuggingFace方法,建议还安装flash attention以提高性能。

从源代码安装

gitclone https://github.com/datalab-to/chandra.gitcdchandra uvsyncsource.venv/bin/activate

使用方法

命令行接口(CLI)

处理单个文件或整个目录:

# 单个文件,使用vllm服务器chandra input.pdf ./output--methodvllm# 处理目录中的所有文件(使用本地模型)chandra ./documents ./output--methodhf

CLI选项:

  • --method [hf|vllm]:推理方法(默认:vllm)
  • --page-range TEXT:PDF的页码范围(例如,“1-5,7,9-12”)
  • --max-output-tokens INTEGER:每页的最大令牌数
  • --max-workers INTEGER:vLLM的并行工作者数量
  • --include-images/--no-images:提取并保存图像(默认:包含)
  • --include-headers-footers/--no-headers-footers:包含页眉/页脚(默认:不包含)
  • --batch-size INTEGER:每批页面数量(vllm默认28, hf默认1)

输出结构:

每个处理的文件会创建一个子目录,其中包括:

  • .md- Markdown输出
  • .html- HTML输出
  • _metadata.json- 元数据(页信息、令牌计数等)
  • 提取的图像直接保存在输出目录中

Streamlit Web应用

启动交互式演示以处理单个页面:

chandra_app

vLLM服务器(可选)

用于生产部署或批处理时,可使用vLLM服务器:

chandra_vllm

这将启动一个优化推理设置的Docker容器。可以通过环境变量进行配置:

  • VLLM_API_BASE:服务器URL(默认:http://localhost:8000/v1
  • VLLM_MODEL_NAME:服务器模型名称(默认:chandra
  • VLLM_GPUS:GPU设备ID(默认:0

您还可以启动自己的vllm服务器,使用datalab-to/chandra-ocr-2模型。

配置

通过环境变量或local.env文件配置设置:

# 模型设置MODEL_CHECKPOINT=datalab-to/chandra-ocr-2MAX_OUTPUT_TOKENS=12384# vLLM设置VLLM_API_BASE=http://localhost:8000/v1VLLM_MODEL_NAME=chandraVLLM_GPUS=0

商业使用

此代码采用Apache 2.0许可证,模型权重使用修改过的OpenRAIL-M许可证(适用于研究、个人使用以及资金/收入不超过200万美元的初创企业,不能与我们的API竞争使用)。想要移除OpenRAIL许可证要求或者进行更广泛的商业授权,可以访问我们的定价页面。

基准表

模型ArXiv老扫描数学表格老扫描页眉和页脚多列长小文本基础综合
Datalab API90.490.290.754.691.683.792.399.986.7 ± 0.8自家基准
Chandra 290.289.389.949.892.583.592.199.685.9 ± 0.8自家基准
dots.ocr 1.585.985.590.748.294.085.381.699.783.9dots.ocr repo
Chandra 182.280.388.050.490.881.292.399.983.1 ± 0.9自家基准
olmOCR 283.082.384.947.796.183.781.999.682.4olmocr repo
dots.ocr82.164.288.340.994.182.481.299.579.1 ± 1.0dots.ocr repo
olmOCR v0.3.078.679.972.943.995.177.381.298.978.5 ± 1.1olmocr repo
Datalab Marker v1.10.083.869.774.832.386.679.485.799.676.5 ± 1.0自家基准
Deepseek OCR75.272.379.733.396.166.780.199.775.4 ± 1.0自家基准
Mistral OCR API77.267.560.629.393.671.377.199.472.0 ± 1.1olmocr repo
GPT-4o (Anchored)53.574.570.040.793.869.360.696.869.9 ± 1.1olmocr repo
Qwen 3 VL 8B70.275.145.637.589.162.143.094.364.6 ± 1.1自家基准
Gemini Flash 2 (Anchored)54.556.172.134.264.761.571.595.663.8 ± 1.2olmocr repo

多语言基准表

下表涵盖了43种最常用语言,并对多种模型进行了基准测试。有关90种语言的更全面评估(Chandra 2与Gemini 2.5 Flash的比较),请查看完整的90语言基准。

语言Datalab APIChandra 2Chandra 1Gemini 2.5 FlashGPT-5 Mini
阿拉伯语67.6%68.4%34.0%84.4%55.6%
孟加拉语85.1%72.8%45.6%55.3%23.3%
加泰罗尼亚语88.7%85.1%84.2%88.0%78.5%
捷克语88.2%85.3%84.7%79.1%78.8%
丹麦语90.1%91.1%88.4%86.0%87.7%
德语93.8%94.8%83.0%88.3%93.8%
希腊语89.9%85.6%85.5%83.5%82.4%
西班牙语91.8%89.3%88.7%86.8%97.1%
波斯语82.2%75.1%69.6%61.8%56.4%
芬兰语85.7%83.4%78.4%86.0%84.7%
法语93.3%93.7%89.6%86.1%91.1%
古吉拉特语73.8%70.8%44.6%47.6%11.5%
希伯来语76.4%70.4%38.9%50.9%22.3%
印地语80.5%78.4%70.2%82.7%41.0%
克罗地亚语93.4%90.1%85.9%88.2%81.3%
匈牙利语88.1%82.1%82.5%84.5%84.8%
印度尼西亚语91.3%91.6%86.7%88.3%89.7%
意大利语94.4%94.1%89.1%85.7%91.6%
日语87.3%86.9%85.4%80.0%76.1%
爪哇语87.5%73.2%85.1%80.4%69.6%
卡纳达语70.0%63.2%20.6%24.5%10.1%
韩语89.1%81.5%82.3%84.8%78.4%
拉丁语78.0%73.8%55.9%70.5%54.6%
马拉雅拉姆语72.4%64.3%18.1%23.8%11.9%
马拉地语80.8%75.0%57.0%69.7%20.9%
荷兰语90.0%88.6%85.3%87.5%83.8%
挪威语89.2%90.3%85.5
http://www.jsqmd.com/news/569537/

相关文章:

  • 自动化文档生成:基于百川2-13B和Markdown的工具链实践
  • 梦行云软件——溯源系统 - 企业方,产品溯源管理,节点输入项管理
  • Vue Router核心要点与避坑指南
  • 别再手动拼API了!用MCP协议5分钟搞定AI智能体间的自动对话与协作
  • SketchUp STL插件:建筑模型协作与3D打印的无缝解决方案
  • 3步实现视频硬字幕精准提取:本地化多语言解决方案如何解决你的字幕难题
  • Super Resolution工具推荐:五款开源模型横向评测
  • PlugPiBlack:面向嵌入式教学的寄存器级C语言控制库
  • Qwen3-14B企业知识沉淀:会议录音转写+关键结论自动提炼
  • Qwen3.5-9B-AWQ-4bit效果展示:低像素截图中关键数字与单位的高精度识别
  • Python中CSV文件处理的常见累积错误及修正方案
  • Python合并多个Excel文件的方法实现与对比
  • 第十二章:数据质检(QC)步骤详解
  • 那张看不见的蜘蛛网:马尔可夫随机场到底在捕捉什么?(上篇)
  • PyTorch 2.8镜像效果展示:FlashAttention-2加速下大模型推理速度提升300%
  • Phi-4-mini-reasoning生产环境:vLLM服务稳定性与Chainlit前端容错设计
  • MetaTube插件:智能元数据整合引擎的技术架构深度解析
  • 《金融时报》2026 FT 法国商学院排名(全法前十)
  • Graphormer镜像免配置实践:预编译CUDA算子+静态链接避免运行时依赖冲突
  • 第十七章:Skill 文件与 AI 集成
  • Wan2.2-I2V-A14B后端服务开发:Node.js构建高性能视频生成API网关
  • Bug占卜师:用系统崩溃预测未来
  • 服饰解构AI新标杆:Nano-Banana软萌拆拆屋在服装博物馆数字化中的应用
  • 2026防脱精华液哪家好?科学测评帮你选对产品 - 品牌排行榜
  • AI工作猎手:10倍提升求职效率的终极AI自动化简历投递工具
  • 【JAVA基础面经】深拷贝与浅拷贝
  • 基于Gradio的实时口罩检测系统搭建:从镜像部署到界面操作的完整教程
  • SUNFLOWER MATCH LAB跨平台开发:Java与Python混合编程实战
  • Phi-4-mini-reasoning效果展示:逻辑题‘如果A则B,非B,所以?’的准确归因
  • springboot+vue基于web的高校学生成绩管理系统设计系统