当前位置：首页 > news >正文

腾讯POINTS-Reader：高效中英文档图片转文本模型

news 2026/7/7 20:27:22

腾讯POINTS-Reader：高效中英文档图片转文本模型

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader：端到端文档转换视觉语言模型，结构精简无需后处理。支持中英双语提取，OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量，已支持SGLang部署，vLLM支持即将推出。EMNLP 2025主会收录，开源两阶段数据增强策略，轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

腾讯混元实验室近日发布了全新的文档转换视觉语言模型POINTS-Reader，这是一款端到端的轻量级解决方案，能够直接将文档图片精准转换为文本，无需复杂的后处理流程。该模型在中英文场景下均表现出色，同时兼顾了高性能与部署效率，为企业和开发者提供了文档信息提取的新选择。

行业现状：文档理解技术迎来新突破

随着数字化转型的深入，企业和个人对文档信息提取的需求日益增长。传统OCR技术在处理复杂格式文档（如包含表格、公式、多语言混排的文档）时往往力不从心，而主流视觉语言模型（VLM）虽然能力更强，但普遍存在模型体积庞大、部署成本高、需要复杂后处理等问题。根据OmniDocBench等权威评测基准的数据显示，现有解决方案在中文文档处理上的平均错误率比英文高出30%以上，中文场景的精准识别仍是行业痛点。

在此背景下，轻量级、高精度、多语言支持的文档转换模型成为市场刚需。腾讯POINTS-Reader的推出，正是瞄准了这一技术缺口，通过创新的模型设计和训练策略，在保持精简结构的同时实现了性能突破。

产品亮点：四大核心优势重塑文档转换体验

POINTS-Reader作为腾讯混元系列的新成员，展现出四大显著优势：

极简架构与端到端设计

该模型采用高度精简的架构，完全遵循POINTS1.5的结构设计，仅将语言模型部分从Qwen2.5-7B-Instruct替换为更轻量的Qwen2.5-3B-Instruct。输入仅需固定提示词和文档图片，输出直接为最终文本结果，彻底消除了传统 pipeline 所需的复杂后处理步骤，大幅简化了集成流程。这种"输入即图片，输出即文本"的设计，使开发者能够以最低成本实现功能集成。

中英双语卓越性能

POINTS-Reader在权威评测集OmniDocBench上表现优异，英文任务获得0.133分，中文任务获得0.212分（注：该评测指标为越低越好），尤其在中文场景下超越了多数现有解决方案。模型不仅支持纯中文和纯英文文档，还能精准处理中英文混排内容，解决了跨国企业和学术场景中的多语言提取难题。在表格提取任务中，其英文TEDS指标达到83.7，中文达到85.0，显示出对结构化信息的强大理解能力。

高吞吐量与部署灵活性

为平衡性能与效率，POINTS-Reader选用600M参数的NaViT视觉编码器，配合30亿参数的语言模型，在保证识别精度的同时显著降低了计算负载。该模型已支持SGLang部署框架，可实现高并发处理，未来还将支持vLLM等主流推理框架。这种轻量化设计使模型在普通GPU设备上即可高效运行，大幅降低了企业的部署门槛。

开源创新的数据增强策略

腾讯开源了POINTS-Reader的核心技术方案，包括创新性的两阶段数据增强策略。第一阶段利用自动化数据赋予模型基础文档提取能力，第二阶段通过持续自进化提升模型生成数据的质量。这种自进化方法具有高度可扩展性，可应用于几乎任何模型的训练优化，为整个行业提供了宝贵的技术参考。该研究已被EMNLP 2025主会收录，彰显了其学术价值。