当前位置: 首页 > news >正文

智谱开源GLM-OCR:0.9B小模型在复杂文档处理登顶SOTA

智谱AI正式开源发布GLM-OCR,这款参数量仅 0.9B 的模型以 “小尺寸、高精度” 的特性打破了行业记录。在权威榜单 OmniDocBench V1.5 中,它以 94.6 的高分超越多款同类模型,展现了在手写公式、多语混排及印章识别等复杂文档场景下的统治级能力,为行业提供了高效的专业级OCR解决方案。

核心能力与技术架构

GLM-OCR 采用独特的 “编码器 - 解码器” 架构,通过极致的参数效率实现了性能与成本的双重突破。

关键技术指标

轻量部署:总参数量仅 0.9B,完美支持 vLLM、SGLang 和 Ollama 等主流推理框架,大幅降低了部署门槛。

SOTA性能:在 OmniDocBench V1.5 综合评测中斩获 94.6 分,在文本识别、公式解析、表格还原及信息抽取四大维度均表现优异,性能接近 Gemini-3-Pro(据公开报道)。

极致速度:在同等硬件条件下(单副本单并发),PDF 文档处理吞吐量达 1.86 页/秒,图片处理达 0.67 张/秒。

颠覆性成本:API 调用输入输出同价,仅需 0.2 元/百万 Tokens。1 元人民币即可处理约 2000 张 A4 扫描件或 200 份 10 页 PDF,成本仅为传统 OCR 方案的 1/10。

典型场景与落地效果

针对传统 OCR 难以处理的 “硬骨头”,GLM-OCR 进行了深度优化,在多种极端场景下实现了突破。

手写体与公式: 模型在复杂的数学公式识别及多语言混排文档中保持了极高的还原精度,有效解决了科研与教育场景的痛点。

复杂表格解析: 面对跨页、跨单元格及多层表头的复杂表格,GLM-OCR 能够直接理解逻辑结构并输出标准 HTML 代码,极大提升了数据录入与转换效率。

票据与卡证提取: 支持从各类非结构化票据中智能提取关键字段,并直接输出结构化的 JSON 数据,适配银行、保险及物流系统的自动化需求。

RAG支撑: 其高精度的识别能力与规整的 Markdown/JSON 输出格式,为检索增强生成(RAG)系统提供了高质量的数据底座。

行业应用与接入

GLM-OCR 的高性价比使其迅速覆盖了教育、科研、办公、政务、金融、保险及物流等多个核心行业。

在接入方面,智谱提供了灵活的 API 调用方式与批量处理工具。相比传统人工录入或昂贵的专用软件,GLM-OCR 将文档处理成本降低至 “白菜价”(1 元可处理海量文档)。未来,团队还将持续迭代,计划推出更多尺寸版本,并将能力拓展至更多语种及视频 OCR 领域。

AITOP100小编总结

GLM-OCR 以 “小尺寸、高精度” 重新定义了复杂文档处理的性价比标准。其在复杂版式、手写印章及多语混排下的卓越鲁棒性,叠加极低的部署成本与开放 API,正在推动文档解析技术从单一的 “工具” 向行业通用的 “基础设施” 演进。

文章来源:AITOP100

原文链接:https://www.aitop100.cn/infomation/details/33259.html

http://www.jsqmd.com/news/339854/

相关文章:

  • 如何在相册里设置联系方式,让客户随时找我?看这里!
  • 深度解析支持定制欢迎语的展厅迎宾机器人:核心技术架构与主流产品评测 - 智造出海
  • 大型语言模型的 MOE 和 MOA
  • YOLO26涨点改进 | 独家创新,特征融合涨点改进篇 | TGRS 2025 | 引入ATEM仿射变换融合增强模块,含多种创新改进点,对边缘和纹理信息进行自适应增强,提升小目标和弱目标检测能力
  • AI模型推理延迟突增?架构师教你:模型轻量化+缓存优化应急响应技巧
  • 解锁更多编曲玩法,AI编曲软件为原创音乐人补充歌曲创作思路
  • Claude, Cursor, Aider, Copilot,AI编程助手该选哪个?
  • AI编曲软件激发歌曲创作灵感,原创音乐人轻松跨越思路障碍
  • 深蓝海域中标大型机电企业大模型知识工程平台项目
  • 分发安卓证书在线生成:一键搞定应用签名,安全便捷有保障
  • 大数据领域 Hive 的监控与调优策略
  • 老板必须盯的5个生产指标,90%的工厂一个都没盯对!
  • 网络流量监控神器 , Wireshark看着太累了
  • ubuntu 新建文件夹软连接
  • 面试-Tokenizer训练
  • 一文理清好人事管理的底层思维是什么
  • 绿联科技冲刺港股:9个月营收64亿利润4.7亿 绿联管理与和顺四号共套现近4亿
  • 大数据平台中Eureka的多数据中心部署方案
  • iOS 27 曝光!折叠屏、AI医生、Siri整容……看完我只想说:苹果这次拼了!
  • 基于数万次真机评测,RoboChallenge 首份年度报告发布
  • 基于Springboot健身房管理系统【附源码+文档】
  • 大坝、隧道深部位移监测 节段式位移计 系统组网核心要求是什么?
  • 复杂超深基坑环境监测难,不受天气人工影响且精确度高,自动化监测优势何在?
  • 基于SpringBoot的多媒体信息共享平台毕业设计
  • 展厅迎宾接待机器人技术深度解析与主流产品选型指南 - 智造出海
  • 2026年维保服务公司品牌综合评测与选型指南 - 2026年企业推荐榜
  • 实用指南:Python文件反编译,轻松找回自己的源码
  • 谷歌太壕了!编程Agent大招至简:开源且免费,百万上下文、多模态、MCP全支持
  • 一省之精,诚意可鉴:「省酒·省省酱」初品体验报告
  • GRR-RIPPER木工推料器,美国发明专利正在发起亚马逊站内侵权投诉!(US10011037B2)