RAG-Anything横空出世!文字、图片、表格、公式,文档里的“一切”都能搜!
传统RAG仅支持文本检索,面对图表、公式等非文本内容束手无策。RAG-Anything在LightRAG基础上,通过多模态扩展层,将文档中的文字、图片、表格、公式等所有内容统一纳入知识图谱,并支持VLM增强查询和多模态查询模式,极大提升了文档问答系统的实用性和准确性。该框架支持多种文档格式,并提供了灵活的解析器选择和模态感知检索排序,是目前解决多模态文档检索痛点的优秀方案。
传统 RAG 只管文字,碰到图表和公式就装死。RAG-Anything 说:我全都要。
/ / /
问题出在哪
我前段时间拿 LightRAG 做了个内部文档问答系统。效果还行,纯文字的文档检索准确率挺高。但有一天产品经理扔了份 PDF 过来,里面全是架构图、数据表格、还有几个 LaTeX 公式。
跑了一遍。答案驴唇不对马嘴。
原因不难猜——LightRAG 本质上是个文本 RAG,它会把 PDF 里的文字抽出来建知识图谱,但图片?跳过。表格?勉强能抽成文本但丢了结构。公式?别想了。
这种"只吃文字"的 RAG 在真实场景里其实挺受限的。你想,一份技术文档里,架构图可能比三段文字信息量还大,一张数据对比表顶得上半页描述。
然后我看到了 RAG-Anything。
RAG-Anything 多模态 RAG 架构
/ / /
它在 LightRAG 上面做了什么
RAG-Anything 是 HKUDS(港大数据科学实验室)在 LightRAG 基础上搭的多模态扩展层。核心思路一句话:把文档里所有类型的内容——文字、图片、表格、公式——都塞进同一个知识图谱。
听起来不复杂?工程上要解决的事情不少。
它的处理流水线分五个阶段,我按顺序说。
第一步,文档解析。用 MinerU 做高保真的结构抽取,把 PDF 拆成文字块、图片块、表格块、公式块。不是简单的 OCR 暴力抽文字,是保留了文档的层级关系和空间位置。除了 MinerU 还支持 Docling 和 PaddleOCR 两个 parser,但 MinerU 是默认的。
第二步,内容分类路由。每个内容块自动判断类型(图片/表格/公式/纯文字),然后分发到对应的处理管线。这步是并发跑的,多管线同时处理。
五阶段处理流水线
第三步,多模态分析引擎。这是核心。四个专用分析器:
- ●Visual Content Analyzer:给图片生成描述、识别空间关系
- ●Structured Data Interpreter:解析表格结构、提取统计模式
- ●Mathematical Expression Parser:处理 LaTeX 公式,理解数学语义
- ●通用扩展器:你可以自己写处理器来支持新的模态
第四步,构建多模态知识图谱。把上面分析出来的所有实体和关系(不管来自文字还是图表)统一灌进一个图谱。跨模态的关系映射是自动做的,比如"图3 展示了表2 中数据的趋势"这种引用关系,它能自动关联。
第五步,模态感知检索。检索的时候用向量+图谱混合搜索,排序算法会考虑内容的模态类型。
/ / /
实际用起来是什么样
安装倒是不复杂。pip install raganything一行搞定,想要全功能就pip install 'raganything[all]'。处理 Office 文档需要装 LibreOffice,这个是唯一的外部依赖。
安装与使用流程
查询有三种模式:
纯文本查询——走 LightRAG 原生的检索,支持 hybrid/local/global/naive 四种模式。如果你的文档都是纯文字,用这个就够了,跟直接用 LightRAG 没区别。
VLM 增强查询——检索到包含图片的上下文时,自动调 VLM(视觉语言模型)来分析图片内容,把图片信息也纳入回答。这个模式不需要你显式指定,框架自动判断。
多模态查询——你可以指定"帮我分析这份文档里的表格数据"或者"解释这个公式",它会针对性地检索和分析对应模态的内容。
讲真,VLM 增强查询这个设计我觉得想得比较好。用户不需要知道底层有几种模态,问就完了。
/ / /
支持什么格式
列一下:
| 文档 | 多模态元素 |
|---|---|
| PDF、DOCX、PPTX、XLSX | 照片、图表、截图 |
| JPG/PNG/BMP/TIFF/GIF/WebP | 数据表格、统计摘要 |
| TXT、Markdown | LaTeX 公式 |
支持的文档格式
基本上常见的文档格式都覆盖了。PPTX 的支持我觉得挺实用的——很多公司的技术方案都在 PPT 里,里面全是图和表,传统 RAG 对 PPT 基本无能为力。
/ / /
几个技术细节
Parser 选择这块值得说说。三个 parser 各有侧重:
- ●MinerU:PDF 和图片最强,有 OCR 和表格抽取,支持 GPU 加速。默认选它。
- ●Docling:Office 文档更强,文档结构保留得更好。
- ●PaddleOCR:纯 OCR 场景,轻量,适合文字为主的图片。
我自己测下来的感觉(不一定准):如果你的文档以 PDF 为主且有大量图表,MinerU 效果最好。纯 Office 文档走 Docling 可能更合适。PaddleOCR 适合"图片里有文字"的场景。
知识图谱构建用的是 LightRAG 的底子,加了多模态实体抽取和跨模态关系映射。图谱里的节点不再只是文字实体,还包括"图3"、“表2”、"公式(1)"这种多模态实体。
多模态知识图谱示意
检索排序做了模态感知的加权。比如用户问"xx 指标的趋势",包含相关表格的节点权重会被提高。这个比一视同仁地只看文本相似度要靠谱。
/ / /
/ / /
跟其他方案比
RAG-Anything 出自 HKUDS 实验室,跟 LightRAG 是同一个团队。他们还有几个相关项目:
- ●LightRAG:纯文本 RAG,简单快
- ●VideoRAG:超长视频 RAG
- ●MiniRAG:极简版 RAG
RAG-Anything 在这个系列里定位是"什么都能吃的 RAG"。16.8k stars,2k forks,MIT 协议。
相关项目生态
跟 LangChain + Unstructured 的组合相比,RAG-Anything 的优势在于它不只是把多模态内容转成文字然后走文本 RAG,而是在知识图谱层面保留了模态信息和跨模态关系。缺点也有——它强依赖 MinerU 的解析质量,如果 MinerU 对某种 PDF 解析得不好,后面每一步都会受影响。
另外说一下,官方 2025 年 10 月发了 arXiv 论文(2510.12323),2025 年 8 月加了 VLM 增强查询模式。项目还在活跃迭代。
/ / /
说真的,这两年看着身边一个个搞Java、C++、前端、数据、架构的开始卷大模型,挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis,稳稳当当过日子。
结果GPT、DeepSeek火了之后,整条线上的人都开始有点慌了,大家都在想:“我是不是要学大模型,不然这饭碗还能保多久?”
我先给出最直接的答案:一定要把现有的技术和大模型结合起来,而不是抛弃你们现有技术!掌握AI能力的Java工程师比纯Java岗要吃香的多。
即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地!大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇!
这绝非空谈。数据说话
2025年的最后一个月,脉脉高聘发布了《2025年度人才迁徙报告》,披露了2025年前10个月的招聘市场现状。
AI领域的人才需求呈现出极为迫切的“井喷”态势
2025年前10个月,新发AI岗位量同比增长543%,9月单月同比增幅超11倍。同时,在薪资方面,AI领域也显著领先。其中,月薪排名前20的高薪岗位平均月薪均超过6万元,而这些席位大部分被AI研发岗占据。
与此相对应,市场为AI人才支付了显著的溢价:算法工程师中,专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%;产品经理岗位中,AI方向的产品经理薪资也领先约20%。
当你意识到“技术+AI”是个人突围的最佳路径时,整个就业市场的数据也印证了同一个事实:AI大模型正成为高薪机会的最大源头。
最后
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我整理出这套 AI 大模型突围资料包【允许白嫖】:
- ✅从入门到精通的全套视频教程
- ✅AI大模型学习路线图(0基础到项目实战仅需90天)
- ✅大模型书籍与技术文档PDF
- ✅各大厂大模型面试题目详解
- ✅640套AI大模型报告合集
- ✅大模型入门实战训练
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
①从入门到精通的全套视频教程
包含提示词工程、RAG、Agent等技术点
② AI大模型学习路线图(0基础到项目实战仅需90天)
全过程AI大模型学习路线
③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的
④各大厂大模型面试题目详解
⑤640套AI大模型报告合集
⑥大模型入门实战训练
👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
