1.7 万星标|港大团队开源的“万能 RAG“:PDF、图片、视频都能喂给 AI 问答
你有没有遇到过这种情况——
把一份 PDF 扔给 ChatGPT,问它:“第 23 页那张图里,2024 年的销售额是多少?” 它一脸懵,回答得牛头不对马嘴。
或者你上传了一份几十页的财报 PPT,里面全是图表、表格、公式。AI 只"读懂"了文字部分,图里的关键数据它看都没看到。
这就是传统 RAG(检索增强生成)技术的老大难问题:它只认识文字。
可现实世界的文档,哪一份是纯文字的呢?
- 学术论文里最重要的信息,往往藏在那张"实验结果图"里
- 财报里的数据洞察,都藏在股价 K 线和对比表格里
- 医学文献里的关键诊断信息,全在 CT 片和化验单上
- 产品说明书里的安装步骤,一半都是示意图
传统 RAG 系统面对这些"图文混排"的文档,要么直接把图片丢掉,要么把表格硬塞成一串乱码文字——关键信息就这样丢失了。
香港大学数据智能实验室(HKUDS)的团队开源了 RAG-Anything,论文同步发在 arXiv(编号 2510.12323),目标只有一个:让 AI 真正能读懂一份"完整"的文档。
项目上线半年,已经收获 1.7 万 Star,是 AI 工程圈最受关注的 RAG 框架之一。
一个框架,搞定所有内容类型
RAG-Anything 给自己的定位很直白——“All-in-One RAG Framework”(全能 RAG 框架)。
用大白话说:不管你丢给它什么格式的文件,它都能读懂、记住、回答关于它的任何问题。
它能处理的内容类型包括:
- 📝文字:PDF、Word、Markdown、TXT 里的普通文本
- 🖼️图片:文档里的示意图、照片、截图(BMP、TIFF、GIF、WebP 全支持)
- 📊表格:Excel、Word 里结构化的表格数据
- 🧮公式:数学公式、化学方程式
- 📈图表:柱状图、折线图、饼图等可视化内容
背后的核心机制有几个关键词——
1. 基于 LightRAG(轻量 RAG 系统)这是港大团队之前的一个热门开源项目,RAG-Anything 是在它的基础上升级而来,底子很稳。
2. 集成 MinerU 做文档解析MinerU 是一个专门的文档结构识别引擎,能把 PDF 里复杂的版式(多栏、公式、脚注、图表位置)完整还原出来,不像普通的 OCR 那样把文字抽出来就完事。
3. 双图谱架构这是论文里的核心创新:系统会同时构建两张知识图谱——一张记录"跨模态关系"(比如"图 2 是在描述第三段的内容"),另一张记录"文字语义关系"。检索时两张图互相配合,找到答案的准确度大幅提升。
4. VLM 视觉语言模型加持当你问"文档里的图表说明了什么"时,它会自动调用视觉模型(比如 GPT-4o)去"看图说话",而不是假装图不存在。
如何使用:三行命令就能跑起来
RAG-Anything 对新手非常友好,有两种主流安装方式。
方法 1:用 pip 直接装(最简单)
# 基础安装pip install raganything# 想支持更多格式?装全套pip install 'raganything[all]'方法 2:用 uv(新一代 Python 包管理器,更快)
# 先装 uvcurl -LsSf https://astral.sh/uv/install.sh | sh# 克隆项目git clone https://github.com/HKUDS/RAG-Anything.gitcd RAG-Anything# 一键同步所有依赖uv sync --all-extras最简单的使用代码
装好之后,不到 20 行代码就能跑起来:
import asynciofrom raganything import RAGAnythingfrom lightrag.llm.openai import openai_complete_if_cache, openai_embedasyncdefmain(): rag = RAGAnything( working_dir="./rag_storage", llm_model_func=..., # 指定你的语言模型(如 GPT-4o-mini) vision_model_func=... # 指定你的视觉模型(如 GPT-4o) )# 把文档"喂"给它await rag.aprocess_document("./your_report.pdf")# 开问! result = await rag.aquery("这份报告的核心结论是什么?", mode="hybrid") print(result)asyncio.run(main())它提供了三种查询模式:
- Pure Text:纯文字查询,适合简单问答
- VLM Enhanced:视觉增强,当答案可能在图里时自动看图
- Hybrid:混合检索,结合知识图谱结构和语义匹配,效果最好
软硬件要求:一台能跑 Python 的电脑就行
基础要求
- 操作系统:Windows / macOS / Linux 都支持
- Python 版本:3.10 或更高
- 内存:建议 8GB 起步,处理大型 PDF 需要 16GB+
- 网络:首次使用会自动下载 MinerU 模型,需要联网
AI 模型
RAG-Anything 本身不绑定特定的大模型,你可以选择:
- 云端模型:OpenAI、Anthropic Claude、Google Gemini 等(需要 API Key)
- 本地模型:可以对接 Ollama、vLLM 等本地部署方案(完全免费,但需要 GPU)
可选加速
- 想跑本地视觉模型?建议有一块 8GB 以上显存的 GPU
- 仅做文字 RAG?CPU 也能跑,只是速度慢一些
使用场景
RAG-Anything 的设计,从一开始就瞄准了"图文混排文档特别多"的领域:
📚 学术研究党把几十上百篇论文扔进去,AI 帮你总结实验图表、对比方法差异,再也不用一页一页翻论文。
💼 金融分析师上市公司财报里最精华的就是那些图表。RAG-Anything 能直接"看懂"K 线图、对比表,让你问"过去五年毛利率变化趋势"时拿到精确答案。
⚕️ 医学工作者影像学报告、化验单、诊断图表,这些传统 RAG 根本处理不了的内容,现在可以统一检索。
🏢 企业知识库公司内部的技术手册、SOP 流程图、产品说明书——全都是图文混排。用 RAG-Anything 搭一个内部问答机器人,员工随时能问到精确答案。
📖 教育工作者教材里的公式、例题、插图统统可以被索引。学生问"勾股定理在第几章的哪张图里",秒回。
🔧 技术文档管理软件 API 文档、硬件电路图、架构示意图,开发者再也不用在一堆 PDF 里翻来翻去。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
