当前位置：首页 > news >正文

1.7 万星标｜港大团队开源的“万能 RAG“：PDF、图片、视频都能喂给 AI 问答

news 2026/4/24 1:22:03

你有没有遇到过这种情况——

把一份 PDF 扔给 ChatGPT，问它：“第 23 页那张图里，2024 年的销售额是多少？” 它一脸懵，回答得牛头不对马嘴。

或者你上传了一份几十页的财报 PPT，里面全是图表、表格、公式。AI 只"读懂"了文字部分，图里的关键数据它看都没看到。

这就是传统 RAG（检索增强生成）技术的老大难问题：它只认识文字。

可现实世界的文档，哪一份是纯文字的呢？

学术论文里最重要的信息，往往藏在那张"实验结果图"里
财报里的数据洞察，都藏在股价 K 线和对比表格里
医学文献里的关键诊断信息，全在 CT 片和化验单上
产品说明书里的安装步骤，一半都是示意图

传统 RAG 系统面对这些"图文混排"的文档，要么直接把图片丢掉，要么把表格硬塞成一串乱码文字——关键信息就这样丢失了。

香港大学数据智能实验室（HKUDS）的团队开源了 RAG-Anything，论文同步发在 arXiv（编号 2510.12323），目标只有一个：让 AI 真正能读懂一份"完整"的文档。

项目上线半年，已经收获 1.7 万 Star，是 AI 工程圈最受关注的 RAG 框架之一。

一个框架，搞定所有内容类型

RAG-Anything 给自己的定位很直白——“All-in-One RAG Framework”（全能 RAG 框架）。

用大白话说：不管你丢给它什么格式的文件，它都能读懂、记住、回答关于它的任何问题。

它能处理的内容类型包括：

📝文字：PDF、Word、Markdown、TXT 里的普通文本
🖼️图片：文档里的示意图、照片、截图（BMP、TIFF、GIF、WebP 全支持）
📊表格：Excel、Word 里结构化的表格数据
🧮公式：数学公式、化学方程式
📈图表：柱状图、折线图、饼图等可视化内容

背后的核心机制有几个关键词——

1. 基于 LightRAG（轻量 RAG 系统）这是港大团队之前的一个热门开源项目，RAG-Anything 是在它的基础上升级而来，底子很稳。

2. 集成 MinerU 做文档解析MinerU 是一个专门的文档结构识别引擎，能把 PDF 里复杂的版式（多栏、公式、脚注、图表位置）完整还原出来，不像普通的 OCR 那样把文字抽出来就完事。

3. 双图谱架构这是论文里的核心创新：系统会同时构建两张知识图谱——一张记录"跨模态关系"（比如"图 2 是在描述第三段的内容"），另一张记录"文字语义关系"。检索时两张图互相配合，找到答案的准确度大幅提升。

4. VLM 视觉语言模型加持当你问"文档里的图表说明了什么"时，它会自动调用视觉模型（比如 GPT-4o）去"看图说话"，而不是假装图不存在。

如何使用：三行命令就能跑起来

RAG-Anything 对新手非常友好，有两种主流安装方式。

方法 1：用 pip 直接装（最简单）

# 基础安装pip install raganything# 想支持更多格式？装全套pip install 'raganything[all]'

方法 2：用 uv（新一代 Python 包管理器，更快）

# 先装 uvcurl -LsSf https://astral.sh/uv/install.sh | sh# 克隆项目git clone https://github.com/HKUDS/RAG-Anything.gitcd RAG-Anything# 一键同步所有依赖uv sync --all-extras

最简单的使用代码

装好之后，不到 20 行代码就能跑起来：

import asynciofrom raganything import RAGAnythingfrom lightrag.llm.openai import openai_complete_if_cache, openai_embedasyncdefmain(): rag = RAGAnything( working_dir="./rag_storage", llm_model_func=..., # 指定你的语言模型（如 GPT-4o-mini） vision_model_func=... # 指定你的视觉模型（如 GPT-4o） )# 把文档"喂"给它await rag.aprocess_document("./your_report.pdf")# 开问！ result = await rag.aquery("这份报告的核心结论是什么？", mode="hybrid") print(result)asyncio.run(main())

它提供了三种查询模式：

Pure Text：纯文字查询，适合简单问答
VLM Enhanced：视觉增强，当答案可能在图里时自动看图
Hybrid：混合检索，结合知识图谱结构和语义匹配，效果最好

软硬件要求：一台能跑 Python 的电脑就行

基础要求

操作系统：Windows / macOS / Linux 都支持
Python 版本：3.10 或更高
内存：建议 8GB 起步，处理大型 PDF 需要 16GB+
网络：首次使用会自动下载 MinerU 模型，需要联网

AI 模型

RAG-Anything 本身不绑定特定的大模型，你可以选择：

云端模型：OpenAI、Anthropic Claude、Google Gemini 等（需要 API Key）
本地模型：可以对接 Ollama、vLLM 等本地部署方案（完全免费，但需要 GPU）

可选加速

想跑本地视觉模型？建议有一块 8GB 以上显存的 GPU
仅做文字 RAG？CPU 也能跑，只是速度慢一些

使用场景

RAG-Anything 的设计，从一开始就瞄准了"图文混排文档特别多"的领域：

📚 学术研究党把几十上百篇论文扔进去，AI 帮你总结实验图表、对比方法差异，再也不用一页一页翻论文。

💼 金融分析师上市公司财报里最精华的就是那些图表。RAG-Anything 能直接"看懂"K 线图、对比表，让你问"过去五年毛利率变化趋势"时拿到精确答案。

⚕️ 医学工作者影像学报告、化验单、诊断图表，这些传统 RAG 根本处理不了的内容，现在可以统一检索。

🏢 企业知识库公司内部的技术手册、SOP 流程图、产品说明书——全都是图文混排。用 RAG-Anything 搭一个内部问答机器人，员工随时能问到精确答案。

📖 教育工作者教材里的公式、例题、插图统统可以被索引。学生问"勾股定理在第几章的哪张图里"，秒回。

🔧 技术文档管理软件 API 文档、硬件电路图、架构示意图，开发者再也不用在一堆 PDF 里翻来翻去。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～