当前位置: 首页 > news >正文

1.7 万星标|港大团队开源的“万能 RAG“:PDF、图片、视频都能喂给 AI 问答

你有没有遇到过这种情况——

把一份 PDF 扔给 ChatGPT,问它:“第 23 页那张图里,2024 年的销售额是多少?” 它一脸懵,回答得牛头不对马嘴。

或者你上传了一份几十页的财报 PPT,里面全是图表、表格、公式。AI 只"读懂"了文字部分,图里的关键数据它看都没看到。

这就是传统 RAG(检索增强生成)技术的老大难问题:它只认识文字。

可现实世界的文档,哪一份是纯文字的呢?

  • 学术论文里最重要的信息,往往藏在那张"实验结果图"里
  • 财报里的数据洞察,都藏在股价 K 线和对比表格里
  • 医学文献里的关键诊断信息,全在 CT 片和化验单上
  • 产品说明书里的安装步骤,一半都是示意图

传统 RAG 系统面对这些"图文混排"的文档,要么直接把图片丢掉,要么把表格硬塞成一串乱码文字——关键信息就这样丢失了。

香港大学数据智能实验室(HKUDS)的团队开源了 RAG-Anything,论文同步发在 arXiv(编号 2510.12323),目标只有一个:让 AI 真正能读懂一份"完整"的文档

项目上线半年,已经收获 1.7 万 Star,是 AI 工程圈最受关注的 RAG 框架之一。

一个框架,搞定所有内容类型

RAG-Anything 给自己的定位很直白——“All-in-One RAG Framework”(全能 RAG 框架)。

用大白话说:不管你丢给它什么格式的文件,它都能读懂、记住、回答关于它的任何问题

它能处理的内容类型包括:

  • 📝文字:PDF、Word、Markdown、TXT 里的普通文本
  • 🖼️图片:文档里的示意图、照片、截图(BMP、TIFF、GIF、WebP 全支持)
  • 📊表格:Excel、Word 里结构化的表格数据
  • 🧮公式:数学公式、化学方程式
  • 📈图表:柱状图、折线图、饼图等可视化内容

背后的核心机制有几个关键词——

1. 基于 LightRAG(轻量 RAG 系统)这是港大团队之前的一个热门开源项目,RAG-Anything 是在它的基础上升级而来,底子很稳。

2. 集成 MinerU 做文档解析MinerU 是一个专门的文档结构识别引擎,能把 PDF 里复杂的版式(多栏、公式、脚注、图表位置)完整还原出来,不像普通的 OCR 那样把文字抽出来就完事。

3. 双图谱架构这是论文里的核心创新:系统会同时构建两张知识图谱——一张记录"跨模态关系"(比如"图 2 是在描述第三段的内容"),另一张记录"文字语义关系"。检索时两张图互相配合,找到答案的准确度大幅提升。

4. VLM 视觉语言模型加持当你问"文档里的图表说明了什么"时,它会自动调用视觉模型(比如 GPT-4o)去"看图说话",而不是假装图不存在。

如何使用:三行命令就能跑起来

RAG-Anything 对新手非常友好,有两种主流安装方式。

方法 1:用 pip 直接装(最简单)
# 基础安装pip install raganything# 想支持更多格式?装全套pip install 'raganything[all]'
方法 2:用 uv(新一代 Python 包管理器,更快)
# 先装 uvcurl -LsSf https://astral.sh/uv/install.sh | sh# 克隆项目git clone https://github.com/HKUDS/RAG-Anything.gitcd RAG-Anything# 一键同步所有依赖uv sync --all-extras
最简单的使用代码

装好之后,不到 20 行代码就能跑起来:

import asynciofrom raganything import RAGAnythingfrom lightrag.llm.openai import openai_complete_if_cache, openai_embedasyncdefmain(): rag = RAGAnything( working_dir="./rag_storage", llm_model_func=..., # 指定你的语言模型(如 GPT-4o-mini) vision_model_func=... # 指定你的视觉模型(如 GPT-4o) )# 把文档"喂"给它await rag.aprocess_document("./your_report.pdf")# 开问! result = await rag.aquery("这份报告的核心结论是什么?", mode="hybrid") print(result)asyncio.run(main())

它提供了三种查询模式:

  • Pure Text:纯文字查询,适合简单问答
  • VLM Enhanced:视觉增强,当答案可能在图里时自动看图
  • Hybrid:混合检索,结合知识图谱结构和语义匹配,效果最好

软硬件要求:一台能跑 Python 的电脑就行

基础要求
  • 操作系统:Windows / macOS / Linux 都支持
  • Python 版本:3.10 或更高
  • 内存:建议 8GB 起步,处理大型 PDF 需要 16GB+
  • 网络:首次使用会自动下载 MinerU 模型,需要联网
AI 模型

RAG-Anything 本身不绑定特定的大模型,你可以选择:

  • 云端模型:OpenAI、Anthropic Claude、Google Gemini 等(需要 API Key)
  • 本地模型:可以对接 Ollama、vLLM 等本地部署方案(完全免费,但需要 GPU)
可选加速
  • 想跑本地视觉模型?建议有一块 8GB 以上显存的 GPU
  • 仅做文字 RAG?CPU 也能跑,只是速度慢一些

使用场景

RAG-Anything 的设计,从一开始就瞄准了"图文混排文档特别多"的领域:

📚 学术研究党把几十上百篇论文扔进去,AI 帮你总结实验图表、对比方法差异,再也不用一页一页翻论文。

💼 金融分析师上市公司财报里最精华的就是那些图表。RAG-Anything 能直接"看懂"K 线图、对比表,让你问"过去五年毛利率变化趋势"时拿到精确答案。

⚕️ 医学工作者影像学报告、化验单、诊断图表,这些传统 RAG 根本处理不了的内容,现在可以统一检索。

🏢 企业知识库公司内部的技术手册、SOP 流程图、产品说明书——全都是图文混排。用 RAG-Anything 搭一个内部问答机器人,员工随时能问到精确答案。

📖 教育工作者教材里的公式、例题、插图统统可以被索引。学生问"勾股定理在第几章的哪张图里",秒回。

🔧 技术文档管理软件 API 文档、硬件电路图、架构示意图,开发者再也不用在一堆 PDF 里翻来翻去。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/690056/

相关文章:

  • 别再只会用GPIO_SetBits了!深入STM32的BSRR寄存器,让你的IO控制更高效
  • 2026广州仓库搬迁哪家靠谱:广州家庭搬家、广州市搬家、广州市搬屋、广州搬家打包、广州搬家收纳、广州搬屋、广州日式搬家选择指南 - 优质品牌商家
  • 2026届学术党必备的降重复率神器解析与推荐
  • 2026Q2白及种苗技术解析:专业厂家的核心竞争力 - 优质品牌商家
  • ASR语音识别模块:免编程控制设备,低成本打造智能家电联动
  • Harness 中的请求染色与动态采样率调整
  • 总拥有成本:工业数据系统真正昂贵的,不只是软件
  • NVIDIA Blackwell架构突破LLM推理性能极限
  • 【紧急预警】Docker 27升级后Volume无法resize?92%团队忽略的daemon.json关键配置项(含v27.0.0–v27.2.1全版本兼容矩阵)
  • Qt——文本编辑器中的数据存取
  • 删除有序数组中的重复项 II
  • 基于蒙特卡洛模拟与matpower的配电网风险评估软件:考虑电动汽车与新能源不确定性的电压和线...
  • 嵌入式——认识电子元器件——二极管系列
  • 依赖更新自动化:安全漏洞的自动修复与升级
  • 用 Sidecar 模式实现语言无关的 Agent Harness
  • CopyTranslator:科研翻译效率提升500%的秘密武器,3分钟告别PDF格式混乱烦恼
  • 2026届学术党必备的六大降重复率助手实际效果
  • OpenCode 故障排查手册
  • NVIDIA Mamba-Chat模型优化与应用解析
  • 从PCB布线到BIOS设置:硬件工程师实战DDR内存信号完整性分析与调试避坑指南
  • 《jEasyUI 创建树形下拉框》
  • 质数筛的程序
  • AssetRipper完整指南:三步快速提取Unity游戏资源的终极方案
  • 16亿与6亿的惊天差距:法庭上,“审计报告”为何不能代替“司法会计鉴定”?
  • 2026届最火的十大降AI率助手推荐
  • Docker 27原生加密引擎深度解析:如何在容器层硬隔离CT/MRI影像数据,避免零日泄露?
  • 案例真题详解:Redis 主从复制~终于搞懂了
  • MinGW-w64完全指南:Windows C/C++开发环境终极配置教程
  • IC后端CTS入门:为什么大佬们都爱用反相器(Inverter)而不是Buffer来建时钟树?
  • Tailwind CSS 安装(NPM)