当前位置：首页 > news >正文

RAGFlow 系列教程第15课：RAPTOR -- 递归抽象树检索

news 2026/6/22 7:15:32

系列: RAGFlow v0.25.0 深度解读
作者: 耿雨飞
前置知识: 第10课（文档解析）、第12课（混合检索）、第14课（GraphRAG）

导读

在前面的课程中，我们学习了 RAGFlow 的分块策略和混合检索引擎。标准 RAG 管线将文档切分为相对独立的分块，然后通过向量相似度或全文匹配来检索最相关的分块。这种方式在回答"某段落提到了什么"这类局部问题时效果良好，但遇到"请总结这篇文档的核心观点"或"A 和 B 两个章节的结论有何矛盾"这类需要跨多个分块综合信息的问题时，单分块检索就显得力不从心了。

RAPTOR（Recursive Abstractive Processing for Tree-Organized Retrieval）通过对文档分块进行层次化聚类和递归摘要，构建从原始分块到高层抽象的摘要树。查询时，RAPTOR 生成的摘要分块与原始分块一起参与检索，使系统能够同时命中细节级和主题级的信息。

本课将深入分析 RAGFlow 中 RAPTOR 的完整实现，包括核心算法（UMAP 降维 + GMM 聚类 + BIC 最优聚类数选择）、LLM 递归摘要生成、两种作用域模式（file/kb），以及与 GraphRAG 的互补关系。

学习目标

理解 RAPTOR 算法解决的问题：跨分块综合信息检索的局限性
掌握 RAPTOR 的核心算法流程：UMAP 降维 → GMM 聚类 → BIC 选择最优 K → LLM 摘要 → 递归

http://www.jsqmd.com/news/755329/

相关文章：

自然语言的授权与形式化的授权不同

智能体跨领域评估框架设计与工程实践

OpenClaw Dashboard Pro：本地AI工作流可视化控制台部署与实战指南

别再只会点‘发送’了！SSCOM V5.13.1串口调试的5个隐藏技巧与实战避坑

Woodpecker：无需训练的多模态大模型幻觉检测与修正实战

OpsPilot：面向企业业务系统的智能运维 Agent 平台（4）

将 Hermes Agent 工具链连接到 Taotoken 自定义模型提供商

从UFLD到UFLDv2实战：在自定义数据集上快速实现车道线检测（PyTorch版）

终极Silk音频转换器：3步搞定微信QQ音频转MP3的完整指南

微服务架构核心：Eureka/Nacos注册中心与Ribbon负载均衡深度解析

Redis的缓存雪崩、缓存穿透、缓存击穿是什么？怎么解决？

实战指南：在快马平台利用讯飞coding plan思路构建销售数据仪表盘

X-TRACK开源GPS自行车码表：构建专业骑行数据记录与分析系统

AI使用心得（二）

2026年4月专业的无线信号测量仪表品牌推荐，电子对抗设备/无线信号测量仪表/频谱仪，无线信号测量仪表品牌推荐分析 - 品牌推荐师

【信奥业余科普】C++ 的奇妙之旅 | 20：更安全的间接访问——引用的设计动机与实战对比

SCALE框架：数学推理中的动态资源分配技术

LLM评估准则偏差分析与动态优化实践

5分钟快速上手：VideoDownloadHelper视频下载插件终极指南

告别‘砖头’！用Magisk给安卓手机Root的保姆级避坑指南（附最新安装包获取）

多模态AI图表空间理解：评估体系与实现策略

WordPress主题 – AZJ双端应用下载主题

SWE-EVO基准测试：评估编码代理在长期软件维护中的适应能力

Legacy-iOS-Kit：突破苹果验证限制的旧设备技术复兴方案

从Saastamoinen到Hopfield：手把手教你用MATLAB实现GNSS对流层延迟修正

终极Happy Island Designer指南：5分钟快速打造梦想岛屿

终极指南：如何用Nucleus Co-Op让单机游戏变身为分屏多人派对

Windows系统鼠标指针美化：Material Design风格方案部署与深度定制指南