当前位置: 首页 > news >正文

RAG更新策略:文档局部更新后,知识库如何更新?

这样的问题看着还是挺简单的,但动手的时候,好像又不那么简单。让我们一起看看


01

理论上的最优方法

因为文档只改了一段话,所以只有相关的那几个块变了,其他块没动。最完美的方式自然是找到知识库中相关文档的哪个变动的“块”,然后删除旧块,更新为新块。

上面的解决方案在逻辑上是自洽的,具体的解决步骤如下:

  1. **定位变动的块:**把新文档和旧文档按相同方式切块,比对每个块的内容。只找出内容发生变化的块。
  2. 更新索引
  • 删除旧块对应的向量(根据块ID或文档ID+位置)
  • 对新增/修改的块重新生成向量,插入索引
  • 如果某块被删除,直接删掉
  1. **注意邻居块:**如果改动导致块边界偏移(比如加了一大段文字),建议重算该部分前后几个块,保证上下文连续性。简单做法:把整段涉及的区域(前后各多取一块)重新切分并替换。

这样做,计算量减少 99%,速度飞快,成本极低。

理论上完全可行

但实际上呢?即使最简单的固定大小分块策略,也会出现:

假如我们更新的这200个字导致当前块超过了分块大小,就会发生边界飘逸,导致上下两个块要重新分块,甚至级联到更多的块,这样极易导致周围块的上下文发生错位,语意不连贯甚至混乱,检索出来的结果自然也会是乱的。

如果是语义分块,你需要:

  • 维护每个块的位置信息
  • 处理块的分裂、合并、移位
  • 保证新旧块之间的语义连续性

这样做真的很复杂!

为了不这么麻烦,LlamaIndex采取了以文档(Document)为最小粒度的策略。


02

LlamaIndex的做法

LlamaIndex定义了针对Document的插入、删除、更新(update_ref_doc)和刷新(refresh_ref_docs)操作。

LlamaIndex 将Document视为主要的数据操作单元,Node是其内部的子对象,用户无法跳过Document直接对Node进行更新。

LlamaIndex 还有自动化摄入管道 (IngestionPipeline)策略,当你通过IngestionPipeline处理文档时,它会为每个文档计算一个“哈希值”作为“指纹”。后续再次运行时,它会自动跳过哈希值未变的文档,只重新处理发生过变化的文档,这从根本上避免了重复计算。

反正都是以文档为最小处理单元,也就没有必要逐字去做内容比对了。


03

自己动手,适配项目

LlamaIndex 之所以采取以文档而不是块为最小操作单元,也是因为它是一个通用框架,核心目标就是适用于大多数场景。而且其默认采用**递归分块 (Recursive Chunking),**采用优先分隔符(段落→句子→词),块大小不完全一致。管理块级别的内容,复杂度太高。

如果你项目中的文档平均大小在几万 token 以内,更新频率不高(一天几次几十次以内),**直接用 LlamaIndex 的原生方法就好,**别为了理论上的“最优”把自己搞崩溃。

但如果你文档巨大(百万 token)、且更新极高频(每分钟都更新),LlamaIndex 提供的文档级全量肯定是扛不住,那就只能自己造轮子。可以考虑以下策略:

  • 自己维护文档 → 块的映射表
  • 用固定分块策略(不要用语义切分,否则边界不可控)
  • 每次更新,只重算变化的块及其邻居
  • 直接操作向量数据库的update接口

但是这种超大文档、高频更新的场景真的存在吗?我表示怀疑!

有时候,追求最优解是一种良好的品质,但也不要超越成本和效率制约。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/900133/

相关文章:

  • ArcGIS坡度计算实战:从坐标系选择到Z因子校准的完整避坑指南
  • 2026年好用的电销机器人供应商,究竟哪家能脱颖而出?
  • Win7上装VMware Horizon Client总失败?别慌,这4个坑我帮你踩过了
  • 4款主流降AI工具知网维普实测对比:2026年5月降AI率排行榜
  • AI Agent Harness Engineering 在科研文献分析中的实战:自动综述生成与引用溯源
  • OpenTenBase的外键(Foreign Key)和外键级联
  • 一台手机想过 GMS 认证有多难?CTS、GTS、VTS 全流程实战指南(附踩坑血泪史)
  • AI应用的安全工程:从威胁建模到防护
  • ARM处理器调试架构:EDBGRQ与CTI对比与实现
  • STM32HAL库-UID实战:从读取到应用加密与设备标识
  • 智谱GLM-5:实用主义AGI的技术革命
  • 2026最新 | 零Prompt自动生成电商带货视频,这个AI工作台把出片门槛打成了地板
  • 5G毫米波MIMO波束对齐技术解析与优化方案
  • 编程语言“颜色”难题:异步与同步困境,Go语言如何破局?
  • 企业级 AI Agent: MCP、CLI、Skills,如何定位、该怎么选、最佳实践。
  • 2026年实力之选:东莞刻字膜与烫金纸生产厂家综合解析 - 品牌企业推荐师(官方)
  • 构建有记忆的AI支持代理:基于会话状态追踪与动态升级的工程实践
  • ChatGPT高效入门指南:3天建立认知框架、7天掌握结构化提示、30天构建个人AI工作流
  • 2026年 宝钢冷镦钢盘条/圆钢全牌号推荐榜单:源头厂家技术实力与行业优选深度解析 - 品牌企业推荐师(官方)
  • 手把手教你用Python爬虫+数据分析,量化验证‘蜘蛛一年吃掉的昆虫比英国人还重’这个惊人结论
  • SpringBoot与前端框架(Vue/React)联调实战指南
  • WPF TemplateBinding
  • 846378
  • C64 BASIC 游戏地图“相机视角”实现:从初稿到优化,性能提升有妙招!
  • 从零到一:QtCharts模块的集成与实战入门
  • 2026现阶段昆明婚宴礼服租赁:如何挑选性价比之王?金喜礼服馆深度解析 - 2026年企业资讯
  • RTA-OS中断实战:从概念到高效配置的嵌入式系统响应之道
  • 基于Amazon Bedrock构建AI智能体:从提示词工程到工具调用的实践指南
  • 深圳周边Inconel 718现货哪里找?揭秘珠三角核心供应商的快速响应能力 - 品牌2025
  • 2026年 宝钢镀锌HC550/980DHD+Z吉帕钢推荐榜单:超高强汽车用钢/先进高强钢/轻量化镀锌板/吉帕级冲压用钢厂家实力解析 - 品牌企业推荐师(官方)