当前位置: 首页 > news >正文

RAG学习道路

数据准备阶段

加载原始文档
使用来自langchain_community.document_loaders的各种Loader,
如:UnstructuredMarkdownLoader,TextLoader等.
传入参数一般为文件路径如:
"../../data/C1/markdown/easy-rl-chapter1.md"

文本分块(Chunking)
为了便于后续嵌入与检索,长文档被分割成较小的文本块(chunks)。
经常使用递归字符分割:RecursiveCharacterTextSplitter()。
其默认行为旨在最大程度保留文本的语义结构:
https://datawhalechina.github.io/all-in-rag/#/chapter2/05_text_chunking

实际应用实例:
text_splitter = CharacterTextSplitter( chunk_size=200, # 每个块的大小 chunk_overlap=50 # 块之间的重叠大小 )
其中,chunk_overlap是为了保证上下文连续性的参数,其实现的思路为:

块编号 覆盖的字符区间 说明
第1块 0 ~ 199 从开头取200个字符
第2块 150 ~ 349 向后滑动 200 - 50 = 150 个字符
第3块 300 ~ 499 再滑动 150 个字符
👉 每个块都与前一个块有50个字符的重叠部分(即 chunk_overlap)
这意味着如果一段话跨越了两个块的边界,
模型在处理第2块时依然能看到第1块的结尾,从而理解上下文。
它本质上是一个滑动窗口的步长控制机制。
http://www.jsqmd.com/news/32862/

相关文章:

  • 2025年杭州找电商代运营公司权威推荐榜单:正规代运营/直播代运营/专业直播代运营源头公司精选
  • 2025年口碑好的植物生长灯TOP品牌厂家排行榜
  • 2025年比较好的精品韩国绒厂家最新权威实力榜
  • 2025年靠谱的进口品牌缓冲铰链厂家选购指南与推荐
  • 打开远程解释器下的streamlit的hello页面
  • 快速傅里叶变换(FFT)的应用
  • 2025年口碑好的吹膜机清洗料品牌厂家排行榜
  • 2025年知名的连栋玻璃温室热门厂家推荐榜单
  • 2025年评价高的石材抛丸机TOP实力厂家推荐榜
  • 2025年热门的全屋定制生态板厂家选购指南与推荐
  • 2025年口碑好的装箱机用户好评厂家排行
  • git clone操作报错diffie-hellman-group1-sha1的解决方案
  • 2025年声学指纹在线监测系统公司,在线监测系统哪家公司的服务周到?
  • HAwebsso.nl未受保护API端点泄露1.5万医生凭证数据
  • 2025 年 11 月广州装修公司最新推荐:5 大品牌专业测评,选品参考指南
  • Intersection Observer API 理解
  • 2025年评价高的白刚玉热门厂家推荐榜单
  • 2025 年不锈钢水管源头厂家最新推荐榜:聚焦具备大规模生产能力靠谱企业,涵盖多类型产品与优质安装服务不锈钢水管工程,不锈钢水管管件,不锈钢水管安装公司推荐
  • NOIP前计划
  • 2025年知名的速冻淡水虾仁TOP品牌厂家排行榜
  • 2025年比较好的304不锈钢焊管厂家最新TOP实力排行
  • 2025年口碑好的封闭式观光车品牌厂家排行榜
  • 2025 年蒸汽发生器厂家最新推荐排行榜:电热 / 燃油 / 燃气 / 工业等类型设备,深度解析行业实力企业
  • 2025年比较好的展示用品亚克力管厂家最新用户好评榜
  • 2025年无油螺杆空压机制造企业推荐,按需定制与品牌供应商全解析
  • 2025年评价高的彩印包装厂家推荐及选择参考
  • React Server Components 入门
  • 2025年质量好的午餐铁盒厂家推荐及选择指南
  • 超简单的公众号排版,这样做颜值高级又好看
  • 2025年比较好的双面贴标机厂家最新TOP排行榜