当前位置: 首页 > news >正文

Github上文本切分相关的优秀项目

Github上有几个不错的文本切分相关的优秀项目,涵盖了不同技术方向和应用场景:

  1. AntSK-FileChunk

    • 特点:基于语义理解的智能文本切片工具,支持PDF、Word、纯文本等多种格式,通过语义分析和向量计算确保切片的语义完整性和连贯性。
    • GitHub地址https://github.com/xuzeyu91/antsk-filechunk
  2. LangExtract

    • 特点:谷歌开源的文本处理库,支持长文档智能分块、并行处理和多轮提取,结合LLM实现结构化信息提取,适用于医疗、法律、科研等领域的文本处理。
    • GitHub地址https://github.com/google/langextract
  3. Chonkie

    • 特点:为RAG任务设计的轻量级文本分块库,采用Tiktoken和预计算缓存技术,性能高效,适用于大规模文本处理。
    • GitHub地址https://github.com/chonkie-inc/chonkie 
  4. Late Chunking

    • 特点:基于长上下文Embedding模型的后置分块策略,通过全局信息编码和平均池化保留上下文连贯性,适用于长文档处理。
    • GitHub地址https://github.com/jina-ai/late-chunking
  5. LangChain Text Splitters

    • 特点:LangChain框架中的文本切分工具,包括RecursiveCharacterTextSplitter等,支持基于规则、NLP库(如NLTK、Spacy)的切分,适用于结构化和非结构化文本。
    • GitHub地址https://github.com/hwch/langchain

这些项目在语义切分、性能优化、多格式支持等方面各有优势,可根据具体需求选择。

http://www.jsqmd.com/news/15043/

相关文章:

  • 微信机器人开发
  • 原型链污染学习
  • 重新认识 Golang 中的 json 编解码
  • (二)CUDA在Windows系统上的编译运行方法
  • 关于价值原语与AI元人文构想的对话全记录——DeepSeek研究
  • 251017
  • 关于价值原语与AI元人文构想的对话全记录
  • 升鲜宝生鲜配送供应链管理系统,辅助开发工具,《多语言自动翻译与导出工具(WinForms版)》开发文档 及 阿里云机器翻译,数据库Mysql .net 全部源代码
  • 植物大战僵尸全系列下载 PVZ植物大战僵尸全集版分享下载 原版民间修改版含安卓手机+电脑+ios各平台
  • Pytorch66页实验题
  • 记一次激活Jetbrains全家桶流程
  • 向量空间与子空间
  • 10/16
  • MrakDown学习
  • 2025.10.16总结
  • 日常生活中的AI应用记录-2
  • containerd二进制安装
  • 维修笔记 | 一例滤波电容老化引发开关电源异常现象
  • (一)GPU与CUDA概述
  • 实验1 面向对象程序设计C++
  • 练习篇:第一次markdown成果展示
  • DirectX RayTracing (3) 程序图元及复杂光照
  • 微软已停止对 Windows 10 系统的支持
  • NiN模型
  • 2025秋_13
  • 2023 ICPC Hefei
  • 斑马日记2025.10.16
  • 可能是 ICPC2025 西安站游记
  • 知识学报:DP(1)
  • Active Directory用户账户安全配置与漏洞防范指南