当前位置: 首页 > news >正文

RAG 的尽头是没有 RAG?阿里刚开源的这个狠活,把向量库掀了

今天聊一个"反 RAG"的狠角色 —— Sirchmunk

来自阿里 ModelScope 团队,思路非常野:不做 Embedding,不建向量库,直接读原始文件就能搜

听起来像在开玩笑?往下看。

Sirchmunk 是什么

Sirchmunk Logo

Sirchmunk 的全名很有意思 —— 取自 “Search” + “Chipmunk”(花栗鼠),官方解释是:花栗鼠会把找到的坚果藏起来备用,Sirchmunk 也一样,每次搜索的结果都会被结构化存储、持续进化,越用越聪明。

一句话总结:Sirchmunk 是一个开源的、无需 Embedding 的、具备 Agent 能力的搜索引擎,能把原始数据实时转化为自进化的智能知识体。

这句话里有几个关键词值得展开:

核心功能与特点:

  • 🔍Embedding-Free(无需向量化):不用建向量库,不用跑 ETL 管线,文件扔进去直接就能搜。支持 100+ 种文件格式,PDF、代码、Markdown 全都行
  • 🧠自进化知识簇(Self-Evolving Knowledge Clusters):每次搜索的结果不会被丢弃,而是形成结构化的"知识簇",越搜越聪明,相似问题秒回
  • 🎯蒙特卡洛证据采样(Monte Carlo Evidence Sampling):用探索-利用策略从大文档中精准抽取证据,不用读完全文就能找到关键信息
  • 🤖ReAct Agent 兜底:标准检索搞不定?自动启动 ReAct Agent 迭代探索,直到找到答案
  • 🔌五种接入方式:MCP 协议(对接 Claude Desktop、Cursor IDE)、REST API、WebSocket 实时聊天、CLI 命令行、Web UI,全都内置

传统 RAG vs Sirchmunk

说实话,传统 RAG 用到现在,大家应该都有点"苦 Embedding 久矣"的感觉了吧。来看看对比:

维度传统 RAGSirchmunk
搭建成本高(VectorDB、GraphDB、文档解析器…)✅ 零基础设施,直接对数据检索
数据新鲜度陈旧(批量重建索引)✅ 即时 & 动态,自进化索引实时反映变化
可扩展性线性成本增长✅ 极低 RAM/CPU 消耗
准确度近似向量匹配✅ 确定性 + 上下文感知
工作流复杂 ETL 管线✅ 扔文件就搜,零配置集成

最让我眼前一亮的是"零搭建成本"这一点。传统 RAG 光是搭个向量库就得折腾半天 —— 选 Milvus 还是 Chromadb?chunk 策略怎么定?Embedding 模型用哪个?Sirchmunk 直接跳过了这些烦心事。

工作原理:为什么不需要 Embedding?

这是 Sirchmunk 最有意思的地方。它的架构分成清晰的分层设计,核心是一个多阶段搜索管线

Sirchmunk 架构图

六阶段搜索流程

Phase 0 — 知识簇复用:先检查有没有语义相似的历史查询,如果余弦相似度超过 0.85,直接返回缓存的知识簇,亚秒级响应。不光是简单的缓存 —— 每次复用都会把新查询追加到簇的历史中,语义覆盖面越来越广。

Phase 1 — 并行探测:四个独立的探针同时启动 —— LLM 关键词提取(多粒度)、目录结构扫描、知识缓存查找、路径上下文加载。并行执行,速度拉满。

Phase 2 — 检索 & 排序:内容检索(IDF 加权关键词搜索)和结构排序(LLM 根据元数据评估候选文件)双管齐下。

Phase 3 — 知识簇构建:结果合并、去重,通过蒙特卡洛证据采样处理,LLM 把证据片段合成结构化的知识簇。

Phase 4 — 摘要或 ReAct 精化:找到证据就生成结构化摘要;没找到?ReAct Agent 自动激活,迭代探索直到搞定。

Phase 5 — 持久化:有价值的知识簇连带嵌入向量一起保存,供后续复用。

蒙特卡洛证据采样:核心黑科技

这个算法真的很有创意。传统方法要么读全文(浪费 token),要么固定切块(丢失上下文),Sirchmunk 把它当成一个采样问题来解:

Monte Carlo Evidence Sampling 算法

  1. 撒网(探索):模糊锚点匹配 + 分层随机采样,找到有潜在价值的种子区域,同时随机探测保证不遗漏
  2. 聚焦(利用):以高分种子为中心做高斯重要性采样,密集提取最有可能的区域
  3. 合成:Top-K 片段交给 LLM 合成连贯的兴趣区域(ROI)摘要

最牛的三个特性:

  • 文档无关:2 页备忘录和 500 页技术手册用同一套算法,不需要文档级的切块启发式
  • Token 高效:只把最相关的区域发给 LLM,token 消耗远低于全文方案
  • 探索-利用平衡:随机探索防止隧道视野,重要性采样确保关键区域有深度
自进化知识簇

Sirchmunk 不会在回答完查询后就丢掉搜索结果。每次搜索都会产生一个KnowledgeCluster—— 结构化的、可复用的知识单元,越用越聪明:

  • 查询首先嵌入并与所有已存储簇做余弦相似度比较(≥ 0.85 即命中)
  • 命中后:追加新查询到历史(FIFO,最多 5 条)→ 热度 +0.1(上限 1.0)→ 重新计算嵌入向量(语义覆盖面拓宽)
  • 未命中:走完整搜索管线,生成新簇
  • 存储:内存 DuckDB + 磁盘 Parquet,原子写入,多进程安全

关键属性:

  • 零成本加速:重复或语义相似的查询无需 LLM 推理,近乎即时
  • 查询驱动嵌入:嵌入来自查询而非内容,和用户实际提问方式对齐
  • 语义拓宽:不同查询复用同一簇时,嵌入自动漂移覆盖更宽的语义邻域

安装

安装非常简单,一行 pip 就行:

# 创建虚拟环境(推荐)conda create -n sirchmunk python=3.13 -y && conda activate sirchmunk# 从 PyPI 安装pip install sirchmunk# 或者用 UVuv pip install sirchmunk# 如果要 Web UIpip install "sirchmunk[web]"# 如果要 MCP 支持pip install "sirchmunk[mcp]"# 全部安装pip install "sirchmunk[all]"

环境要求:

  • Python 3.10+
  • LLM API Key(任何 OpenAI 兼容端点,包括 OpenAI、Ollama、vLLM、llama.cpp 等)
  • Node.js 18+(可选,Web UI 需要)

初始化:

# 初始化(默认路径:~/.sirchmunk/)sirchmunk init# 配置 LLM# 编辑 ~/.sirchmunk/.env

.env配置示例:

LLM_API_KEY=your-api-keyLLM_BASE_URL=https://api.openai.com/v1LLM_MODEL=gpt-4o

使用

Sirchmunk 提供了丰富的使用方式,CLI 和 Python SDK 都很好用。

CLI 命令行搜索
# 搜索当前目录sirchmunk search "How does authentication work?"# 搜索指定路径sirchmunk search "find all API endpoints" ./src ./docs# 快速文件名搜索(不需要 LLM)sirchmunk search "config" --mode FILENAME_ONLY# 输出 JSONsirchmunk search "database schema" --output json
Python SDK
import asynciofrom sirchmunk import AgenticSearchfrom sirchmunk.llm import OpenAIChatllm = OpenAIChat( api_key="your-api-key", base_url="your-base-url", model="your-model-name")asyncdef main(): searcher = AgenticSearch(llm=llm) result = await searcher.search( query="How does transformer attention work?", paths=["/path/to/documents"], ) print(result)asyncio.run(main())
MCP 集成(对接 Claude Desktop / Cursor IDE)

AI 编程助手可以在编码过程中直接调用 Sirchmunk 进行深度搜索,无需切换窗口,也无需手动复制粘贴。搜索结果以流式方式实时返回,并附带来源引用与证据摘要

这个对 AI 编程玩家特别实用。配置mcp_config.json后就能在 Claude Desktop 或 Cursor 里直接调用 Sirchmunk 搜索你的本地文档:

{ "mcpServers": { "sirchmunk": { "command": "sirchmunk", "args": ["mcp", "serve"], "env": { "SIRCHMUNK_SEARCH_PATHS": "/path/to/your_docs,/another/path" } } }}

Web UI

Sirchmunk 还内置了一个很现代的 Web 界面,支持聊天、知识分析和系统监控:

Sirchmunk Home 界面

启动方式超简单:

# 构建前端(需要 Node.js 18+)sirchmunk web init# 一个端口搞定 API + WebUIsirchmunk web serve

访问http://localhost:8584即可。

Web UI 的几个亮点:

  • Chat 界面:支持流式输出,实时显示搜索日志,每个结论都有源文件引用,支持纯 LLM 对话 / 文件 RAG / Web 搜索三种模式
  • Knowledge 页面:可视化浏览知识簇,查看证据单元、置信度、热度评分和查询历史
  • Monitor 页面:实时系统健康监控,聊天活跃度、LLM token 用量和成本追踪、知识簇增长曲线

Sirchmunk Monitor 界面

同时支持暗色/亮色主题切换,还有中英双语。

我的判断

说说我的看法。

优点:

  • 理念超前:直接跳过 Embedding 这一步,对于"文件多、格式杂、更新频繁"的场景是个大杀器。比如代码仓库搜索,文档随时在变,传统 RAG 的向量库要反复重建,Sirchmunk 天然免疫这个问题
  • 蒙特卡洛采样很优雅:把信息检索问题转化为采样问题,探索-利用的平衡设计很讨巧
  • 知识簇自进化:越用越聪明,而且是零成本的加速,重复查询近乎即时返回
  • 集成方式丰富:MCP、REST、WebSocket、CLI、Web UI 五种接入方式,特别是 MCP 对 AI 编程工具的支持,直接让 Cursor/Claude Desktop 具备智能搜索能力
  • 轻量化存储:DuckDB + Parquet,不依赖外部数据库基础设施

需要注意的:

  • 项目还比较新(v0.0.3),GitHub 上只有 44 个 star,还在早期阶段
  • 对 LLM 的依赖较重,DEEP 模式搜索需要 LLM 支持,token 消耗需要关注
  • 没有 Embedding 不代表没有 LLM 调用 —— 关键词提取、文件排序、证据合成都需要 LLM,所以并不是"免费"的
  • 大规模生产环境的稳定性还有待验证

适用场景:

  • 代码仓库智能搜索(配合 MCP 用在 IDE 里)
  • 个人知识库 / 文档库(文件多、格式杂、经常变动)
  • 快速原型验证(不想花时间搭 RAG 管线时)

总的来说,Sirchmunk 代表了一种很有趣的新思路 —— 不是去优化 RAG,而是直接绕过 RAG 的痛点。方向值得关注,但作为阿里 ModelScope 团队出品,后续迭代能不能跟上,还得看社区反馈和团队投入。

想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2026 年AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享

👇👇扫码免费领取全部内容👇👇

一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI

1. 100+本大模型方向电子书

2. 26 份行业研究报告:覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:

  • 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
  • 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
  • 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
  • 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT:听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:

  • 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
  • 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
  • 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
  • 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!

1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析

2. 102 道 AI 大模型真题:直击大模型核心考点

针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:

3. 97 道 LLMs 真题:聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:


三、路线必明: AI 大模型学习路线图,1 张图理清核心内容

刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!

路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段:攻坚篇丨RAG开发实战工坊

L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段:跃迁篇丨Agent智能体架构设计

L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

L4阶段:精进篇丨模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

L5阶段:专题集丨特训篇 【录播课】


四、资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇

2026 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!

http://www.jsqmd.com/news/428504/

相关文章:

  • 2026年AI芯片厂家推荐榜:CPU芯片/基带芯片/存储芯片/电源管理芯片全系供应,适配工业/汽车/消费多场景 - 品牌推荐官
  • 买机床用哪个软件靠谱?机床商务网深耕行业16载,打造工业母机生态闭环 - 品牌推荐大师1
  • 2026年北京小程序开发服务商深度解析|多场景定制如何驱动业务增长 - 品牌2026
  • MOS管电源适配器开关稳压控制应用:高效能转换的核心引擎
  • 机房不该靠“手速”撑着:聊聊运维自动化在数据中心里的真正价值
  • AI 写代码,会不会把 DevOps 直接“重做一遍”?
  • 2026/3/2
  • 2026年全国仓库地坪漆厂家哪家实力强?靠谱优质且适配多场景需求 - 深度智识库
  • MOS管在新能源动力电池包放电控制中的关键作用与阿赛姆解决方案
  • 高性价比细胞基因点突变服务商盘点:本土标杆海星生物与国际先进公司对比 - 品牌推荐大师1
  • 基于SpringBoot+Vue的书城阅读器系统设计与实现
  • linux xshell 能登陆上但xftp连不上 提示无法“127.0.0.1”建立连接【转】
  • SQL记录 备份全部结构38
  • 绵羊线粒体数据mafft多序列比对:线程数目对速度的影响
  • 【GitHub项目推荐--Fara-7B:微软高效计算机使用智能体模型】⭐⭐⭐
  • windows wsl 安装多操作系统
  • 烧菜火锅哪家火?排行前几名实力揭秘!社区火锅/美食/烧菜火锅/特色美食/火锅,烧菜火锅品牌排行榜单 - 品牌推荐师
  • 路由
  • 别只盯着离线指标了:用大数据把模型“在线状态”盯死
  • 别从每个房间找门了:一题《墙与门》看懂“多源 BFS”的威力
  • 小程序定制开发如何选择专业服务商?北京麦冬科技多行业解决方案解析 - 品牌2026
  • 市场口碑好的道路工程反光膜制造企业推荐几家 - 五色鹿五色鹿
  • 照着用就行:AI论文写作软件 千笔写作工具 VS WPS AI,研究生专属神器!
  • 2026年全国地坪工程一站式服务哪家强?可靠专业适配多场景 覆盖多区域 - 深度智识库
  • 视频服务器选择日本节点值得推荐吗
  • 百联OK卡高折扣回收平台指南:快速交易,安心变现! - 团团收购物卡回收
  • 2026年企业数字化转型指南:如何甄选专业小程序定制开发伙伴? - 品牌2026
  • 集合
  • 2026年台式原油水分测定离心机选购指南:揭秘国产优质源头厂家 - 品牌推荐大师1
  • 一个位运算问题