RAG 的尽头是没有 RAG?阿里刚开源的这个狠活,把向量库掀了
今天聊一个"反 RAG"的狠角色 —— Sirchmunk
来自阿里 ModelScope 团队,思路非常野:不做 Embedding,不建向量库,直接读原始文件就能搜。
听起来像在开玩笑?往下看。
Sirchmunk 是什么
Sirchmunk Logo
Sirchmunk 的全名很有意思 —— 取自 “Search” + “Chipmunk”(花栗鼠),官方解释是:花栗鼠会把找到的坚果藏起来备用,Sirchmunk 也一样,每次搜索的结果都会被结构化存储、持续进化,越用越聪明。
一句话总结:Sirchmunk 是一个开源的、无需 Embedding 的、具备 Agent 能力的搜索引擎,能把原始数据实时转化为自进化的智能知识体。
这句话里有几个关键词值得展开:
核心功能与特点:
- 🔍Embedding-Free(无需向量化):不用建向量库,不用跑 ETL 管线,文件扔进去直接就能搜。支持 100+ 种文件格式,PDF、代码、Markdown 全都行
- 🧠自进化知识簇(Self-Evolving Knowledge Clusters):每次搜索的结果不会被丢弃,而是形成结构化的"知识簇",越搜越聪明,相似问题秒回
- 🎯蒙特卡洛证据采样(Monte Carlo Evidence Sampling):用探索-利用策略从大文档中精准抽取证据,不用读完全文就能找到关键信息
- 🤖ReAct Agent 兜底:标准检索搞不定?自动启动 ReAct Agent 迭代探索,直到找到答案
- 🔌五种接入方式:MCP 协议(对接 Claude Desktop、Cursor IDE)、REST API、WebSocket 实时聊天、CLI 命令行、Web UI,全都内置
传统 RAG vs Sirchmunk
说实话,传统 RAG 用到现在,大家应该都有点"苦 Embedding 久矣"的感觉了吧。来看看对比:
| 维度 | 传统 RAG | Sirchmunk |
|---|---|---|
| 搭建成本 | 高(VectorDB、GraphDB、文档解析器…) | ✅ 零基础设施,直接对数据检索 |
| 数据新鲜度 | 陈旧(批量重建索引) | ✅ 即时 & 动态,自进化索引实时反映变化 |
| 可扩展性 | 线性成本增长 | ✅ 极低 RAM/CPU 消耗 |
| 准确度 | 近似向量匹配 | ✅ 确定性 + 上下文感知 |
| 工作流 | 复杂 ETL 管线 | ✅ 扔文件就搜,零配置集成 |
最让我眼前一亮的是"零搭建成本"这一点。传统 RAG 光是搭个向量库就得折腾半天 —— 选 Milvus 还是 Chromadb?chunk 策略怎么定?Embedding 模型用哪个?Sirchmunk 直接跳过了这些烦心事。
工作原理:为什么不需要 Embedding?
这是 Sirchmunk 最有意思的地方。它的架构分成清晰的分层设计,核心是一个多阶段搜索管线:
Sirchmunk 架构图
六阶段搜索流程
Phase 0 — 知识簇复用:先检查有没有语义相似的历史查询,如果余弦相似度超过 0.85,直接返回缓存的知识簇,亚秒级响应。不光是简单的缓存 —— 每次复用都会把新查询追加到簇的历史中,语义覆盖面越来越广。
Phase 1 — 并行探测:四个独立的探针同时启动 —— LLM 关键词提取(多粒度)、目录结构扫描、知识缓存查找、路径上下文加载。并行执行,速度拉满。
Phase 2 — 检索 & 排序:内容检索(IDF 加权关键词搜索)和结构排序(LLM 根据元数据评估候选文件)双管齐下。
Phase 3 — 知识簇构建:结果合并、去重,通过蒙特卡洛证据采样处理,LLM 把证据片段合成结构化的知识簇。
Phase 4 — 摘要或 ReAct 精化:找到证据就生成结构化摘要;没找到?ReAct Agent 自动激活,迭代探索直到搞定。
Phase 5 — 持久化:有价值的知识簇连带嵌入向量一起保存,供后续复用。
蒙特卡洛证据采样:核心黑科技
这个算法真的很有创意。传统方法要么读全文(浪费 token),要么固定切块(丢失上下文),Sirchmunk 把它当成一个采样问题来解:
Monte Carlo Evidence Sampling 算法
- 撒网(探索):模糊锚点匹配 + 分层随机采样,找到有潜在价值的种子区域,同时随机探测保证不遗漏
- 聚焦(利用):以高分种子为中心做高斯重要性采样,密集提取最有可能的区域
- 合成:Top-K 片段交给 LLM 合成连贯的兴趣区域(ROI)摘要
最牛的三个特性:
- 文档无关:2 页备忘录和 500 页技术手册用同一套算法,不需要文档级的切块启发式
- Token 高效:只把最相关的区域发给 LLM,token 消耗远低于全文方案
- 探索-利用平衡:随机探索防止隧道视野,重要性采样确保关键区域有深度
自进化知识簇
Sirchmunk 不会在回答完查询后就丢掉搜索结果。每次搜索都会产生一个KnowledgeCluster—— 结构化的、可复用的知识单元,越用越聪明:
- 查询首先嵌入并与所有已存储簇做余弦相似度比较(≥ 0.85 即命中)
- 命中后:追加新查询到历史(FIFO,最多 5 条)→ 热度 +0.1(上限 1.0)→ 重新计算嵌入向量(语义覆盖面拓宽)
- 未命中:走完整搜索管线,生成新簇
- 存储:内存 DuckDB + 磁盘 Parquet,原子写入,多进程安全
关键属性:
- 零成本加速:重复或语义相似的查询无需 LLM 推理,近乎即时
- 查询驱动嵌入:嵌入来自查询而非内容,和用户实际提问方式对齐
- 语义拓宽:不同查询复用同一簇时,嵌入自动漂移覆盖更宽的语义邻域
安装
安装非常简单,一行 pip 就行:
# 创建虚拟环境(推荐)conda create -n sirchmunk python=3.13 -y && conda activate sirchmunk# 从 PyPI 安装pip install sirchmunk# 或者用 UVuv pip install sirchmunk# 如果要 Web UIpip install "sirchmunk[web]"# 如果要 MCP 支持pip install "sirchmunk[mcp]"# 全部安装pip install "sirchmunk[all]"环境要求:
- Python 3.10+
- LLM API Key(任何 OpenAI 兼容端点,包括 OpenAI、Ollama、vLLM、llama.cpp 等)
- Node.js 18+(可选,Web UI 需要)
初始化:
# 初始化(默认路径:~/.sirchmunk/)sirchmunk init# 配置 LLM# 编辑 ~/.sirchmunk/.env.env配置示例:
LLM_API_KEY=your-api-keyLLM_BASE_URL=https://api.openai.com/v1LLM_MODEL=gpt-4o使用
Sirchmunk 提供了丰富的使用方式,CLI 和 Python SDK 都很好用。
CLI 命令行搜索
# 搜索当前目录sirchmunk search "How does authentication work?"# 搜索指定路径sirchmunk search "find all API endpoints" ./src ./docs# 快速文件名搜索(不需要 LLM)sirchmunk search "config" --mode FILENAME_ONLY# 输出 JSONsirchmunk search "database schema" --output jsonPython SDK
import asynciofrom sirchmunk import AgenticSearchfrom sirchmunk.llm import OpenAIChatllm = OpenAIChat( api_key="your-api-key", base_url="your-base-url", model="your-model-name")asyncdef main(): searcher = AgenticSearch(llm=llm) result = await searcher.search( query="How does transformer attention work?", paths=["/path/to/documents"], ) print(result)asyncio.run(main())MCP 集成(对接 Claude Desktop / Cursor IDE)
AI 编程助手可以在编码过程中直接调用 Sirchmunk 进行深度搜索,无需切换窗口,也无需手动复制粘贴。搜索结果以流式方式实时返回,并附带来源引用与证据摘要
这个对 AI 编程玩家特别实用。配置mcp_config.json后就能在 Claude Desktop 或 Cursor 里直接调用 Sirchmunk 搜索你的本地文档:
{ "mcpServers": { "sirchmunk": { "command": "sirchmunk", "args": ["mcp", "serve"], "env": { "SIRCHMUNK_SEARCH_PATHS": "/path/to/your_docs,/another/path" } } }}Web UI
Sirchmunk 还内置了一个很现代的 Web 界面,支持聊天、知识分析和系统监控:
Sirchmunk Home 界面
启动方式超简单:
# 构建前端(需要 Node.js 18+)sirchmunk web init# 一个端口搞定 API + WebUIsirchmunk web serve访问http://localhost:8584即可。
Web UI 的几个亮点:
- Chat 界面:支持流式输出,实时显示搜索日志,每个结论都有源文件引用,支持纯 LLM 对话 / 文件 RAG / Web 搜索三种模式
- Knowledge 页面:可视化浏览知识簇,查看证据单元、置信度、热度评分和查询历史
- Monitor 页面:实时系统健康监控,聊天活跃度、LLM token 用量和成本追踪、知识簇增长曲线
Sirchmunk Monitor 界面
同时支持暗色/亮色主题切换,还有中英双语。
我的判断
说说我的看法。
优点:
- 理念超前:直接跳过 Embedding 这一步,对于"文件多、格式杂、更新频繁"的场景是个大杀器。比如代码仓库搜索,文档随时在变,传统 RAG 的向量库要反复重建,Sirchmunk 天然免疫这个问题
- 蒙特卡洛采样很优雅:把信息检索问题转化为采样问题,探索-利用的平衡设计很讨巧
- 知识簇自进化:越用越聪明,而且是零成本的加速,重复查询近乎即时返回
- 集成方式丰富:MCP、REST、WebSocket、CLI、Web UI 五种接入方式,特别是 MCP 对 AI 编程工具的支持,直接让 Cursor/Claude Desktop 具备智能搜索能力
- 轻量化存储:DuckDB + Parquet,不依赖外部数据库基础设施
需要注意的:
- 项目还比较新(v0.0.3),GitHub 上只有 44 个 star,还在早期阶段
- 对 LLM 的依赖较重,DEEP 模式搜索需要 LLM 支持,token 消耗需要关注
- 没有 Embedding 不代表没有 LLM 调用 —— 关键词提取、文件排序、证据合成都需要 LLM,所以并不是"免费"的
- 大规模生产环境的稳定性还有待验证
适用场景:
- 代码仓库智能搜索(配合 MCP 用在 IDE 里)
- 个人知识库 / 文档库(文件多、格式杂、经常变动)
- 快速原型验证(不想花时间搭 RAG 管线时)
总的来说,Sirchmunk 代表了一种很有趣的新思路 —— 不是去优化 RAG,而是直接绕过 RAG 的痛点。方向值得关注,但作为阿里 ModelScope 团队出品,后续迭代能不能跟上,还得看社区反馈和团队投入。
想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2026 年AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享!
👇👇扫码免费领取全部内容👇👇
一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势
想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI:
1. 100+本大模型方向电子书
2. 26 份行业研究报告:覆盖多领域实践与趋势
报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:
- 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
- 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
- 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
- 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。
3. 600+套技术大会 PPT:听行业大咖讲实战
PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:
- 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
- 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
- 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
- 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。
二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走
想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!
1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位
面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析:
2. 102 道 AI 大模型真题:直击大模型核心考点
针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:
3. 97 道 LLMs 真题:聚焦大型语言模型高频问题
专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:
![]()
三、路线必明: AI 大模型学习路线图,1 张图理清核心内容
刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!
路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。
L1阶段:启航篇丨极速破界AI新时代
L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。
L2阶段:攻坚篇丨RAG开发实战工坊
L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。
L3阶段:跃迁篇丨Agent智能体架构设计
L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。
L4阶段:精进篇丨模型微调与私有化部署
L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。
L5阶段:专题集丨特训篇 【录播课】
![]()
四、资料领取:全套内容免费抱走,学 AI 不用再找第二份
不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:
👇👇扫码免费领取全部内容👇👇
2026 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!
