当前位置：首页 > news >正文

RAG 的尽头是没有 RAG？阿里刚开源的这个狠活，把向量库掀了

news 2026/3/26 18:19:11

今天聊一个"反 RAG"的狠角色 —— Sirchmunk

来自阿里 ModelScope 团队，思路非常野：不做 Embedding，不建向量库，直接读原始文件就能搜。

听起来像在开玩笑？往下看。

Sirchmunk 是什么

Sirchmunk Logo

Sirchmunk 的全名很有意思 —— 取自 “Search” + “Chipmunk”（花栗鼠），官方解释是：花栗鼠会把找到的坚果藏起来备用，Sirchmunk 也一样，每次搜索的结果都会被结构化存储、持续进化，越用越聪明。

一句话总结：Sirchmunk 是一个开源的、无需 Embedding 的、具备 Agent 能力的搜索引擎，能把原始数据实时转化为自进化的智能知识体。

这句话里有几个关键词值得展开：

核心功能与特点：

🔍Embedding-Free（无需向量化）：不用建向量库，不用跑 ETL 管线，文件扔进去直接就能搜。支持 100+ 种文件格式，PDF、代码、Markdown 全都行
🧠自进化知识簇（Self-Evolving Knowledge Clusters）：每次搜索的结果不会被丢弃，而是形成结构化的"知识簇"，越搜越聪明，相似问题秒回
🎯蒙特卡洛证据采样（Monte Carlo Evidence Sampling）：用探索-利用策略从大文档中精准抽取证据，不用读完全文就能找到关键信息
🤖ReAct Agent 兜底：标准检索搞不定？自动启动 ReAct Agent 迭代探索，直到找到答案
🔌五种接入方式：MCP 协议（对接 Claude Desktop、Cursor IDE）、REST API、WebSocket 实时聊天、CLI 命令行、Web UI，全都内置

传统 RAG vs Sirchmunk

说实话，传统 RAG 用到现在，大家应该都有点"苦 Embedding 久矣"的感觉了吧。来看看对比：

维度	传统 RAG	Sirchmunk
搭建成本	高（VectorDB、GraphDB、文档解析器…）	✅ 零基础设施，直接对数据检索
数据新鲜度	陈旧（批量重建索引）	✅ 即时 & 动态，自进化索引实时反映变化
可扩展性	线性成本增长	✅ 极低 RAM/CPU 消耗
准确度	近似向量匹配	✅ 确定性 + 上下文感知
工作流	复杂 ETL 管线	✅ 扔文件就搜，零配置集成

最让我眼前一亮的是"零搭建成本"这一点。传统 RAG 光是搭个向量库就得折腾半天 —— 选 Milvus 还是 Chromadb？chunk 策略怎么定？Embedding 模型用哪个？Sirchmunk 直接跳过了这些烦心事。

工作原理：为什么不需要 Embedding？

这是 Sirchmunk 最有意思的地方。它的架构分成清晰的分层设计，核心是一个多阶段搜索管线：

Sirchmunk 架构图

六阶段搜索流程

Phase 0 — 知识簇复用：先检查有没有语义相似的历史查询，如果余弦相似度超过 0.85，直接返回缓存的知识簇，亚秒级响应。不光是简单的缓存 —— 每次复用都会把新查询追加到簇的历史中，语义覆盖面越来越广。

Phase 1 — 并行探测：四个独立的探针同时启动 —— LLM 关键词提取（多粒度）、目录结构扫描、知识缓存查找、路径上下文加载。并行执行，速度拉满。

Phase 2 — 检索 & 排序：内容检索（IDF 加权关键词搜索）和结构排序（LLM 根据元数据评估候选文件）双管齐下。

Phase 3 — 知识簇构建：结果合并、去重，通过蒙特卡洛证据采样处理，LLM 把证据片段合成结构化的知识簇。

Phase 4 — 摘要或 ReAct 精化：找到证据就生成结构化摘要；没找到？ReAct Agent 自动激活，迭代探索直到搞定。

Phase 5 — 持久化：有价值的知识簇连带嵌入向量一起保存，供后续复用。

蒙特卡洛证据采样：核心黑科技

这个算法真的很有创意。传统方法要么读全文（浪费 token），要么固定切块（丢失上下文），Sirchmunk 把它当成一个采样问题来解：

Monte Carlo Evidence Sampling 算法

撒网（探索）：模糊锚点匹配 + 分层随机采样，找到有潜在价值的种子区域，同时随机探测保证不遗漏
聚焦（利用）：以高分种子为中心做高斯重要性采样，密集提取最有可能的区域
合成：Top-K 片段交给 LLM 合成连贯的兴趣区域（ROI）摘要

最牛的三个特性：

文档无关：2 页备忘录和 500 页技术手册用同一套算法，不需要文档级的切块启发式
Token 高效：只把最相关的区域发给 LLM，token 消耗远低于全文方案
探索-利用平衡：随机探索防止隧道视野，重要性采样确保关键区域有深度

自进化知识簇

Sirchmunk 不会在回答完查询后就丢掉搜索结果。每次搜索都会产生一个KnowledgeCluster—— 结构化的、可复用的知识单元，越用越聪明：

查询首先嵌入并与所有已存储簇做余弦相似度比较（≥ 0.85 即命中）
命中后：追加新查询到历史（FIFO，最多 5 条）→ 热度 +0.1（上限 1.0）→ 重新计算嵌入向量（语义覆盖面拓宽）
未命中：走完整搜索管线，生成新簇
存储：内存 DuckDB + 磁盘 Parquet，原子写入，多进程安全

关键属性：

零成本加速：重复或语义相似的查询无需 LLM 推理，近乎即时
查询驱动嵌入：嵌入来自查询而非内容，和用户实际提问方式对齐
语义拓宽：不同查询复用同一簇时，嵌入自动漂移覆盖更宽的语义邻域

安装

安装非常简单，一行 pip 就行：

# 创建虚拟环境（推荐）conda create -n sirchmunk python=3.13 -y && conda activate sirchmunk# 从 PyPI 安装pip install sirchmunk# 或者用 UVuv pip install sirchmunk# 如果要 Web UIpip install "sirchmunk[web]"# 如果要 MCP 支持pip install "sirchmunk[mcp]"# 全部安装pip install "sirchmunk[all]"

环境要求：

Python 3.10+
LLM API Key（任何 OpenAI 兼容端点，包括 OpenAI、Ollama、vLLM、llama.cpp 等）
Node.js 18+（可选，Web UI 需要）

初始化：

# 初始化（默认路径：~/.sirchmunk/）sirchmunk init# 配置 LLM# 编辑 ~/.sirchmunk/.env

.env配置示例：

LLM_API_KEY=your-api-keyLLM_BASE_URL=https://api.openai.com/v1LLM_MODEL=gpt-4o

使用

Sirchmunk 提供了丰富的使用方式，CLI 和 Python SDK 都很好用。

CLI 命令行搜索

# 搜索当前目录sirchmunk search "How does authentication work?"# 搜索指定路径sirchmunk search "find all API endpoints" ./src ./docs# 快速文件名搜索（不需要 LLM）sirchmunk search "config" --mode FILENAME_ONLY# 输出 JSONsirchmunk search "database schema" --output json

Python SDK

import asynciofrom sirchmunk import AgenticSearchfrom sirchmunk.llm import OpenAIChatllm = OpenAIChat( api_key="your-api-key", base_url="your-base-url", model="your-model-name")asyncdef main(): searcher = AgenticSearch(llm=llm) result = await searcher.search( query="How does transformer attention work?", paths=["/path/to/documents"], ) print(result)asyncio.run(main())

MCP 集成（对接 Claude Desktop / Cursor IDE）

AI 编程助手可以在编码过程中直接调用 Sirchmunk 进行深度搜索，无需切换窗口，也无需手动复制粘贴。搜索结果以流式方式实时返回，并附带来源引用与证据摘要

这个对 AI 编程玩家特别实用。配置mcp_config.json后就能在 Claude Desktop 或 Cursor 里直接调用 Sirchmunk 搜索你的本地文档：

{ "mcpServers": { "sirchmunk": { "command": "sirchmunk", "args": ["mcp", "serve"], "env": { "SIRCHMUNK_SEARCH_PATHS": "/path/to/your_docs,/another/path" } } }}

Web UI

Sirchmunk 还内置了一个很现代的 Web 界面，支持聊天、知识分析和系统监控：

Sirchmunk Home 界面

启动方式超简单：

# 构建前端（需要 Node.js 18+）sirchmunk web init# 一个端口搞定 API + WebUIsirchmunk web serve

访问http://localhost:8584即可。

Web UI 的几个亮点：

Chat 界面：支持流式输出，实时显示搜索日志，每个结论都有源文件引用，支持纯 LLM 对话 / 文件 RAG / Web 搜索三种模式
Knowledge 页面：可视化浏览知识簇，查看证据单元、置信度、热度评分和查询历史
Monitor 页面：实时系统健康监控，聊天活跃度、LLM token 用量和成本追踪、知识簇增长曲线

Sirchmunk Monitor 界面

同时支持暗色/亮色主题切换，还有中英双语。

我的判断

说说我的看法。

优点：

理念超前：直接跳过 Embedding 这一步，对于"文件多、格式杂、更新频繁"的场景是个大杀器。比如代码仓库搜索，文档随时在变，传统 RAG 的向量库要反复重建，Sirchmunk 天然免疫这个问题
蒙特卡洛采样很优雅：把信息检索问题转化为采样问题，探索-利用的平衡设计很讨巧
知识簇自进化：越用越聪明，而且是零成本的加速，重复查询近乎即时返回
集成方式丰富：MCP、REST、WebSocket、CLI、Web UI 五种接入方式，特别是 MCP 对 AI 编程工具的支持，直接让 Cursor/Claude Desktop 具备智能搜索能力
轻量化存储：DuckDB + Parquet，不依赖外部数据库基础设施

需要注意的：