当前位置：首页 > news >正文

Claude Context：基于MCP与向量数据库的AI编程助手代码库语义搜索方案

news 2026/6/25 12:55:45

1. 项目概述：为AI编程助手装上“代码记忆库”

如果你和我一样，每天都要和Claude Code、Cursor这类AI编程助手打交道，那你肯定遇到过这个痛点：面对一个庞大的、动辄几十万行代码的项目，想让AI助手理解整个项目的上下文，简直是一场噩梦。要么你得手动把一堆文件拖进对话窗口，消耗掉宝贵的上下文长度；要么就得让AI助手自己去“探索”代码库，来来回回好几轮对话，效率低得让人抓狂。更别提那些复杂的、跨多个模块的函数调用关系了，AI助手往往只能看到局部，无法理解全局。

Zilliz开源的Claude Context项目，就是为了解决这个“AI编程失忆症”而生的。它本质上是一个基于模型上下文协议（MCP）的插件，通过语义代码搜索技术，把你的整个代码库变成一个AI助手可以随时、精准查询的“外部记忆库”。想象一下，你正在让Claude Code帮你重构一个用户认证模块，你只需要问一句“Find functions that handle user authentication”，它就能立刻从你的百万行代码中，精准定位到所有相关的函数、类和配置文件，并把它们作为上下文提供给AI，而不是让你自己去一个个文件翻找。

这个方案的核心优势在于成本效益。对于大项目，每次对话都把整个目录塞进上下文，不仅浪费token，费用也高得吓人。Claude Context的做法更聪明：它预先将你的代码库索引到一个向量数据库（比如Zilliz Cloud）中。当AI助手需要上下文时，它通过语义搜索，只召回最相关的代码片段。根据官方评测，在保证同等检索质量的前提下，这种方法能减少约40%的token使用量，这对于长期、高频使用AI编程的场景来说，节省的成本是实实在在的。

简单来说，Claude Context让AI编程助手从“健忘的临时工”，变成了拥有“全项目记忆”的资深架构师。无论你是独立开发者，还是团队协作，它都能显著提升你与AI结对编程的效率和深度。

2. 核心原理与架构拆解

要理解Claude Context为什么高效，我们需要深入其技术内核。它不是一个简单的文件搜索工具，而是一个融合了现代信息检索、代码分析和分布式存储的智能系统。

2.1 混合搜索策略：BM25 + 稠密向量

这是Claude Context检索能力的基石。很多同类工具只使用向量搜索，这在处理代码这种高度结构化、关键词明确的文本时，有时会“过度理解”，导致召回不精准。

稠密向量搜索（Dense Vector Search）：这是语义搜索的核心。它使用嵌入模型（如OpenAI的text-embedding-3-small）将每一段代码（代码块）转换成一个高维向量。这个向量捕捉了代码的“语义”，比如“这是一个处理HTTP请求的函数”、“这是一个用户数据模型”。当你用自然语言查询时（如“用户登录验证”），查询文本也会被转换成向量，系统通过计算向量间的余弦相似度，找到语义最接近的代码块。这解决了“一词多义”和“多词一义”的问题。
BM25搜索：这是一种经典的、基于关键词的稀疏检索算法。它非常擅长处理精确的标识符匹配，比如函数名handleLogin、类名UserAuthenticator或特定的错误码ERR_AUTH_FAILED。BM25会计算查询词项在文档中的频率和逆向文档频率，给出一个相关性分数。

Claude Context将两者结合，形成了混合搜索（Hybrid Search）。具体流程是：分别进行向量搜索和BM25搜索，得到两份结果列表和各自的分数，然后通过一个加权算法（如RRF - Reciprocal Rank Fusion）将两份结果融合、重新排序。这样既能利用语义搜索的“理解”能力，又能保证精确关键词的命中率，实现了1+1>2的效果。在我实测一个React组件库项目时，搜索“弹窗组件”，混合搜索能同时召回语义相关的Modal、Dialog组件和精确包含“popup”关键词的PopupManager工具函数，而单一方法总会漏掉一部分。

2.2 智能代码分块与AST分析

直接把整个文件扔进向量数据库是行不通的。一个上千行的index.js文件转换成的向量，其语义会非常模糊，检索精度极差。因此，**如何将代码切割成有意义的“块”（Chunk）**是关键。

Claude Context采用了基于抽象语法树（AST）的智能分块器作为首选方案。AST是代码的树形结构表示，它能理解代码的语法结构。分块器会遍历AST，识别出自然的代码边界，例如：

将每个函数或方法作为一个独立的块。
将每个类定义（包括其属性和方法）作为一个块。
将顶层的常量定义、导入语句分组作为一个块。

这样做的好处是，每个块都具有完整的、内聚的语义。例如，一个UserService.login()方法会被完整地保留在一个块内，包含了参数、函数体和返回类型，这比随机按字符数切割要合理得多。对于AST解析失败的语言或文件（如某些配置文件），系统会自动回退到基于字符的LangChain文本分块器，确保鲁棒性。

2.3 增量索引与默克尔树

对于一个活跃开发中的项目，每次代码改动都全量重新索引是不可接受的，耗时耗力。Claude Context实现了增量索引机制，其核心是**默克尔树（Merkle Tree）**的应用。

系统会为每个已索引的文件计算一个哈希值（例如，基于文件内容和元数据）。这些哈希值被组织成一棵默克尔树。当你再次触发索引时：

系统重新计算当前文件的哈希。
与索引中存储的旧哈希进行比对。
只有哈希值发生变化的文件才会被重新处理（解析、分块、生成嵌入向量）。
未变化的文件，其对应的向量数据在数据库中保持不变。

这个过程就像Git的版本控制一样高效。例如，你只修改了utils/logger.js文件中的一个函数注释，那么系统只会重新处理这一个文件，其他成百上千个文件完全不受影响。这大大提升了后续索引的速度，并减少了不必要的向量数据库写入操作和Embedding API调用，进一步控制了成本。

2.4 整体架构与数据流

结合官方架构图，我们可以梳理出其核心工作流：

初始化与配置：用户通过MCP客户端（如Claude Code）配置Claude Context服务器，提供OpenAI API Key（用于Embedding）和Zilliz Cloud连接信息（用于向量存储）。
索引阶段：
- 用户执行index_codebase命令。
- 代码扫描器根据配置的包含/排除规则（如**/*.ts, **/*.js，忽略node_modules/, .git/）遍历目标目录。
- 代码分析器对每个文件尝试进行AST解析，并执行智能分块。
- 嵌入生成器调用指定的Embedding模型API，将每个代码块转换为向量。
- 向量写入器将这些向量，连同代码块的元数据（文件路径、起止行号、原始内容等），批量写入Zilliz Cloud中的指定集合（Collection）。
查询阶段：
- 用户在AI助手中输入自然语言查询，如“查找所有与支付相关的API端点”。
- 查询处理器将查询文本同样转换为向量。
- 混合检索器在Zilliz Cloud中同时执行向量相似度搜索和BM25关键词搜索。
- 结果融合器对两路结果进行加权、去重、排序。
- 上下文组装器将排名靠前的N个代码块（包括其文件路径和行号）格式化为清晰的文本，注入到AI助手的本次对话上下文中。
交互：AI助手基于这些精准的上下文信息，生成更准确、更贴合项目实际的代码建议或答案。

这个架构将计算密集型的索引工作前置，将轻量级的检索工作放在交互时，实现了效率与效果的平衡。

3. 从零开始：多平台配置与实战

了解了原理，我们来手把手进行配置和实战。Claude Context的核心使用方式是MCP，它几乎支持所有主流的AI编程工具。下面我将以最常用的Claude Code和Cursor为例，详细演示配置过程，并补充一些官方文档中未提及的细节和避坑点。

3.1 环境准备：获取两大密钥

在配置任何客户端之前，你需要准备好两个核心密钥：

Zilliz Cloud API Key（向量数据库）：
- 访问 Zilliz Cloud ，注册并登录。
- 在控制台创建一个新的集群（Cluster）。对于个人或小团队使用，选择免费的Serverless类型完全足够，它提供免费的额度。
- 集群创建成功后，在详情页找到Public Endpoint（类似https://xxx.zillizcloud.com）和API Key（在“API Keys”页面创建）。请妥善保存这两项。
OpenAI API Key（嵌入模型）：
- 访问 OpenAI平台，登录后创建新的API Key。
- 确保该Key有调用Embedding模型的权限（通常默认就有）。目前推荐使用text-embedding-3-small，它在效果和成本之间取得了最佳平衡。

注意：这两个服务都可能产生费用。Zilliz Cloud Serverless有免费额度，OpenAI Embedding调用按token计费，价格极低（百万tokens约0.02美元），但在索引超大型代码库前，最好先估算一下。一个10万行代码的项目，索引成本通常不到0.1美元。

3.2 配置Claude Code（命令行）

Claude Code是目前与Claude Context集成最直接的工具。确保你的Node.js版本在20.x或22.x，不兼容Node.js 24+，如果版本过高需要先降级。

打开终端，执行以下命令来添加MCP服务器。这里需要将占位符替换成你的实际信息：

# 替换 your-openai-api-key 和 your-zilliz-cloud-api-key # MILVUS_ADDRESS 就是你的 Zilliz Cloud Public Endpoint claude mcp add claude-context \ -e OPENAI_API_KEY=sk-xxx... \ -e MILVUS_ADDRESS=https://xxx.zillizcloud.com \ -e MILVUS_TOKEN=your-zilliz-cloud-api-key \ -- npx @zilliz/claude-context-mcp@latest

执行细节与解释：

claude mcp add claude-context：向Claude Code注册一个名为claude-context的MCP服务器。
-e：设置环境变量。这里传递了三个关键变量。
OPENAI_API_KEY：你的OpenAI密钥，用于Embedding。
MILVUS_ADDRESS：Zilliz Cloud集群的公网地址。
MILVUS_TOKEN：Zilliz Cloud的API Key。
-- npx @zilliz/claude-context-mcp@latest：指定服务器启动命令。npx会临时下载并运行最新的MCP服务器包。

命令执行成功后，Claude Code会记住这个配置。以后每次启动Claude Code，这个MCP服务器都会自动运行在后台。

3.3 配置Cursor（图形界面/配置文件）

Cursor是另一个强大的AI编程IDE，它同样支持MCP。推荐使用配置文件方式，更清晰且易于版本管理。

定位配置文件：Cursor的全局MCP配置文件位于~/.cursor/mcp.json（Mac/Linux）或C:\Users\<你的用户名>\.cursor\mcp.json（Windows）。如果文件不存在，创建它。
编辑配置文件：用任何文本编辑器打开该文件，填入以下配置：

{ "mcpServers": { "claude-context": { "command": "npx", "args": ["-y", "@zilliz/claude-context-mcp@latest"], "env": { "OPENAI_API_KEY": "sk-xxx...", "MILVUS_ADDRESS": "https://xxx.zillizcloud.com", "MILVUS_TOKEN": "your-zilliz-cloud-api-key" } } } }

关键点解析：

-y参数：这是npx的一个参数，表示对任何提示都自动回答“yes”，确保安装过程无人值守，不会卡住。
环境变量env：与Claude Code配置完全一致。
保存文件后，需要完全重启Cursor（关闭所有Cursor窗口再重新打开），配置才会生效。

验证配置：重启Cursor后，打开一个项目。在AI聊天面板中，你应该能看到可用的工具列表里出现了index_codebase、search_code等工具。如果没有，可以尝试在Cursor设置中搜索“MCP”查看服务器状态。

3.4 实战演练：索引与搜索你的第一个项目

配置完成后，我们进入一个真实的代码项目进行实操。假设我们有一个Node.js后端项目。

打开项目并启动AI助手：

cd /path/to/your/nodejs-project claude # 或直接打开Cursor进入该目录

初始化索引：在Claude Code或Cursor的AI聊天框中，直接输入命令：
```
/index_codebase
```
或者使用自然语言：
```
请索引当前代码库。
```
AI助手会调用index_codebase工具。第一次索引会花费一些时间，具体取决于项目大小。系统会遍历文件、分析、分块、生成向量并上传。你可以在终端或Cursor的MCP服务器日志中看到进度。
检查索引状态：
```
/get_indexing_status
```
或
```
查看索引状态。
```
这会返回当前代码库的索引进度（如“已完成100%”）或状态信息。
执行语义搜索：索引完成后，就可以进行自然语言搜索了。尝试一些复杂的查询：
- 功能查询：“找出所有处理用户身份验证的中间件函数。”
- 错误处理：“搜索项目中所有捕获并记录MongoError的地方。”
- 架构理解：“这个项目里有哪些与‘订单’相关的数据模型（Schema）？”
- 代码复用：“有没有现成的工具函数可以用来格式化日期？”
AI助手会调用search_code工具，从向量数据库中检索相关代码块，并将其作为上下文插入到对话中。随后，它基于这些精准的上下文给出的回答，会远比让AI“盲猜”要准确得多。
更新索引：当你修改了代码后，再次执行/index_codebase。得益于增量索引机制，这次速度会快很多，只会处理变更的文件。

实操心得：

首次索引耐心等待：对于一个中型项目（几千个文件），首次索引可能需要几分钟。这是正常的，因为需要调用Embedding API。期间请保持网络通畅。
搜索关键词的艺术：尽量使用描述功能的短语，而不是单纯的变量名。例如，“用户登录逻辑”比“login”更好，“发送电子邮件的服务”比“emailService”更佳。这能更好地发挥语义搜索的优势。
关注Token消耗：每次搜索返回的代码上下文会占用AI模型的输入Token。你可以在MCP配置或工具调用时，通过参数限制返回的代码块数量（默认为5个），以平衡信息量和成本。

4. 高级配置与自定义指南

基础配置能满足大部分需求，但Claude Context提供了丰富的自定义选项，以适应更复杂的场景。

4.1 使用不同的嵌入模型

OpenAI的Embedding模型效果很好，但你可能出于成本、速度或数据隐私考虑，希望使用其他模型。Claude Context支持多种提供商。

以Voyage AI为例： Voyage AI提供了针对代码优化的嵌入模型（如voyage-code-3），在代码检索任务上表现优异。配置方法是在启动MCP服务器时，添加额外的环境变量。

对于Claude Code（命令行方式），你需要修改添加服务器的命令：

claude mcp add claude-context-voyage \ -e EMBEDDING_PROVIDER=voyage \ -e VOYAGE_API_KEY=your-voyage-api-key \ -e EMBEDDING_MODEL=voyage-code-3 \ -e MILVUS_ADDRESS=https://xxx.zillizcloud.com \ -e MILVUS_TOKEN=your-zilliz-cloud-api-key \ -- npx @zilliz/claude-context-mcp@latest

对于Cursor（配置文件方式），修改~/.cursor/mcp.json：

{ "mcpServers": { "claude-context": { "command": "npx", "args": ["-y", "@zilliz/claude-context-mcp@latest"], "env": { "EMBEDDING_PROVIDER": "voyage", "VOYAGE_API_KEY": "your-voyage-api-key", "EMBEDDING_MODEL": "voyage-code-3", "MILVUS_ADDRESS": "https://xxx.zillizcloud.com", "MILVUS_TOKEN": "your-zilliz-cloud-api-key" } } } }

支持的提供商及关键环境变量：

提供商	`EMBEDDING_PROVIDER`值	必需环境变量	推荐模型
OpenAI (默认)	`openai`或不设置	`OPENAI_API_KEY`	`text-embedding-3-small`
Voyage AI	`voyage`	`VOYAGE_API_KEY`	`voyage-code-3`
Google Gemini	`gemini`	`GEMINI_API_KEY`	`embedding-001`
Ollama (本地)	`ollama`	`OLLAMA_BASE_URL`(可选)	`nomic-embed-text`

注意：切换嵌入模型后，必须重新构建索引。因为不同模型生成的向量空间不同，旧的向量无法与新模型的查询向量进行有意义的相似度比较。执行/clear_index后再运行/index_codebase。

4.2 自定义文件包含与排除规则

默认情况下，Claude Context会索引大多数常见的源代码文件，并自动忽略node_modules、.git、dist、build等目录。你可以通过环境变量进行精细控制。

INCLUDE_PATTERNS：定义要索引的文件模式，用逗号分隔。支持glob语法。
```
INCLUDE_PATTERNS=**/*.ts,**/*.tsx,**/*.js,**/*.jsx,**/*.py,**/*.go,**/*.rs,**/*.md
```

EXCLUDE_PATTERNS：定义要排除的文件或目录模式，用逗号分隔。

EXCLUDE_PATTERNS=**/test/**,**/*.spec.*,**/*.test.*,**/vendor/**,**/coverage/**

配置示例：假设你有一个Monorepo项目，只想索引packages/app和packages/lib下的TypeScript和Python文件，并排除所有测试文件和__pycache__目录。

在Cursor的mcp.json中，可以这样配置：

{ "mcpServers": { "claude-context": { "command": "npx", "args": ["-y", "@zilliz/claude-context-mcp@latest"], "env": { "OPENAI_API_KEY": "sk-xxx...", "MILVUS_ADDRESS": "https://xxx.zillizcloud.com", "MILVUS_TOKEN": "your-zilliz-cloud-api-key", "INCLUDE_PATTERNS": "packages/app/**/*.ts,packages/app/**/*.tsx,packages/lib/**/*.ts,packages/lib/**/*.tsx,packages/lib/**/*.py", "EXCLUDE_PATTERNS": "**/*.spec.*,**/*.test.*,**/__pycache__/**" } } } }

避坑指南：

规则是顺序应用的，通常先应用包含规则，再应用排除规则。
规则字符串中不要有空格（除非是模式的一部分）。
修改规则后，建议清除旧索引并重新建立，以确保索引内容符合新规则。

4.3 多项目/多代码库管理

Claude Context天然支持多个独立的代码库。其管理逻辑是基于当前工作目录（CWD）。

工作原理：当你执行/index_codebase时，MCP服务器会获取你当前终端或IDE打开的项目根目录的绝对路径，并将此路径作为该代码库的唯一标识符。所有向量数据在Zilliz Cloud中都会通过这个路径进行关联和隔离。

这意味着：

你可以在~/projects/project-a目录下索引项目A。
然后切换到~/projects/project-b目录，索引项目B。
当你在项目A的目录下进行搜索时，Claude Context只会从项目A的索引中查找，不会混淆。
每个项目的索引状态是独立的。

最佳实践：

为每个独立的Git仓库或项目在独立的目录中进行索引。
避免在父目录（如~/projects）进行索引，这会导致所有子项目被混在一起，影响搜索精度。
如果你有一个Monorepo，将其视为一个“大项目”进行索引即可，再利用INCLUDE_PATTERNS来聚焦特定子包。

5. 常见问题排查与性能优化

在实际使用中，你可能会遇到一些问题。以下是我在长期使用中总结的常见故障点及其解决方案。

5.1 索引失败或速度极慢

症状：执行/index_codebase后长时间无反应，或进度卡住，最终报错超时。

排查步骤：

检查网络连接：首先确认你的机器可以正常访问api.openai.com（如果使用OpenAI）和你的Zilliz Cloud公网地址。可以尝试用curl或ping命令测试。
检查API密钥和额度：
- OpenAI：登录OpenAI平台，检查API Key是否有效、未过期，并且账户有足够的额度（Credit）。Embedding调用失败通常会在MCP服务器的日志中显示401或429错误。
- Zilliz Cloud：登录Zilliz Cloud控制台，检查集群状态是否为“Running”，以及API Key是否有权限。同时检查Serverless集群的CU（计算单元）是否用尽。免费额度每月有限，如果索引量巨大可能耗尽，需要升级套餐或等待下个月重置。
检查项目规模：首次索引一个包含node_modules（未正确排除）或大量二进制文件（如图片、视频）的项目，会导致文件数量爆炸。务必正确配置EXCLUDE_PATTERNS。
查看日志：MCP服务器在运行时会在标准错误输出中打印日志。在Claude Code或Cursor中，通常有地方查看MCP服务器的输出日志。查找其中的ERROR或WARN信息。
分步索引：对于超大型项目，可以尝试先在一个小的子目录（如src/core）中索引，测试流程是否通畅。

5.2 搜索返回结果不相关

症状：AI助手返回的代码片段看起来与你的查询意图毫不相干。

可能原因与解决：

查询表述过于宽泛或模糊：尝试更具体、更功能化的描述。例如，将“数据库”改为“连接MongoDB数据库的配置代码”，将“工具函数”改为“用于深度克隆对象的工具函数”。
索引内容不完整或污染：
- 重新索引：执行/clear_index后再次/index_codebase。可能是首次索引时部分文件处理失败。
- 检查包含规则：确认INCLUDE_PATTERNS包含了所有你关心的源代码文件类型。
- 检查排除规则：确认EXCLUDE_PATTERNS有效排除了编译输出、依赖包等无关内容。
嵌入模型不匹配：如果你切换过嵌入模型提供商但没有重新索引，向量空间不一致必然导致搜索结果混乱。确保索引和查询使用相同的嵌入模型。
代码分块过大：虽然AST分块很智能，但某些超大函数或类可能仍被作为一个块，导致向量语义模糊。目前Claude Context的分块策略是固定的，这是一个已知的优化方向。

5.3 MCP服务器连接失败

症状：在AI助手的工具列表里看不到claude-context的工具，或者调用工具时提示服务器错误。

排查步骤：

验证Node.js版本：运行node --version。确保版本是20.x或22.x。Node.js 24.x目前不兼容，需要降级。可以使用nvm（Node Version Manager）轻松切换版本。
检查配置文件语法：特别是JSON配置文件（如Cursor的mcp.json），一个多余的逗号或引号错误都会导致整个配置失效。可以使用在线JSON校验工具检查。
检查命令路径：确保你在正确的目录下执行了claude命令或打开了正确的Cursor工作区。MCP服务器是与当前工作目录绑定的。
手动测试MCP服务器：在终端中直接运行MCP服务器命令，看是否有错误输出。
```
npx @zilliz/claude-context-mcp@latest
```
这会启动服务器并等待标准输入。如果立即报错（如缺少环境变量），则能直接看到原因。按Ctrl+C退出。

5.4 性能优化建议

选择合适的嵌入模型：对于纯代码场景，text-embedding-3-small在速度和成本上是最佳选择。如果追求极致代码检索精度，可以评测voyage-code-3，但需考虑其API成本和速度。
善用排除规则：严格排除node_modules,.git,dist,*.min.js,*.log,*.md（如果不需搜索文档）等文件，能极大减少不必要的索引文件数量，提升索引速度和搜索精度。
规划索引时机：在代码相对稳定的阶段（如完成一个功能模块后）进行索引，避免在频繁修改的小步提交中反复触发索引。
监控Zilliz Cloud：定期登录Zilliz Cloud控制台，查看集群的查询负载（QPS）和存储用量。如果搜索频繁，可以考虑升级Serverless集群的CU规格以获得更快的响应速度。
本地化部署探索（高级）：对于有严格数据隐私要求或希望零网络延迟的场景，可以考虑完全本地化部署：
- 嵌入模型：使用Ollama在本地运行nomic-embed-text等开源模型。
- 向量数据库：使用Docker在本地部署开源Milvus，替代Zilliz Cloud。
- 这需要较强的运维能力，但能实现完全的数据控制和离线使用。

6. 超越MCP：核心包与VSCode扩展的深度使用

虽然MCP是与AI助手集成的主要方式，但Claude Context项目还提供了其他两种使用模式，适合不同的开发场景。

6.1 使用核心包构建自定义应用

@zilliz/claude-context-core包将索引和搜索能力封装成了可编程的API。这意味着你可以将其集成到自己的CI/CD流水线、内部开发工具或自动化脚本中。

典型应用场景：

自动化代码文档生成：定期索引代码库，根据语义搜索自动生成或更新API文档。
智能代码审查助手：在PR中，自动搜索相关代码历史，提示可能的冲突或最佳实践。
内部知识库问答：将公司内部的工具库、脚本代码索引，构建一个可问答的代码知识机器人。

基础使用示例：以下是一个Node.js脚本示例，演示了如何使用核心包进行编程式操作：

import { Context, MilvusVectorDatabase, OpenAIEmbedding } from '@zilliz/claude-context-core'; import * as dotenv from 'dotenv'; dotenv.config(); // 从 .env 文件加载环境变量 async function main() { // 1. 初始化嵌入模型 const embedding = new OpenAIEmbedding({ apiKey: process.env.OPENAI_API_KEY!, model: 'text-embedding-3-small', }); // 2. 初始化向量数据库连接 const vectorDatabase = new MilvusVectorDatabase({ address: process.env.MILVUS_ADDRESS!, // Zilliz Cloud 地址 token: process.env.MILVUS_TOKEN!, // Zilliz Cloud API Key collectionName: 'my_custom_code_index', // 可以自定义集合名 }); // 3. 创建上下文实例 const context = new Context({ embedding, vectorDatabase, // 可以传入自定义配置，如分块大小、包含规则等 // chunkSize: 1000, // includePatterns: ['src/**/*.ts'], }); const projectPath = './my-project'; try { // 4. 索引代码库（带进度回调） console.log('开始索引代码库...'); const stats = await context.indexCodebase(projectPath, (progress) => { console.log(`进度: ${progress.phase} - ${progress.percentage.toFixed(1)}%`); }); console.log(`索引完成！共处理 ${stats.indexedFiles} 个文件，生成 ${stats.totalChunks} 个代码块。`); // 5. 执行语义搜索 console.log('\n执行语义搜索...'); const query = '如何实现用户登录的JWT令牌验证？'; const results = await context.semanticSearch(projectPath, query, { limit: 3, // 返回前3个结果 }); console.log(`查询: "${query}"`); console.log('='.repeat(50)); results.forEach((result, index) => { console.log(`\n结果 ${index + 1} (相关度: ${(result.score * 100).toFixed(1)}%):`); console.log(`文件: ${result.relativePath}:${result.startLine}-${result.endLine}`); console.log(`代码预览:\n${'```'}\n${result.content.substring(0, 200)}...\n${'```'}`); }); // 6. （可选）清理特定项目的索引 // await context.clearIndex(projectPath); // console.log('索引已清除。'); } catch (error) { console.error('操作失败:', error); } finally { // 7. 关闭数据库连接（如果长期运行的服务，可以保持连接） await vectorDatabase.disconnect(); } } main();

核心要点：

灵活性：你可以完全控制索引和搜索的各个环节，例如自定义集合名称、调整分块参数、集成自定义的日志或监控。
进度追踪：indexCodebase方法接受一个回调函数，可以实时获取索引进度（阶段和百分比），非常适合集成到有UI进度的工具中。
错误处理：务必用try...catch包裹数据库操作和API调用，并确保在最后关闭数据库连接。

6.2 VSCode扩展：脱离AI助手的语义搜索

如果你不使用Claude Code或Cursor，或者希望在传统的IDE环境中也能享受语义代码搜索，那么VSCode扩展是你的不二之选。

安装与使用：

在VSCode扩展商店中搜索“Semantic Code Search”（由Zilliz发布）并安装。
安装后，侧边栏会出现一个新的活动栏图标（通常是一个放大镜加代码的符号）。
首次配置：点击该图标，会提示你配置OpenAI API Key和Zilliz Cloud连接信息。这些信息会保存在VSCode的用户设置中。
索引项目：打开一个项目文件夹，在语义搜索侧边栏中点击“Index Workspace”按钮。
执行搜索：在顶部的搜索框中输入自然语言查询，例如“find all React components that use the useState hook”。结果会以列表形式展示，点击结果可以直接跳转到对应文件的精确行号。

与MCP模式的区别：