当前位置：首页 > news >正文

构建本地化AI助手：超轻量级模型与持久记忆系统实战指南

news 2026/7/16 0:04:17

1. 项目概述：为什么我们需要一个“本地优先”的智能助手？

最近几年，AI助手几乎无处不在，从云端的大型语言模型到各种在线服务，它们确实带来了便利。但不知道你有没有过这样的顾虑：每次对话都像是在和一个“健忘”的陌生人聊天，你需要反复解释上下文；或者，你根本不想把一些涉及个人工作、生活隐私的对话记录和文件上传到云端服务器。这正是我决定动手打造一个“超轻量级、本地优先、具备持久记忆”的AI助手的原因。

简单来说，这个项目就是要构建一个完全运行在你个人电脑上的AI助手。它不依赖任何外部API调用（当然，初始模型下载除外），所有计算、推理和记忆存储都发生在你的本地硬盘和内存中。它的“大脑”是一个经过优化的、参数量较小的开源大语言模型（LLM），而它的“记忆”则是一个结构化的本地数据库，能够记住你们之间的每一次对话、你提供的文档内容，并在后续交流中主动调用这些信息，实现真正连贯的、个性化的交互。

这个项目适合谁呢？首先，是像我一样对隐私有较高要求的开发者或技术爱好者。其次，是希望拥有一个7x24小时在线、不受网络限制、可深度定化的个人知识库或工作伙伴的用户。最后，它也适合那些想深入学习大模型本地部署、向量数据库应用以及智能体（Agent）基础架构的朋友。通过这个项目，你不仅能获得一个实用的工具，更能透彻理解现代AI应用栈的核心组件是如何协同工作的。

2. 核心架构与设计思路拆解

要构建这样一个系统，我们不能简单地调用ChatGPT API然后加个前端就完事。我们需要一个完整的、自包含的架构。我的设计核心围绕三个关键词展开：超轻量级、本地优先、持久记忆。下面这张架构图清晰地展示了各组件之间的关系：

[用户界面] -> [应用层/Agent调度] -> [本地大模型] & [记忆系统] ↓ [本地向量数据库] & [本地文件存储]

2.1 为何选择“本地优先”作为基石？

“本地优先”不仅仅是隐私选择，更是一种架构哲学。它意味着系统的默认状态和最佳体验都建立在本地资源之上。这样做有几个关键优势：

零延迟与高可用性：模型推理和记忆检索都在本机完成，响应速度极快，且完全不受网络波动或服务商API限制、费率调整的影响。
数据主权与隐私：你的所有对话、上传的文档、生成的记忆，都保存在你自己的硬盘上。没有数据泄露给第三方的风险，符合最严格的数据合规要求。
成本可控：一次性的硬件投入（或利用现有硬件）后，后续使用几乎没有边际成本，避免了按Token付费带来的不可预测支出。
深度定制化：你可以随意修改模型、调整记忆策略、集成任何本地工具，而不需要等待服务商开放接口。

当然，挑战也很明显：你需要一个足够强大且轻量的模型，并妥善管理本地的计算资源（主要是GPU或CPU内存）。

2.2 “超轻量级”模型选型与权衡

这是项目的技术核心。我们需要的模型必须在性能、资源消耗和本地运行可行性之间取得平衡。直接部署数百亿参数的模型对大多数个人电脑来说是不现实的。

我的选型思路是：在7B（70亿）到14B（140亿）参数量的开源模型中进行选择。这个区间的模型在精心优化后，可以在消费级GPU（如RTX 3060 12GB）甚至高性能CPU上流畅运行。经过大量测试，我最终锁定了两个方向的模型：

量化版本的主流模型：例如Llama-3-8B-Instruct的 4-bit 或 5-bit GPTQ/GGUF 量化版本。量化能大幅降低模型对显存的需求（8B模型4-bit量化后可能只需4-6GB显存），同时性能损失在可接受范围内。Qwen1.5-7B-Chat、Mistral-7B-Instruct也是极佳的选择。
专为边缘设备设计的模型：例如Phi-3-mini（3.8B参数）。这类模型由微软等公司推出，参数量虽小，但在常识推理、代码生成等任务上表现惊人，对硬件要求极低，在CPU上也能有不错的速度。

注意：模型选择没有绝对答案。我建议你先从Qwen1.5-7B-Chat-GGUF（q4版本）开始，它的通用能力强，社区支持好，工具调用格式兼容性佳，且GGUF格式在CPU和GPU上部署都非常灵活。你可以使用llama.cpp或Ollama来加载和运行它。

2.3 “持久记忆”系统的设计哲学

记忆是让AI助手从“鹦鹉学舌”变成“长期伙伴”的关键。我设计的记忆系统分为两层：

短期记忆（对话上下文）：即传统的对话历史。我们通过维护一个有限长度的对话列表来实现。关键在于，当对话轮次超出模型上下文窗口时（例如，模型只支持8K Token，但对话已达10K），我们需要一个策略来摘要或选择性遗忘旧信息，同时将最关键的信息沉淀到长期记忆中。

长期记忆（向量知识库）：这是系统的“大脑皮层”。所有你认为重要的信息——一段对话的摘要、一个项目需求文档、一篇你喂给它的研究论文——都会被转换成“向量”（即一组高维数字）存储到本地向量数据库中（如ChromaDB、LanceDB或Qdrant）。当用户提出新问题时，系统会将问题也转换成向量，并在数据库中进行相似度搜索，找出最相关的记忆片段，作为上下文注入给模型，从而让模型“想起”过去的事情。

这个“记忆-检索-响应”的循环，是构建有感知力助手的基础。我的设计目标是让它自动化、无感化，用户只需自然对话，系统在后台默默地进行记忆的存储与唤醒。

3. 技术栈与工具链深度解析

确定了架构，接下来就要选择趁手的工具。我的技术栈选择遵循一个原则：优先选用活跃开源、易于集成、文档清晰且性能优秀的库。

3.1 模型服务层：推理引擎的选择

你需要一个“服务器”来加载和运行你选中的大模型。这里有几个主流选项：

Ollama：当前最推荐给新手的工具。它极大地简化了本地大模型的下载、运行和管理。只需一行命令ollama run qwen:7b就能启动一个API服务。它支持GGUF格式，内置了简单的对话功能，并且提供了兼容OpenAI API的接口，使得上层应用可以无缝对接。对于快速原型和大多数应用场景，Ollama是首选。
vLLM / Text Generation Inference：这两个是高性能的推理服务器，特别适合在生产环境或需要极高吞吐量的场景下使用。它们支持连续批处理、PagedAttention等高级优化技术，能最大化GPU利用率。但配置相对复杂，更适合有经验的开发者。
llama.cpp：这是一个纯C++编写的推理引擎，以其极高的CPU和GPU效率著称。它主要支持GGUF格式的模型。你可以直接使用其Python绑定（llama-cpp-python）在Python代码中直接加载模型，获得最大的控制权。如果你对延迟有极致要求，或者想在资源受限的环境（如树莓派）中运行，llama.cpp是利器。

在我的实现中，我选择了Ollama作为默认方案，因为它提供了开箱即用的体验和标准化的API。同时，我也保留了通过llama-cpp-python直接调用的代码路径，以供性能调优。

3.2 记忆存储层：向量数据库实战

向量数据库负责存储和检索我们的“长期记忆”。我对比了以下几个轻量级选项：

数据库	优点	缺点	适用场景
ChromaDB	简单易用，Python原生，入门快；内置向量化功能。	性能和数据持久化在大规模数据下可能成为瓶颈。	快速原型，中小规模个人知识库（<10万条）。
LanceDB	基于列存文件格式，磁盘读写性能极高；支持复杂的过滤查询。	相对较新，高级功能社区还在完善中。	需要处理大量文档（如个人全部笔记、邮件），对查询速度要求高。
Qdrant	功能全面，支持多种距离度量、有效负载过滤，云服务成熟。	虽然可以本地运行，但相比前两者稍显重。	需要高级检索功能（如按日期、标签过滤记忆），未来可能扩展至团队使用。
SQLite + vecs	极致轻量，零依赖，数据就是单个`.sqlite`文件。	需要自己管理向量索引（用`vecs`等库），功能较基础。	追求极简部署，记忆条目不超数万条。

我的选择是 LanceDB。对于个人助手场景，记忆条目增长是稳定但非爆炸性的。LanceDB的磁盘存储效率极高，意味着你的记忆库文件不会膨胀得很快，而且查询速度非常快。它的Python API也很直观。下面是一个简单的初始化示例：

import lancedb from sentence_transformers import SentenceTransformer # 初始化嵌入模型和数据库 embed_model = SentenceTransformer('all-MiniLM-L6-v2') # 轻量且效果不错的句子嵌入模型 db = lancedb.connect("./.lancedb") # 数据存在当前目录下 table = db.create_table("memories", data=[ {"id": 1, "vector": embed_model.encode("My project deadline is next Friday.").tolist(), "text": "My project deadline is next Friday.", "timestamp": "2023-10-27"} ])

3.3 应用框架层：构建智能体（Agent）

单纯的“问答”不够，我们需要助手能根据记忆和当前目标，自主决定调用工具、搜索记忆或直接回答。这就是智能体（Agent）的概念。我使用了LangChain和LangGraph来构建助手的“思维链”。

LangChain：提供了连接模型、记忆、工具的标准组件和链（Chain）。虽然有时被认为抽象较重，但其标准化模块对于快速构建可维护的AI应用非常有价值。
LangGraph：用于构建有状态的、多步骤的智能体工作流。它允许我们清晰地定义助手的决策循环：接收用户输入 -> 检索相关记忆 -> 决定是否调用工具 -> 生成回答 -> 存储新记忆。

一个简化的智能体状态图如下：

开始 ↓ [接收用户输入] ↓ [检索长期记忆（向量搜索）] ↓ [规划：是否需要行动？] ---是---> [执行工具调用] ↓ 否 ↓ [生成回答] <-------------------[获取工具结果] ↓ [更新对话历史（短期记忆）] ↓ [判断是否存储为长期记忆] ---是---> [生成摘要并向量化存储] ↓ 否 结束（返回回答给用户）

使用LangGraph，我们可以将这个循环实现为一个稳定的、可调试的图，每个节点的输入输出都清晰可见。

4. 分步实现与核心代码剖析

理论说再多不如一行代码。让我们从零开始，一步步搭建这个系统。我假设你已有基本的Python环境（3.10+）。

4.1 第一步：环境准备与模型部署

首先，安装Ollama。访问其官网下载对应操作系统的安装包，安装后启动服务。然后，在终端拉取我们选定的模型：

# 拉取Qwen1.5-7B-Chat的4-bit量化版本（GGUF格式） ollama pull qwen2.5:7b # 你也可以尝试其他模型，如 llama3.1:8b, mistral:7b

运行模型，并使其提供兼容OpenAI的API接口：

# 启动模型服务，指定API端口 ollama serve & # 后台运行服务 # 或者直接运行并开启API OLLAMA_HOST=0.0.0.0:11434 ollama run qwen2.5:7b

现在，一个本地的大模型API服务就在http://localhost:11434运行了。你可以用curl测试一下。

接下来，创建项目目录并安装必要的Python包：

mkdir local-ai-assistant && cd local-ai-assistant python -m venv venv source venv/bin/activate # Windows: venv\Scripts\activate pip install langchain langchain-community langgraph sentence-transformers lancedb openai requests

这里我们安装了LangChain生态的核心库、句子嵌入模型、LanceDB以及OpenAI库（用于兼容Ollama的API）。

4.2 第二步：构建记忆系统

我们创建两个核心类：ShortTermMemory用于管理对话上下文，LongTermMemory用于处理向量知识库。

# memory.py from datetime import datetime from typing import List, Dict, Any from sentence_transformers import SentenceTransformer import lancedb import json class ShortTermMemory: """管理对话上下文（短期记忆）""" def __init__(self, max_turns=10): self.conversation_history: List[Dict] = [] # 格式: [{"role": "user"/"assistant", "content": "..."}] self.max_turns = max_turns # 最大对话轮次 def add_interaction(self, user_input: str, assistant_response: str): """添加一轮对话""" self.conversation_history.append({"role": "user", "content": user_input}) self.conversation_history.append({"role": "assistant", "content": assistant_response}) # 如果历史记录过长，移除最早的对话，但尝试保留系统提示或关键信息（简化处理：直接截断） if len(self.conversation_history) > self.max_turns * 2: self.conversation_history = self.conversation_history[-self.max_turns*2:] def get_context(self) -> List[Dict]: """获取当前对话上下文，供模型使用""" return self.conversation_history.copy() class LongTermMemory: """基于向量数据库的长期记忆""" def __init__(self, db_path: str = "./.lancedb", embed_model_name: str = 'all-MiniLM-L6-v2'): self.embed_model = SentenceTransformer(embed_model_name) self.db = lancedb.connect(db_path) self.table_name = "memory_vectors" self._init_table() def _init_table(self): """初始化向量表，如果不存在则创建""" try: self.table = self.db.open_table(self.table_name) except Exception: # 创建表，定义schema schema = lancedb.schema([("id", lancedb.types.string()), ("vector", lancedb.types.vector(self.embed_model.get_sentence_embedding_dimension())), ("text", lancedb.types.string()), ("metadata", lancedb.types.string()), # 存储来源、时间等JSON信息 ("timestamp", lancedb.types.timestamp('s'))]) data = [{"id": "init", "vector": [0]*self.embed_model.get_sentence_embedding_dimension(), "text": "init", "metadata": "{}", "timestamp": int(datetime.now().timestamp())}] self.table = self.db.create_table(self.table_name, data=data, schema=schema) # 创建后删除初始化数据 self.table.delete("id = 'init'") def add_memory(self, text: str, source: str = "conversation", **extra_meta): """添加一段文本到长期记忆""" vector = self.embed_model.encode(text).tolist() memory_id = f"mem_{datetime.now().timestamp()}_{hash(text) % 10000}" metadata = {"source": source, **extra_meta} data = { "id": memory_id, "vector": vector, "text": text, "metadata": json.dumps(metadata), "timestamp": int(datetime.now().timestamp()) } self.table.add([data]) def search(self, query: str, k: int = 3) -> List[Dict]: """搜索与查询最相关的k条记忆""" query_vector = self.embed_model.encode(query).tolist() # LanceDB 搜索语法 results = self.table.search(query_vector).limit(k).to_list() return [{"text": r["text"], "metadata": json.loads(r["metadata"]), "score": r["_distance"]} for r in results] def summarize_and_store(self, conversation_segment: List[Dict], force: bool = False): """将一段对话总结后存入长期记忆。 这里实现一个简单策略：当对话轮次超过一定数量，或用户标记为重要时触发。 实际应用中，可以用一个小模型（如T5）或提示词让大模型自己生成摘要。 """ # 简化版：直接将最后几轮对话拼接作为“摘要” if len(conversation_segment) < 4 and not force: # 太短的对话不存储 return text_to_store = "\n".join([f"{msg['role']}: {msg['content']}" for msg in conversation_segment[-6:]]) # 存储最后3轮 self.add_memory(text_to_store, source="conversation_summary")

4.3 第三步：集成模型与构建智能体工作流

现在，我们将模型、短期记忆和长期记忆连接起来，用LangGraph定义助手的行为逻辑。

# agent.py from langchain_openai import ChatOpenAI # 使用OpenAI兼容接口 from langchain.schema import HumanMessage, AIMessage, SystemMessage from langgraph.graph import StateGraph, END from typing import TypedDict, List, Annotated import operator # 定义智能体的状态 class AgentState(TypedDict): user_input: str conversation_history: List[dict] # 来自ShortTermMemory retrieved_memories: List[str] # 检索到的长期记忆文本 model_response: str should_store: bool # 是否触发长期记忆存储 # 初始化组件 from memory import ShortTermMemory, LongTermMemory short_memory = ShortTermMemory(max_turns=12) long_memory = LongTermMemory() # 配置LangChain使用本地的Ollama服务 llm = ChatOpenAI( base_url="http://localhost:11434/v1", # Ollama的OpenAI兼容端点 api_key="ollama", # 可任意填写，非空即可 model="qwen2.5:7b", temperature=0.7, ) def retrieve_memories(state: AgentState): """节点函数：检索长期记忆""" query = state["user_input"] # 也可以结合最近的对话历史来丰富检索查询 memories = long_memory.search(query, k=2) state["retrieved_memories"] = [m["text"] for m in memories] return state def generate_response(state: AgentState): """节点函数：生成助手回复""" # 构建给模型的提示词 system_prompt = """你是一个运行在用户本地的AI助手，拥有持久的记忆。以下是过去的一些相关对话或信息（长期记忆），请参考它们来更好地理解上下文和用户需求。如果记忆不相关，请忽略。""" memory_context = "\n".join([f"[记忆]: {mem}" for mem in state["retrieved_memories"]]) if state["retrieved_memories"] else "[无相关长期记忆]" # 构建消息列表 messages = [ SystemMessage(content=system_prompt + "\n" + memory_context), ] + [HumanMessage(content=msg["content"]) if msg["role"]=="user" else AIMessage(content=msg["content"]) for msg in state["conversation_history"][-6:]] + [HumanMessage(content=state["user_input"])] # 调用本地模型 response = llm.invoke(messages) state["model_response"] = response.content # 一个简单的启发式规则：如果用户输入包含“记住”或模型回复较长且信息密集，则触发存储 store_keywords = ["记住", "记一下", "重要"] if any(kw in state["user_input"] for kw in store_keywords) or len(response.content) > 150: state["should_store"] = True else: state["should_store"] = False return state def update_conversation(state: AgentState): """节点函数：更新短期记忆""" short_memory.add_interaction(state["user_input"], state["model_response"]) state["conversation_history"] = short_memory.get_context() return state def store_long_memory(state: AgentState): """节点函数：存储到长期记忆""" if state["should_store"]: # 存储最近几轮对话 segment_to_store = state["conversation_history"][-4:] # 存储最近两轮交互 long_memory.summarize_and_store(segment_to_store, force=True) return state # 构建LangGraph工作流 workflow = StateGraph(AgentState) # 添加节点 workflow.add_node("retrieve", retrieve_memories) workflow.add_node("generate", generate_response) workflow.add_node("update_conv", update_conversation) workflow.add_node("store_mem", store_long_memory) # 设置边和入口 workflow.set_entry_point("retrieve") workflow.add_edge("retrieve", "generate") workflow.add_edge("generate", "update_conv") workflow.add_conditional_edges( "update_conv", lambda state: "store_mem" if state["should_store"] else END, {"store_mem": "store_mem", END: END} ) workflow.add_edge("store_mem", END) # 编译图 app = workflow.compile() # 运行助手的主循环函数 def run_assistant(user_input: str): """主交互函数""" # 准备初始状态 initial_state: AgentState = { "user_input": user_input, "conversation_history": short_memory.get_context(), "retrieved_memories": [], "model_response": "", "should_store": False } # 执行图 final_state = app.invoke(initial_state) return final_state["model_response"]

4.4 第四步：创建简易交互界面

最后，我们创建一个简单的命令行界面（CLI）来与助手交互。

# main.py from agent import run_assistant import sys def main(): print("本地AI助手已启动。输入 '/exit' 退出， '/clear' 清空对话历史。") while True: try: user_input = input("\n你: ") if user_input.lower() == '/exit': print("再见！") break if user_input.lower() == '/clear': from agent import short_memory short_memory.conversation_history = [] print("对话历史已清空。") continue response = run_assistant(user_input) print(f"\n助手: {response}") except KeyboardInterrupt: print("\n\n退出。") break except Exception as e: print(f"\n出错: {e}") if __name__ == "__main__": main()

现在，运行python main.py，你就可以开始与拥有持久记忆的本地AI助手对话了。它会记住你之前说过的重要事情，并在后续对话中参考这些信息。

5. 性能调优、问题排查与进阶技巧

项目跑起来只是第一步，要让它好用、稳定，还需要大量的调优和问题处理。以下是我在开发过程中积累的核心经验。

5.1 模型推理速度与内存优化

问题：响应速度慢，或者出现“CUDA Out Of Memory”错误。排查与解决：

量化是关键：务必使用量化模型（GGUF Q4_K_M, GPTQ 4bit）。这能将模型大小和内存占用减少60%以上，而对生成质量的影响微乎其微。在Ollama中，模型名称通常已包含量化信息（如qwen2.5:7b默认可能是q4量化）。
调整上下文长度：模型的最大上下文长度（如4K, 8K, 32K）直接影响内存占用。在Ollama中，你可以通过环境变量OLLAMA_MAX_LOADED_MODELS和OLLAMA_NUM_PARALLEL控制，或在运行时指定--num-ctx 4096来限制上下文长度。对于聊天助手，8K通常足够。
使用更快的推理后端：如果你对延迟敏感，可以尝试llama.cpp的server示例，它通常比Ollama的默认后端有更低的推理延迟。或者，如果显卡支持，确保启用了CUDA加速。
CPU推理优化：如果只能用CPU，确保你的llama.cpp或Ollama编译时启用了AVX2、AVX512等指令集加速。使用-ngl 0参数强制使用CPU，并尝试调整线程数（如-t 8）。

5.2 记忆检索的准确性与效率

问题：助手总是检索不到相关的记忆，或者检索速度慢。排查与解决：

嵌入模型的选择：all-MiniLM-L6-v2是一个很好的平衡选择。如果你处理的是中文，可以换成paraphrase-multilingual-MiniLM-L12-v2或text2vec系列的中文模型。嵌入模型的质量直接决定检索准确性。
记忆的“分块”策略：不要将整篇长文档直接存入一条记忆。使用文本分块器（如LangChain的RecursiveCharacterTextSplitter）将文档分成有重叠的小块（如512字符一块，重叠100字符）。这样检索时能更精准地定位到相关段落。
元数据过滤：为每条记忆添加丰富的元数据，如source（来源文件名）、date、topic。在检索时，可以先通过元数据过滤（例如“只搜索上个月关于‘项目计划’的笔记”），再进行向量搜索，这能大幅提升准确率和速度。LanceDB支持高效的元数据过滤。
混合搜索：结合“向量相似度搜索”和“关键词搜索”（BM25）。对于某些事实性查询，关键词可能更有效。可以使用rank_bm25库实现，并将两种搜索结果进行加权重排（Rerank）。

5.3 智能体逻辑与提示工程

问题：助手行为不符合预期，比如该记住的时候没记住，或者胡乱调用记忆。排查与解决：

优化系统提示词：系统提示词是模型的“宪法”。要清晰定义助手的角色、记忆的使用方式。例如：“你是一个本地AI助手。在回答前，务必参考提供的‘相关记忆’。如果记忆与问题无关，请忽略它们。当用户要求你记住某事，或对话涉及重要项目细节、个人偏好时，你必须明确表示已记住，并在后台存储。”
实现更智能的记忆存储触发：我们之前用的关键词触发很初级。更好的方法是让模型自己判断。可以设计一个单独的“记忆评估”节点：在生成回复后，让模型判断“刚才这轮对话是否包含需要长期存储的信息？如果是，请生成一个简短的摘要。”，然后根据模型的判断来决定存储。
给模型“反思”的机会：在LangGraph中，可以添加一个“反思”节点。当模型对自己的回答不确定，或检索到的记忆有冲突时，让它进行一步链式思考（Chain-of-Thought），把思考过程也输出给用户，这能增加可信度。

5.4 持久化与数据安全

问题：数据文件损坏，或者担心记忆被误删。排查与解决：

定期备份：LanceDB的数据目录（默认是./.lancedb）可以整体复制备份。建议写一个简单的脚本，定期将该目录压缩存档。
版本控制：对于记忆库，可以考虑用git管理，但注意二进制向量文件可能很大。更实用的方法是只对记忆的元数据文本文件进行版本控制。
记忆的“遗忘”机制：实现一个简单的清理策略，例如自动删除超过一定时间（如一年）且最近从未被检索到的记忆。这可以防止数据库无限膨胀。

6. 从项目到产品：可选的增强功能

至此，一个可用的核心系统已经完成。但如果你想把它变成一个更强大的产品，可以考虑以下方向：

图形化界面：使用Gradio或Streamlit快速构建一个Web界面。Gradio尤其适合，几行代码就能创建聊天界面，并支持文件上传（喂文档给助手）。
工具调用能力：让助手不仅能说，还能做。集成LangChain Tools，例如：
- ShellTool: 在安全沙盒中执行命令行命令（需极度谨慎！）。
- RequestsTool: 获取网络信息（天气、新闻）。
- 自定义工具：查询你的本地日历、待办事项列表等。
多模态支持：使用Llava或Qwen-VL等支持图像识别的本地模型，让助手能“看懂”你上传的截图或照片。
语音交互：集成本地语音识别（Whisper.cpp）和语音合成（Coqui TTS或Edge-TTS），实现全语音交互。
分布式记忆：如果你的记忆库变得非常庞大，可以考虑将向量索引存储在更专业的数据库中，如Milvus或Weaviate（它们也支持本地部署），以获得更快的搜索速度和更好的可扩展性。