当前位置：首页 > news >正文

基于LlamaIndex的相似性搜索

news 2026/3/26 15:35:47

🌟 引言：为什么需要“相似性搜索”？

在信息爆炸的时代，我们每天面对大量文档、笔记、技术手册、会议记录……如何快速从自己的“知识库”中找到最相关的内容？

传统关键词搜索（如 Ctrl+F）已经不够用了 —— 它无法理解语义。比如你搜索“对心脏好的水果”，它不会返回“香蕉富含钾元素，有益心脏健康”。

这时候，语义相似性搜索（Semantic Similarity Search） 就派上用场了。

而今天，我们将使用 LlamaIndex —— 一个专门为 LLM 应用构建数据管道的 Python 框架 —— 来搭建一个本地运行、无需 API Key 的智能搜索系统！

🧰 一、准备工作

1.1 什么是 LlamaIndex？

LlamaIndex（原名 GPT Index）是一个连接自定义数据源与大语言模型（LLM）的框架。它擅长将文档切块、向量化、建立索引，并支持高效语义检索。

官网：https://www.llamaindex.ai/

1.2 为什么选它？

✅ 支持本地嵌入模型（如 HuggingFace），无需 OpenAI Key
✅ 简洁 API，几行代码即可构建搜索系统
✅ 支持多种数据源：TXT、PDF、Markdown、数据库等
✅ 可扩展性强，轻松接入 Chroma、FAISS、Qdrant 等向量库

🚀 二、实战：构建一个简洁版本的相似性搜索引擎

2.1 安装依赖

pip install llama-index llama-index-embeddings-huggingface

2.2 准备演示数据

这里使用脚本创建 ./data/ 目录，放入3 个JSON文件：

import os
import json

os.makedirs("data", exist_ok=True)

docs = {
"data/doc1.json": {
"id": 1,
"content": "苹果是一种常见的水果，富含维生素C和纤维。它有助于消化和增强免疫力。每天吃一个苹果，医生远离我。",
"metadata": {"source": "doc1.json"}
},
"data/doc2.json": {
"id": 2,
"content": "香蕉是热带水果，含有丰富的钾元素，有助于维持心脏健康和肌肉功能。香蕉也常被运动员作为能量补充食品。",
"metadata": {"source": "doc2.json"}
},
"data/doc3.json": {
"id": 3,
"content": "橙子酸甜可口，是冬季最受欢迎的水果之一。它含有大量维生素C，可以预防感冒，促进胶原蛋白合成。",
"metadata": {"source": "doc3.json"}
}
}

for filename, data in docs.items():
with open(filename, 'w', encoding='utf-8') as f:
json.dump(data, f, ensure_ascii=False, indent=4)

print("✅ 3个演示数据文件（JSON格式）已生成在 ./data/ 目录下")

2.3 编写搜索脚本

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.core import Settings

Settings.embed_model = HuggingFaceEmbedding(
model_name="sentence-transformers/all-MiniLM-L6-v2"
)

Settings.llm = None

print("📂 正在加载数据...")
from llama_index.core import Document
import json
import os

documents = []
for filename in os.listdir("./data"):
if filename.endswith(".json"):
with open(os.path.join("./data", filename), "r", encoding="utf-8") as f:
data = json.load(f)
documents.append(Document(text=data["content"], metadata=data["metadata"]))

print("🏗️ 正在构建向量索引...")
index = VectorStoreIndex.from_documents(documents)

print("🔍 创建查询引擎...")
query_engine = index.as_query_engine(similarity_top_k=2) # 返回最相似的2个结果

queries = [
"哪种水果富含维生素C？",
"运动员适合吃什么水果补充能量？",
"对心脏有益的水果是什么？"
]

for i, query in enumerate(queries, 1):
print(f"\n--- 查询 {i}: {query} ---")
response = query_engine.query(query)
print("💬 回答:", str(response))
# 打印参考来源（可选）
print("📄 参考来源:")
for node in response.source_nodes:
print(f" - {node.node.text[:100]}...")

print("\n✅ 演示完成！")