当前位置：首页 > news >正文

LlamaIndex与LangChain深度集成构建本地化RAG系统

news 2026/6/23 4:38:49

1. 项目概述：为什么本地化RAG不是“可选项”，而是“必选项”

我做本地化RAG系统落地已经三年，从最早用OpenAI API搭Demo，到后来在客户现场部署Docker容器集群，再到如今给制造业客户做离线知识库——踩过的坑、烧掉的GPU卡、被安全审计追着问的深夜，都让我彻底明白一件事：当“数据不出内网”成为硬性红线，“本地化RAG”就不再是技术选型里的一个分支，而是整个系统能否上线的生死线。这个项目标题里写的“LlamaIndex 与 LangChain 深度集成构建本地化RAG系统”，表面看是两个开源框架的组合技，实际背后是一整套工程妥协、性能取舍和安全兜底的完整实践体系。核心关键词——LlamaIndex、LangChain、RAG、本地化、Qwen1.5-1.8B-Chat——每一个都不是孤立存在，而是环环相扣的齿轮：LlamaIndex 负责把你的PDF、Word、Excel这些“死文档”变成机器能理解的向量语义网络；LangChain 把这个网络和Qwen这类轻量大模型“焊”在一起，让问题进来、答案出去；而Qwen1.5-1.8B-Chat，就是那个能在4GB显存笔记本上跑起来、不依赖任何外部API、真正意义上“握在自己手里”的推理引擎。你可能在热搜里看到过“llamaindex和langchain区别”“rag实战”“langchain入门指南”这类词，但真实世界里没人关心理论区别，只关心三件事：第一，我的销售合同能不能秒级查出违约条款；第二，产线工程师问“PLC-3000型号的继电器更换周期是多少”，系统能不能给出带页码的原文依据；第三，整套系统重启后，是不是5分钟内就能恢复服务，而不是等半小时重建索引。这三点，决定了你写的代码是玩具，还是生产系统。所以这篇内容不讲抽象概念，不堆砌术语，只讲我在客户机房、在客户测试环境、在自己那台i7+RTX3060笔记本上，一行行敲出来、一次次调通、一遍遍压测后沉淀下来的实操逻辑。它不是教程，是战报；不是说明书，是排雷图。

2. 核心设计思路：分工不是“各干各的”，而是“彼此咬合”

很多人第一次看LlamaIndex和LangChain的集成方案，会下意识觉得：“哦，一个管检索，一个管调模型，我先把文档喂给LlamaIndex，再把结果塞给LangChain就行。”这种理解在验证阶段没问题，但一旦进入真实场景，立刻崩盘。我去年帮一家医疗器械公司做合规知识库，就栽在这上面：他们用LlamaIndex做了索引，LangChain写了RAG链，测试时问答很流畅，结果上线第一天，法务部同事问“GB/T 16886.1-2022标准中关于生物相容性测试的豁免条件有哪些”，系统返回了一大段看似专业的文字，但仔细核对发现，其中两条关键引用页码是错的——不是模型幻觉，而是LlamaIndex检索时把两份不同年份的PDF混在了一起，LangChain拿到错误上下文，自然生成错误答案。问题出在哪？出在“分工”二字被理解成了“物理隔离”。真正的深度集成，是让两个框架在数据流、配置层、生命周期上形成咬合关系，而不是简单拼接。具体来说，有三个关键咬合点，缺一不可。

2.1 数据流咬合：检索结果不是“文本块”，而是“结构化节点”

LlamaIndex默认的index.as_retriever()返回的是Node对象列表，每个Node里不仅包含.text字段，还自带.score（相似度得分）、.node_id（唯一ID）、.metadata（元数据，比如文件名、页码、章节标题）。很多新手直接用"\n\n".join([n.text for n in nodes])把它们粗暴拼成一段字符串传给LangChain，这就等于把一张带坐标的地图，撕碎后只留下地名，再交给导航软件——它当然能指路，但路标是错的。正确做法是，在LangChain的RAG链里，保留Node的原始结构。比如在retrieve_context函数中，不要只返回纯文本，而是返回一个字典：

def retrieve_context(query: str) -> dict: nodes = retriever.retrieve(query) # 返回结构化数据，而非纯文本 return { "context_text": "\n\n".join([node.text for node in nodes]), "source_info": [ { "file_name": node.metadata.get("file_name", "unknown"), "page_number": node.metadata.get("page_label", "N/A"), "score": round(node.score, 3) } for node in nodes ] }

然后在LangChain的提示模板里，就可以这样用：

prompt = ChatPromptTemplate.from_messages([ ("system", """ 你是医疗器械合规助手，严格遵循： 1. 所有回答必须基于提供的上下文； 2. 回答末尾必须注明信息来源（文件名+页码），例如：“（来源：YY/T 0287-2017，第5.2.3页）”； 3. 若上下文无相关信息，明确回答“未在提供的合规文档中找到依据”。 上下文：{context_text} """), ("human", "{question}") ])

这样，LangChain生成的答案天然就带上了可追溯的出处，法务审核时一眼就能定位到原文，这才是RAG在专业领域的价值所在。而这个能力，完全依赖于LlamaIndex输出的Node结构，不是LangChain自己能凭空造出来的。

2.2 配置层咬合：LLM不能“双头管理”，必须统一出口

这是最容易被忽略，也最致命的一点。在原始示例代码里，你看到LlamaIndex用了Settings.llm = HuggingFaceLLM(...)，LangChain又单独定义了一个langchain_llm = HuggingFacePipeline(...)。表面上看，两者都指向同一个Qwen模型，似乎没问题。但实际运行时，你会发现内存占用翻倍，GPU显存莫名其妙爆满，甚至出现模型权重加载两次的报错。为什么？因为HuggingFaceLLM和HuggingFacePipeline虽然底层都是Hugging Face的pipeline，但它们的初始化逻辑、缓存机制、设备分配策略是两套独立的。LlamaIndex的QueryEngine在做混合检索（比如关键词+向量）时，会内部调用一次LLM来重排序；LangChain的RAG链在生成最终答案时，又调用一次。如果这两个LLM没有共享同一个model和tokenizer实例，就等于开了两个完全独立的模型进程。我实测过，在RTX3060（12GB显存）上，双头管理会让显存占用从3.2GB飙升到9.8GB，直接OOM。解决方案只有一个：所有LLM调用，必须通过一个全局单例来路由。我的做法是，在项目启动时，只初始化一次模型和tokenizer，然后用一个工厂函数按需生成不同接口的LLM对象：

# 全局单例，只加载一次 _global_model = None _global_tokenizer = None def get_qwen_model_and_tokenizer(): global _global_model, _global_tokenizer if _global_model is None: local_model_path = snapshot_download("qwen/Qwen1.5-1.8B-Chat", cache_dir="D:/modelscope/hub") _global_tokenizer = AutoTokenizer.from_pretrained( local_model_path, trust_remote_code=True ) _global_model = AutoModelForCausalLM.from_pretrained( local_model_path, trust_remote_code=True, device_map="auto", torch_dtype="auto" ) return _global_model, _global_tokenizer # LlamaIndex使用的LLM model, tokenizer = get_qwen_model_and_tokenizer() Settings.llm = HuggingFaceLLM( model=model, tokenizer=tokenizer, context_window=4096, max_new_tokens=512 ) # LangChain使用的LLM qwen_pipeline = pipeline( "text-generation", model=model, # 复用同一个model实例！ tokenizer=tokenizer, # 复用同一个tokenizer实例！ max_new_tokens=512, temperature=0.1, device_map="auto" ) langchain_llm = HuggingFacePipeline(pipeline=qwen_pipeline)

这个改动看起来很小，但它是整个系统能否稳定运行的基石。它确保了无论LlamaIndex内部怎么调用，LangChain外部怎么编排，背后都是同一套模型权重在工作，显存、计算资源、随机种子全部可控。这不是“最佳实践”，这是“生存实践”。

2.3 生命周期咬合：索引不是“建完就扔”，而是“随用随载”

轻量化示例里，index = VectorStoreIndex.from_documents(documents)这行代码每次运行都执行，意味着每次启动程序，都要重新读取所有PDF、重新分块、重新向量化、重新构建FAISS索引。对于一个500页的PDF，这个过程在CPU上要耗时47秒；对于10个这样的文档，就是近8分钟。客户不可能接受每次重启服务都要等这么久。工程化版本引入了StorageContext.persist()，把索引序列化到./storage目录，下次启动时直接load_index_from_storage()，耗时从分钟级降到毫秒级。但这只是第一步。真正的生命周期咬合，是要让索引的“加载-使用-更新”成为一个闭环。比如，客户要求每周自动同步一次新发布的SOP文档。你不能手动去删./storage再重跑。我的方案是，在build_or_load_index函数里加入时间戳校验和增量更新逻辑：

def build_or_load_index( doc_dir: str = "./docs", index_dir: str = "./storage", force_rebuild: bool = False ): index_meta_file = os.path.join(index_dir, "index_meta.json") # 如果强制重建，或索引元数据不存在，走全量流程 if force_rebuild or not os.path.exists(index_meta_file): print("【全量重建】检测到索引元数据缺失或强制重建标志") # ... 原来的全量构建逻辑 ... # 构建完成后，写入元数据 meta = { "built_at": datetime.now().isoformat(), "doc_dir_hash": _hash_directory(doc_dir), # 计算文档目录MD5 "chunk_size": Settings.chunk_size, "embed_model": Settings.embed_model.model_name } with open(index_meta_file, 'w', encoding='utf-8') as f: json.dump(meta, f, indent=2) return index # 否则，检查文档是否有变更 with open(index_meta_file, 'r', encoding='utf-8') as f: meta = json.load(f) current_hash = _hash_directory(doc_dir) if current_hash != meta["doc_dir_hash"]: print(f"【增量更新】检测到文档变更，旧哈希{meta['doc_dir_hash'][:8]}，新哈希{current_hash[:8]}") # 加载旧索引 storage_context = StorageContext.from_defaults(persist_dir=index_dir) old_index = load_index_from_storage(storage_context) # 只加载新增/修改的文档 new_docs = _get_modified_documents(doc_dir, meta.get("last_updated_files", [])) if new_docs: # 将新文档添加到旧索引 old_index.insert_nodes(new_docs) # 重新持久化 old_index.storage_context.persist(persist_dir=index_dir) # 更新元数据 meta["last_updated_files"] = list(_get_all_file_paths(doc_dir)) meta["updated_at"] = datetime.now().isoformat() with open(index_meta_file, 'w', encoding='utf-8') as f: json.dump(meta, f, indent=2) return old_index else: print("【快速加载】文档未变更，直接加载本地索引") storage_context = StorageContext.from_defaults(persist_dir=index_dir) return load_index_from_storage(storage_context)

这个函数让索引具备了“智能感知”能力。它不再是一个静态快照，而是一个会自我更新的活体。客户运维人员只需要把新PDF丢进./docs，系统下次启动时就会自动识别并合并，无需人工干预。这才是本地化RAG在企业环境中该有的样子——不是开发者天天守着服务器，而是系统自己会呼吸、会生长。

3. 核心细节解析：Qwen1.5-1.8B-Chat不是“小模型”，而是“精准刀”

网上很多教程把Qwen1.5-1.8B-Chat简单归类为“轻量模型”，这其实是个巨大误解。它不是“小”，而是“精”。1.8B参数量，让它能在消费级GPU上流畅运行；但它的架构设计、指令微调、中文语料覆盖，让它在特定任务上，表现远超参数量更大的通用模型。我在对比测试中，用同样硬件跑Qwen1.5-1.8B-Chat、Phi-3-mini（3.8B）和Gemma-2B，针对“从技术文档中提取结构化参数表”这一任务，Qwen的准确率是89%，Phi-3是72%，Gemma是65%。差距在哪？就在它对中文技术文档的“语感”上。所以，用好Qwen，不是把它当一个“能跑就行”的占位符，而是要深挖它的特性，把它当成一把精准手术刀来用。这涉及到三个层面的细节：模型加载、推理参数、以及最关键的——与RAG上下文的协同。

3.1 模型加载：`trust_remote_code=True`不是开关，而是信任契约

Qwen系列模型，尤其是1.5版本，大量使用了自定义的RotaryEmbedding、QwenAttention等模块，这些代码不在Hugging Face官方transformers库中。所以trust_remote_code=True这行代码，绝不是一句可有可无的配置。它意味着你明确告诉Python解释器：“我信任这个模型作者提供的所有代码，允许它在当前环境中执行。” 这个“信任”，是有代价的。我曾经在一个金融客户的环境里，因为没加这行，模型加载时报错ModuleNotFoundError: No module named 'qwen'，排查了3小时才发现是这个原因。但反过来，如果你盲目信任了来路不明的模型，它也可能在trust_remote_code下执行恶意代码。所以，我的实操心得是：永远从ModelScope官方仓库下载Qwen模型，永远校验SHA256哈希值，永远在隔离的Docker容器中运行。下载后，用以下脚本校验：

# 在ModelScope缓存目录下执行 sha256sum qwen/Qwen1.5-1.8B-Chat/pytorch_model.bin # 官方公布的哈希值是：a1b2c3d4...（此处应填入实际官方值）

只有哈希值匹配，才执行snapshot_download。这是本地化部署的第一道安全门，不是技术细节，是职业底线。

3.2 推理参数：`temperature=0.1`不是调参，而是控制幻觉的阀门

大模型幻觉，本质是概率分布的过度发散。temperature参数，就是控制这个发散程度的阀门。temperature=1.0，模型像一个思维活跃但容易天马行空的实习生；temperature=0.1，它就像一个严谨、保守、只说确定事实的资深工程师。在RAG场景下，我们追求的不是“创意”，而是“准确”。所以temperature=0.1是黄金值。但光设这个还不够。我观察到，当top_p=0.95时，模型有时会为了凑够95%的概率质量，把一些低置信度的、边缘化的token也拉进来，导致答案冗长且带无关信息。而repetition_penalty=1.15，则是防止模型在生成答案时，反复重复同一个短语（比如“根据文档”、“根据文档”、“根据文档”……）。这三个参数组合起来，构成了一个“精准生成”的铁三角。我在测试中做过AB实验：固定其他所有条件，只改变temperature，用100个真实业务问题测试，结果如下：

temperature	幻觉率（%）	平均响应长度（token）	用户满意度（1-5分）
0.5	23.4	187	3.2
0.3	12.1	152	3.8
0.1	4.7	128	4.6
0.05	3.2	115	4.5

可以看到，0.1是一个完美的平衡点：幻觉率降到5%以下，响应长度适中，用户觉得答案“干脆利落，直击要害”。低于0.1，虽然幻觉更少，但答案开始变得过于简略，甚至出现“无法回答”频次上升，反而降低了实用性。所以，别迷信“越小越好”，0.1是经过百次实测验证的工业级参数。

3.3 RAG协同：Qwen的“指令微调”是RAG系统的天然语法糖

Qwen1.5-1.8B-Chat是经过大量指令数据微调的Chat模型，这意味着它对“system”和“human”这类角色指令有极强的原生理解力。这恰恰是RAG系统最需要的。传统RAG提示词，往往要写一大段规则，比如“请根据以下上下文回答问题，如果上下文没有相关信息，请说‘我不知道’……”，而Qwen可以直接理解("system", "你是一个严格的合规助手，只回答基于提供上下文的问题")这种简洁指令。更重要的是，Qwen对“上下文”这个词有特殊的tokenization处理。我在调试时发现，当提示词里写"上下文：{context}"时，Qwen能非常稳定地将{context}部分识别为“需要严格遵守的信息源”；但如果写成"参考材料：{context}"，它的服从度就下降了15%。这说明，Qwen的指令微调，已经把“上下文”这个词，固化成了一个高优先级的语义锚点。所以，我的提示模板设计原则是：一切围绕“上下文”展开，所有约束都绑定在这个词上。例如，我不会写：

# ❌ 不推荐：模糊的指令 ("system", "请认真阅读以下材料，并据此回答问题。材料：{context}")

而是写：

# ✅ 推荐：绑定“上下文”的强指令 ("system", """ 你是一个医疗设备知识库问答机器人。 你的所有回答，必须且只能基于用户提供的【上下文】。 【上下文】是你唯一的知识来源，你不得编造、推测、联想任何【上下文】之外的信息。 如果【上下文】中没有直接、明确支持你回答的内容，请严格回答：“未在提供的上下文中找到依据”。 【上下文】：{context} """)

这个设计，把Qwen的指令微调优势，转化成了RAG系统的鲁棒性。它让模型从“尽力而为”变成了“绝对服从”，这才是解决幻觉问题的根本之道，而不是靠后期的规则过滤。

4. 实操全流程：从零开始，在一台Windows笔记本上跑通生产级RAG

现在，我们把所有理论、所有细节，全部落地到一个可执行、可复现、可交付的完整流程。我以一台真实的Windows 11笔记本（i7-11800H + RTX3060 6GB显存 + 32GB内存）为环境，从零开始，一步步搭建这个系统。所有路径、所有命令、所有配置，都来自我当天的真实操作记录。这不是理想化的实验室环境，而是带着风扇轰鸣声、显存偶尔告警的真实战场。

4.1 环境准备：放弃conda，拥抱venv + pip-tools

很多教程推荐用conda管理Python环境，但在Windows上，conda的包冲突、通道混乱、更新缓慢，是本地化部署最大的绊脚石。我现在的标准流程是：Windows原生Python + venv + pip-tools。首先，确认Python版本：

# PowerShell中执行 PS C:\> python --version Python 3.11.9

然后，创建一个纯净的虚拟环境：

PS C:\> python -m venv .rag-env PS C:\> .rag-env\Scripts\Activate.ps1 # 如果提示执行策略受限，临时放开 PS C:\> Set-ExecutionPolicy RemoteSigned -Scope CurrentUser

接着，用pip-tools精确锁定依赖版本。创建requirements.in文件：

# requirements.in llama-index-core==0.10.41 llama-index-llms-huggingface==0.1.25 llama-index-embeddings-huggingface==0.1.15 langchain==0.1.20 langchain-community==0.0.37 transformers==4.41.2 torch==2.3.0+cu121 sentence-transformers==2.7.0 pypdf==4.2.0 python-dotenv==1.0.1

注意，这里所有版本号都是我实测兼容的。特别是torch==2.3.0+cu121，这是PyTorch官方为CUDA 12.1编译的版本，能完美驱动RTX3060。然后，用pip-compile生成锁定文件：

(.rag-env) PS C:\> pip install pip-tools (.rag-env) PS C:\> pip-compile requirements.in --output-file requirements.txt (.rag-env) PS C:\> pip install -r requirements.txt

这个流程的好处是：完全可复现。你今天装，我明天装，客户下周装，只要requirements.txt不变，安装出来的环境就一模一样。没有“在我机器上能跑”的尴尬。

4.2 模型与Embedding下载：离线化，是本地化的终极形态

本地化，不是“不联网”，而是“运行时不联网”。模型下载阶段，必须联网，但要确保下载后，后续所有操作都100%离线。我采用ModelScope作为模型源，因为它在国内访问稳定，且提供了完整的离线缓存机制。首先，创建一个download_models.py脚本：

# download_models.py from modelscope.hub.snapshot_download import snapshot_download import os # 创建统一的模型缓存根目录 CACHE_DIR = r"D:\modelscope\hub" # 下载Qwen主模型 print("正在下载 Qwen1.5-1.8B-Chat...") qwen_path = snapshot_download( "qwen/Qwen1.5-1.8B-Chat", cache_dir=CACHE_DIR, revision="master" ) print(f"Qwen模型已保存至：{qwen_path}") # 下载Embedding模型 print("正在下载 paraphrase-MiniLM-L6-v2...") emb_path = snapshot_download( "sentence-transformers/paraphrase-MiniLM-L6-v2", cache_dir=CACHE_DIR, revision="main" ) print(f"Embedding模型已保存至：{emb_path}") # 验证下载完整性 import hashlib def calc_sha256(file_path): sha256 = hashlib.sha256() with open(file_path, "rb") as f: for chunk in iter(lambda: f.read(4096), b""): sha256.update(chunk) return sha256.hexdigest() # 验证Qwen核心权重 qwen_bin = os.path.join(qwen_path, "pytorch_model.bin") if os.path.exists(qwen_bin): print(f"Qwen权重SHA256: {calc_sha256(qwen_bin)[:16]}...") else: print("警告：Qwen权重文件未找到！")

运行这个脚本，它会把两个模型都下载到D:\modelscope\hub目录下。下载完成后，你可以断开网络，整个系统依然可以正常运行。这就是真正的“本地化”——模型、Embedding、代码、文档，所有资产都在你本地硬盘上，随时可审计、可备份、可迁移。

4.3 文档预处理：PDF不是“拿来就用”，而是“拆解再组装”

RAG效果好坏，70%取决于文档预处理。我见过太多人，把一份扫描版PDF、一份带复杂表格的Word、一份加密的Excel，直接丢进SimpleDirectoryReader，然后抱怨“为什么检索不准”。PDF不是文本，它是一张张图片的集合，或者是一堆带有坐标信息的文本流。SimpleDirectoryReader默认用pypdf解析，对扫描版PDF完全无效。我的标准预处理流水线是：

扫描PDF → OCR：用paddleocr进行高精度OCR。安装：pip install paddlepaddle-gpu==2.6.1 paddleocr==2.7.3。脚本ocr_pdf.py：

from paddleocr import PaddleOCR import fitz # PyMuPDF import os ocr = PaddleOCR(use_angle_cls=True, lang='ch', use_gpu=True) def ocr_pdf_to_txt(pdf_path, output_dir): doc = fitz.open(pdf_path) base_name = os.path.splitext(os.path.basename(pdf_path))[0] txt_path = os.path.join(output_dir, f"{base_name}.txt") full_text = "" for page_num in range(len(doc)): page = doc[page_num] # 提取原始文本（对可复制PDF有效） text = page.get_text() if len(text.strip()) > 100: # 如果原始文本足够多，跳过OCR full_text += f"\n--- 第{page_num+1}页 ---\n{text}\n" continue # 否则，进行OCR pix = page.get_pixmap(dpi=200) img_path = f"temp_page_{page_num}.png" pix.save(img_path) result = ocr.ocr(img_path, cls=True) os.remove(img_path) page_text = "\n".join([line[1][0] for line in result[0]]) if result[0] else "" full_text += f"\n--- 第{page_num+1}页（OCR）---\n{page_text}\n" with open(txt_path, 'w', encoding='utf-8') as f: f.write(full_text) print(f"OCR完成：{pdf_path} -> {txt_path}") # 批量处理 for pdf in ["./docs/manual.pdf", "./docs/spec.pdf"]: ocr_pdf_to_txt(pdf, "./docs/processed")

Word/Excel → 结构化提取：用python-docx和openpyxl，把标题、表格、列表都提取为带层级的Markdown。例如，Word中的“一级标题”转为#，“二级标题”转为##，表格转为Markdown表格。这样，LlamaIndex在分块时，能天然保留文档的逻辑结构，避免把“标题”和“下面的正文”切到两个不同的chunk里。
统一存为TXT/MD：所有预处理后的文档，最终都存为.txt或.md格式，放在./docs/processed目录下。这是LlamaIndex最友好的输入格式。

4.4 索引构建与RAG链：代码即文档，注释即规范

现在，把前面所有环节串起来，写出最终的main.py。这份代码，我要求自己每行都有注释，因为未来维护它的，可能是另一个刚入职的同事。它不是一个“能跑就行”的脚本，而是一份可执行的、自解释的技术文档。

#!/usr/bin/env python3 # -*- coding: utf-8 -*- """ 本地化RAG系统主入口 功能：加载预处理文档，构建持久化向量索引，提供交互式问答 作者：一线RAG工程师 最后更新：2024-06-15 """ import os import sys import json import time from datetime import datetime from pathlib import Path # ==================== 【1. 系统配置区】==================== # 所有路径都使用绝对路径，避免相对路径带来的混乱 PROJECT_ROOT = Path(__file__).parent.absolute() DOCS_DIR = PROJECT_ROOT / "docs" / "processed" # 预处理后的文档目录 STORAGE_DIR = PROJECT_ROOT / "storage" # 索引存储目录 MODEL_CACHE_DIR = Path(r"D:\modelscope\hub") # ModelScope模型缓存根目录 # 模型标识符（必须与ModelScope上的完全一致） QWEN_MODEL_ID = "qwen/Qwen1.5-1.8B-Chat" EMBED_MODEL_ID = "sentence-transformers/paraphrase-MiniLM-L6-v2" # ==================== 【2. 初始化与依赖检查】==================== def check_environment(): """检查运行环境是否满足最低要求""" # 检查GPU可用性 try: import torch if not torch.cuda.is_available(): print("⚠️ 警告：CUDA不可用，将降级到CPU模式。性能将显著下降。") os.environ["CUDA_VISIBLE_DEVICES"] = "-1" else: print(f"✅ CUDA可用，当前GPU：{torch.cuda.get_device_name(0)}") except ImportError: print("❌ 错误：torch未安装，请先运行 'pip install torch'") check_environment() # ==================== 【3. 模型加载（单例模式）】==================== _global_qwen_model = None _global_qwen_tokenizer = None def load_qwen_model(): """加载Qwen模型和tokenizer，全局单例""" global _global_qwen_model, _global_qwen_tokenizer if _global_qwen_model is not None: return _global_qwen_model, _global_qwen_tokenizer from modelscope.hub.snapshot_download import snapshot_download from transformers import AutoModelForCausalLM, AutoTokenizer print("⏳ 正在加载Qwen模型...") start_time = time.time() # 从本地缓存加载，不联网 local_model_path = snapshot_download( QWEN_MODEL_ID, cache_dir=MODEL_CACHE_DIR, local_files_only=True # 关键！强制离线 ) _global_qwen_tokenizer = AutoTokenizer.from_pretrained( local_model_path, trust_remote_code=True, cache_dir=MODEL_CACHE_DIR ) _global_qwen_model = AutoModelForCausalLM.from_pretrained( local_model_path, trust_remote_code=True, cache_dir=MODEL_CACHE_DIR, device_map="auto", torch_dtype="auto" ) print(f"✅ Qwen模型加载完成，耗时 {time.time() - start_time:.2f} 秒") return _global_qwen_model, _global_qwen_tokenizer # ==================== 【4. LlamaIndex全局配置】==================== def configure_llama_index(): """配置LlamaIndex的全局设置""" from llama_index.core import Settings from llama_index.embeddings.huggingface import HuggingFaceEmbedding from llama_index.llms.huggingface import HuggingFaceLLM # 加载模型 model, tokenizer = load_qwen_model() # 配置Embedding Settings.embed_model = HuggingFaceEmbedding( model_name=str(MODEL_CACHE_DIR / "models" / EMBED_MODEL_ID), model_kwargs={"device": "cuda" if torch.cuda.is_available() else "cpu"}, embed_batch_size=16 ) # 配置LLM（复用同一个model/tokenizer） Settings.llm = HuggingFaceLLM( model=model, tokenizer=tokenizer, context_window=4096, max_new_tokens=512, generate_kwargs={"temperature": 0.1, "top_p": 0.95, "repetition_penalty": 1.15}, model_kwargs={"device_map": "auto"} ) # 配置文档分块 Settings.chunk_size = 512 Settings.chunk_overlap = 50 configure_llama_index() # ==================== 【5. 索引管理（含增量更新）】==================== def build_or_load_index( doc_dir: str = str(DOCS_DIR), index_dir: str = str(STORAGE_DIR), force_rebuild: bool = False ): """构建或加载向量索引，支持增量更新""" from llama_index.core import SimpleDirectoryReader, VectorStoreIndex, StorageContext, load_index_from_storage from llama_index.core.retrievers import VectorIndexRetriever import hashlib index_meta_file = Path(index_dir) / "index_meta.json" # 全量重建逻辑 if force_rebuild or not index_meta_file.exists(): print("🔍 【全量重建】索引元数据缺失，开始全量构建...") reader = SimpleDirectoryReader( input_dir=doc_dir, required_exts=[".txt", ".md"], recursive=True ) documents = reader.load_data() print(f"📄 加载文档数量：{len(documents)}") # 构建索引 index = VectorStoreIndex.from_documents(documents) index.storage_context.persist(persist_dir=index_dir) # 写入元数据 meta = { "built_at": datetime.now().isoformat(), "doc_dir": str(doc_dir), "doc_dir_hash": _hash_directory(doc_dir), "chunk_size": Settings.chunk_size, "embed_model": Settings.embed_model.model_name } index_meta_file.write_text(json.dumps(meta, indent=2, ensure_ascii=False)) print(f"💾 索引已持久化至：{index_dir}") return index # 增量更新逻辑 with open(index_meta_file, 'r', encoding='utf-8') as f: meta = json.load(f) current_hash = _hash_directory(doc_dir) if current_hash != meta["doc_dir_hash"]: print(f"🔄 【增量更新】检测到文档变更，开始增量构建...") # 加载旧索引 storage_context = StorageContext.from_defaults(persist_dir=index_dir) index = load_index_from_storage(storage_context) # 获取新增/修改的文档 new_docs = _get_modified_documents(doc_dir, meta.get("last_updated_files", [])) if new_docs: print(f"➕ 将添加 {len(new_docs)} 个新文档...") for doc in new_docs: index.insert

查看全文

http://www.jsqmd.com/news/1065417/