当前位置：首页 > news >正文

【AI大模型开发】-基于向量数据库的PDF智能问答系统（实战）

news 2026/3/27 2:04:58

ChatPDF-Faiss：基于向量数据库的PDF智能问答系统

一、项目概述

ChatPDF-Faiss是一个基于向量数据库技术的PDF智能问答系统，它能够将PDF文档内容转换为向量表示并存储在FAISS向量数据库中，用户可以通过自然语言提问获取文档中相关信息的精确回答。

功能特点

📄PDF文本提取：支持从PDF文档中提取文本内容并记录页码信息
⚡向量数据库：使用FAISS实现高效的向量存储和相似度搜索
🤖智能问答：结合大语言模型实现基于文档内容的智能回答
📊来源追溯：提供答案对应的原始文档页码，增强可信度
💾持久化存储：支持向量数据库的保存和加载，提高复用性

二、技术栈与依赖

核心技术栈

Python：主要开发语言
PyPDF2：PDF文本提取
LangChain：大语言模型应用框架
FAISS：高效向量检索库
DashScope Embeddings：文本嵌入模型（阿里巴巴通义千问）
Tongyi LLM：通义大语言模型

项目依赖

项目所需依赖已在requirements.txt文件中列出：

langchain1.2.0
langchain_community0.4.1
PyPDF2==3.0.1

## 三、项目结构

Case-ChatPDF-Faiss/
├── chatpdf-faiss.ipynb # Jupyter Notebook交互式版本
├── chatpdf-faiss.py # Python脚本版本
├── requirements.txt # 项目依赖
├── 浦发上海浦东发展银行西安分行个金客户经理考核办法.pdf # 示例PDF文档
└── vector_db/ # 生成的向量数据库目录（运行后创建）
├── index.faiss # FAISS向量索引文件
├── index.pkl # 向量元数据
└── page_info.pkl # 页码信息映射

## 四、环境搭建与配置 ### 1. 安装Python环境 确保已安装Python 3.8+版本。 ### 2. 安装依赖 ```bash pip install -r requirements.txt

3. 配置API密钥

本项目使用阿里巴巴通义千问的API，需要配置DASHSCOPE_API_KEY环境变量：

Windows系统

setx DASHSCOPE_API_KEY "your_api_key_here"

Linux/Mac系统

exportDASHSCOPE_API_KEY="your_api_key_here"

4. 注册API密钥

如需使用阿里巴巴通义千问的API，需要在阿里云官网注册并获取API密钥。

五、使用教程

1. 准备PDF文档

将需要处理的PDF文档放入项目目录中，示例使用的是"浦发上海浦东发展银行西安分行个金客户经理考核办法.pdf"。

2. 运行程序

方法一：运行Python脚本

python chatpdf-faiss.py

方法二：使用Jupyter Notebook

jupyter notebook chatpdf-faiss.ipynb

3. 处理流程

程序运行后，会执行以下步骤：

PDF文本提取：从PDF文档中提取所有文本内容并记录每个段落对应的页码
文本分割：将长文本分割成大小合适的文本块，便于后续处理
向量生成：使用文本嵌入模型将文本块转换为向量表示
向量存储：将向量数据存储到FAISS向量数据库中
持久化保存：将向量数据库和页码信息保存到本地磁盘
智能问答：针对预设问题进行智能回答并显示来源页码

4. 自定义查询

在代码的最后部分，可以修改查询问题：

# 设置查询问题query="客户经理每年评聘申报时间是怎样的？"# query = "客户经理被投诉了，投诉一次扣多少分"

5. 加载已保存的向量数据库

如果需要再次使用已处理的文档，可以直接加载保存的向量数据库：

# 示例：如何加载已保存的向量数据库# 创建嵌入模型embeddings=DashScopeEmbeddings(model="text-embedding-v1",dashscope_api_key=DASHSCOPE_API_KEY,)# 从磁盘加载向量数据库loaded_knowledgeBase=load_knowledge_base("./vector_db",embeddings)# 使用加载的知识库进行查询docs=loaded_knowledgeBase.similarity_search("客户经理每年评聘申报时间是怎样的？")

六、核心代码解析

1. PDF文本提取与页码记录

defextract_text_with_page_numbers(pdf)->Tuple[str,List[int]]:""" 从PDF中提取文本并记录每行文本对应的页码 参数: pdf: PDF文件对象 返回: text: 提取的文本内容 page_numbers: 每行文本对应的页码列表 """text=""page_numbers=[]forpage_number,pageinenumerate(pdf.pages,start=1):extracted_text=page.extract_text()ifextracted_text:text+=extracted_text page_numbers.extend([page_number]*len(extracted_text.split("\n")))returntext,page_numbers

该函数负责从PDF文档中提取文本内容，并为每一行文本记录对应的页码，这对于后续的来源追溯非常重要。

2. 文本处理与向量存储创建

defprocess_text_with_splitter(text:str,page_numbers:List[int],save_path:str=None)->FAISS:""" 处理文本并创建向量存储 参数: text: 提取的文本内容 page_numbers: 每行文本对应的页码列表 save_path: 可选，保存向量数据库的路径 返回: knowledgeBase: 基于FAISS的向量存储对象 """# 创建文本分割器text_splitter=RecursiveCharacterTextSplitter(separators=["\n\n","\n","."," ",""],chunk_size=1000,chunk_overlap=200,length_function=len,)# 分割文本chunks=text_splitter.split_text(text)# 创建嵌入模型embeddings=DashScopeEmbeddings(model="text-embedding-v1",dashscope_api_key=DASHSCOPE_API_KEY,)# 从文本块创建知识库knowledgeBase=FAISS.from_texts(chunks,embeddings)# 记录每个文本块对应的页码信息# ...（页码匹配逻辑）knowledgeBase.page_info=page_info# 保存向量数据库（如果提供了保存路径）ifsave_path:# ...（保存逻辑）returnknowledgeBase

该函数是整个系统的核心，负责：

将长文本分割成大小合适的文本块
使用嵌入模型将文本块转换为向量
创建FAISS向量数据库
建立文本块与原始页码的映射关系
保存向量数据库到本地

3. 向量数据库的加载

defload_knowledge_base(load_path:str,embeddings=None)->FAISS:""" 从磁盘加载向量数据库和页码信息 参数: load_path: 向量数据库的保存路径 embeddings: 可选，嵌入模型 返回: knowledgeBase: 加载的FAISS向量数据库对象 """# ...（加载逻辑）returnknowledgeBase