当前位置：首页 > news >正文

大模型RAG

news 2026/4/14 9:45:43

大模型RAG

- - 1、模型
  - 2、OpenAI库的基础使用
  - 3、RAG
  - 4、LangChain

1、模型

1）阿里云模型（通义大模型）
阿里云模型指阿里云开源及商用的大模型系列，核心品牌为通义大模型（Tongyi / Qwen），提供云端托管 API与开源模型两类服务

2）Ollama
Ollama是开源的本地大模型运行与管理工具，定位类似 “大模型领域的 Docker”，核心能力是简化本地部署、一键运行主流开源 LLM。

优先使用阿里云模型的免费额度，性能好，其次再选用Ollama

2、OpenAI库的基础使用

OpenAI库是OpenAI公司发布的Python SDK，方便与编程调用其产品，现许多模型服务商都兼容OpenAI SDK的调用。

使用主要就3个流程：

创建客户端对象（OpenAI类对象）
和模型对话（client.chat.completions.create），可以提供3个角色使用：
- system: 设定模型的行为和规则
- assistant: 设定模型的回答，由用户设定
- user: 用户的提问
处理结果：response.choices[0].message.content

fromopenaiimportOpenAI# 1. 获取client对象，OpenAI类对象client=OpenAI(base_url="https://dashscope.aliyuncs.com/compatible-mode/v1")# 2. 调用模型response=client.chat.completions.create(model="qwen3-max",messages=[{"role":"system","content":"你是一个Python编程专家，并且不说废话简单回答"},{"role":"assistant","content":"好的，我是编程专家，并且话不多，你要问什么？"},{"role":"user","content":"输出1-10的数字，使用python代码"}])# 3. 处理结果print(response.choices[0].message.content)

3、RAG

通用的基础大模型存在一些问题

LLM（大模型语言）的知识不是实时的，模型训练好后不具备自动更新知识的能力，会导致部分信息滞后
LLM（大模型语言）领域知识是缺乏的，大模型的知识来源于训练数据，这些数据主要来自公开的互联网和开内部知识
幻觉问题，LLM（大模型语言）有时会在回答中生成看似合理但实际上是错误的信息
数据安全

RAG（Retrieval-Augmented Generation）即检索增强生成，为大模型提供了从特定数据源检索到的信息，以此来修正和补充生成的答案。可以总结为一个公式：RAG = 检索技术 + LLM 提示

RAG 标准流程

RAG 标准流程由索引（Indexing）、检索（Retriever）和生成（Generation）三个核心阶段组成。

索引阶段，通过处理多种来源多种格式的文档提取其中文本，将其切分为标准长度的文本块（chunk），并进行嵌入向量化（embedding），向量存储在向量数据库（vector database）中。
- 加载文件
- 内容提取
- 文本分割，形成chunk
- 文本向量化
- 存向量数据库
检索阶段，用户输入的查询（query）被转化为向量表示，通过相似度匹配从向量数据库中检索出最相关的文本块。
- query向量化
- 在文本向量中匹配出与问句向量相似的top_k个
生成阶段，检索到的相关文本与原始查询共同构成提示词（Prompt），输入大语言模型（LLM），生成精确且具备上下文关联的回答。
- 匹配出的文本作为上下文和问题一起添加到prompt中
- 提交给LLM生成答案：