当前位置: 首页 > news >正文

大模型RAG

大模型RAG

      • 1、模型
      • 2、OpenAI库的基础使用
      • 3、RAG
      • 4、LangChain

1、模型

1) 阿里云模型(通义大模型)
阿里云模型指阿里云开源及商用的大模型系列,核心品牌为通义大模型(Tongyi / Qwen),提供云端托管 API与开源模型两类服务

2)Ollama
Ollama是开源的本地大模型运行与管理工具,定位类似 “大模型领域的 Docker”,核心能力是简化本地部署、一键运行主流开源 LLM。

优先使用阿里云模型的免费额度,性能好,其次再选用Ollama

2、OpenAI库的基础使用

OpenAI库是OpenAI公司发布的Python SDK,方便与编程调用其产品,现许多模型服务商都兼容OpenAI SDK的调用。

使用主要就3个流程:

  • 创建客户端对象(OpenAI类对象)
  • 和模型对话(client.chat.completions.create),可以提供3个角色使用:
    • system: 设定模型的行为和规则
    • assistant: 设定模型的回答,由用户设定
    • user: 用户的提问
  • 处理结果:response.choices[0].message.content
fromopenaiimportOpenAI# 1. 获取client对象,OpenAI类对象client=OpenAI(base_url="https://dashscope.aliyuncs.com/compatible-mode/v1")# 2. 调用模型response=client.chat.completions.create(model="qwen3-max",messages=[{"role":"system","content":"你是一个Python编程专家,并且不说废话简单回答"},{"role":"assistant","content":"好的,我是编程专家,并且话不多,你要问什么?"},{"role":"user","content":"输出1-10的数字,使用python代码"}])# 3. 处理结果print(response.choices[0].message.content)

3、RAG

通用的基础大模型存在一些问题

  • LLM(大模型语言)的知识不是实时的,模型训练好后不具备自动更新知识的能力,会导致部分信息滞后
  • LLM(大模型语言)领域知识是缺乏的,大模型的知识来源于训练数据,这些数据主要来自公开的互联网和开内部知识
  • 幻觉问题,LLM(大模型语言)有时会在回答中生成看似合理但实际上是错误的信息
  • 数据安全

RAG(Retrieval-Augmented Generation)即检索增强生成,为大模型提供了从特定数据源检索到的信息,以此来修正和补充生成的答案。可以总结为一个公式:RAG = 检索技术 + LLM 提示

RAG 标准流程

RAG 标准流程由索引(Indexing)、检索(Retriever)和生成(Generation)三个核心阶段组成。

  • 索引阶段,通过处理多种来源多种格式的文档提取其中文本,将其切分为标准长度的文本块(chunk),并进行嵌入向量化(embedding),向量存储在向量数据库(vector database)中。

    • 加载文件
    • 内容提取
    • 文本分割,形成chunk
    • 文本向量化
    • 存向量数据库
  • 检索阶段,用户输入的查询(query)被转化为向量表示,通过相似度匹配从向量数据库中检索出最相关的文本块。

    • query向量化
    • 在文本向量中匹配出与问句向量相似的top_k个
  • 生成阶段,检索到的相关文本与原始查询共同构成提示词(Prompt),输入大语言模型(LLM),生成精确且具备上下文关联的回答。

    • 匹配出的文本作为上下文和问题一起添加到prompt中
    • 提交给LLM生成答案:

RAG的核心价值

  • 解决知识时效性问题:大模型的训练数据有截止时间,RAG 可以接入最新文档(如公司财报、政策文件),让模型输出“与时俱进”。

  • 降低模型幻觉:模型的回答基于检索到的事实性资料,而非纯靠自身记忆,大幅减少编造信息的概率。

  • 无需重新训练模型:相比微调(Fine-tuning),RAG 只需更新知识库,成本更低、效率更高。

4、LangChain

LangChain模型组件提供了与各种模型的集成,并为所有模型提供一个精简的统一接口。

LangChain目前支持三种类型的模型:LLMs(大语言模型)、Chat Models(聊天模型)、Embeddings Models(嵌入模型)。

  • LLMs:是技术范畴的统称,指基于大参数量、海量文本训练的 Transformer 架构模型,核心能力是理解和生成自然语言,主要服务于文本生成场景
  • 聊天模型:是应用范畴的细分,是专为对话场景优化的 LLMs,核心能力是模拟人类对话的轮次交互,主要服务于聊天场景
  • 文本嵌入模型:文本嵌入模型接收文本作为输入,得到文本的向量。

LangChain支持的三类模型,它们的使用场景不同,输入和输出不同,开发者需要根据项目需要选择相应。

http://www.jsqmd.com/news/638763/

相关文章:

  • DASD-4B-Thinking vLLM内存分析:4B模型在24GB显存卡上最大上下文支持32K tokens
  • 逆向实战:某音a_bogus参数补环境技巧解析(v1.0.1.19)
  • 海南那家旅行社靠谱,三亚怎么找靠谱旅行社,三亚靠谱旅行社攻略海南独角兽旅行社:官方认证的5A级诚信标杆,那家旅行社在三亚最靠谱,三亚排名前列地旅行社 - 速递信息
  • 苏州线下演出公司哪家强?苏州传媒公司服务商实力横评,告诉你如何选择直播网红明星孵化公司 - 速递信息
  • Python新手必看:从注释到变量,10分钟搞定基础语法(附避坑指南)
  • 职场生存暗规则 DAY17:为什么你越解释领导越烦?这 3 种解释=火上浇油 |乐想屋
  • 实战解析:如何利用torch.nn.utils.clip_grad_norm_有效防止梯度爆炸
  • 运动后为何神清气爽?原来这才是细胞的 “激活密码”
  • AlienFX Tools终极指南:告别AWCC臃肿,500KB实现完整灯光风扇控制
  • 塑料清洗废水处理设备口碑好哪家强?鸿泉盛得——专业的水处理企业 - 品牌推荐大师1
  • ROS实践指南:从零构建阿克曼转向车仿真模型与Gazebo环境
  • 深聊隔离剂正规供应商怎么选,好用且口碑好的品牌推荐 - 工业推荐榜
  • 5分钟快速上手:iFakeLocation iOS虚拟定位工具终极指南
  • Python软件授权避坑指南:如何安全生成机器码和授权码
  • 如何用OpenCore Legacy Patcher让老Mac焕发新生:终极完整指南
  • STM32闹钟项目避坑指南:FLASH存储闹钟时间为何总失效?
  • 第 4 课:机台结构基础(前端机台通用)
  • 终极指南:VRM-Addon-for-Blender完整工作流程与高级技巧
  • Hermes 连接 Windows Ollama 失败问题
  • 用实时汇率接口轻松实现USDT数据查询
  • 别再让上电火花吓到你!手把手教你用分立器件搞定12V电源缓启动(附参数计算与选型清单)
  • tailscale原理解析
  • 从“流量曝光”到“仪式感植入”:2026新茶饮海外网红营销的场景革命
  • 专业级AMD Ryzen处理器调试工具:解锁硬件潜能的完整指南
  • linux内存迁移
  • 亲测有效!Z-Image-Turbo解决AI绘画三大痛点:慢、黑、崩
  • 盘点2026年河南亲子海盗船厂,口碑好的品牌大揭秘 - 工业品牌热点
  • 别再只会用Cesium加载地球了!手把手教你用Cesium Ion和3D Tiles打造一个智慧城市可视化大屏(附完整代码)
  • 2026年靠谱的移民企业推荐,诚信专业机构助你开启海外新生活 - mypinpai
  • 还在为20V/36V工具12V供电方案续航差、纹波大、发热重发愁吗?CSM7343F12SR拥有45V高耐压,3μA极致微功耗让工具待机续航翻倍,让你的电动工具设计更稳、更省、更简单