当前位置: 首页 > news >正文

【LLM大模型】从零实现大模型-GraphRAG,构建LLM中的关系数据库

传统RAG

LLM预训练和微调一般都是基于公开的互联网数据,不可能包含公司内部私有数据,如果你问有关某公司的运营情况,直接基于模型参数生成的回答可能和胡说八道没什么两样。
RAG(Retrieval-Augmented Generation,检索增强生成)的思想就是将私有数据作为参考信息传递给LLM。这些私有数据除了作为一种补充信息,也可以作为一种限制,能避免LLM产生幻觉。

参考信息一般以文本、图片等非结构化形式存在。

RAG的流程是:

  1. 首先要将文本划分成片段,然后将片段转换成向量存储到向量数据库中备用,这个向量就是这段文本语义信息的数字表示。
  2. 将用户查询转换成向量,并与所有文本片段向量进行相似度计算,取出top k个片段。
  3. 将用户查询和k个文本片段组织成特定prompt格式输入到LLM中。

GraphRAG

但传统的RAG仍有一些限制。

例如,基于某个公司的运营数据搭建RAG,由于LLM上下文大小的限制,划分的文本片段不可能太大,所以每个文本片段不可能包含太多信息。

如果你问某个员工去年的销售业绩,基于RAG,LLM很可能会给出准确回答,因为某个文本片段很可能包含了某个员工的年终总结信息。但如果你问该员工所在团队去年的销售情况呢?就算某个文本片段包含了该团队的销售数据,LLM也很难通过该员工找到团队的其它成员。

微软最近提出的GraphRAG(Graph-based Retrieval Augmented Generation)就是解决这个问题。

GraphRAG就是将图和传统的RAG结合了起来

构造知识图谱#

图是由节点和边组成的,节点可以表示各种实体,边表示实体之间的关系。

GraphRAG的核心就是构造知识图谱,可以通过GPT4或者使用像llamaindex(KnowledgeGraphIndex)这样的库构造知识图谱。

将公司运营文档构造成知识图谱:

  1. 识别出文档中包含的实体以及实体之间的关系(员工,同事)
  2. 将实体进行聚类(同组同事)
  3. 对每个聚类进行总结(销售情况)
  4. 将实体进行向量化,转换到图向量空间
  5. 提取实体对应的原始文本,并转换成向量

查询#

当用户提问时,首先在知识图谱中找到与用户提问语义相关的实体,同时找到与实体相关的原始文本,最后将这些信息组织成特定prompt格式输入给LLM

如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才!如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?

与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份LLM大模型资料分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

二、640套LLM大模型报告合集

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

三、LLM大模型系列视频教程

四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)

LLM大模型学习路线

阶段1:AI大模型时代的基础理解

阶段2:AI大模型API应用开发工程

阶段3:AI大模型应用架构实践

阶段4:AI大模型私有化部署

这份LLM大模型资料包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

http://www.jsqmd.com/news/361762/

相关文章:

  • P0926GG FBM224通信接口模块
  • 说说2026年服务好的海关行政处罚,费用行情怎么收费 - myqiye
  • 串口接收,环形缓冲区+解析
  • 价格、资源、安全如何平衡?高性价比商标转让平台排名揭秘 - 资讯焦点
  • AAAI 2026这篇杰出论文说了什么?用LLM给CLIP换了个“聪明大脑”
  • 分析适配具身智能的空间智能公司,北京地区哪家口碑好又靠谱 - 工业推荐榜
  • 新手如何建立网站?2026年主流建站步骤与工具全指南
  • P0926GH FBM224接线端子
  • 基于信息间隙决策理论的综合能源系统优化调度IGDT探索
  • Ab3d.PowerToys 12.0 Crack
  • 暴雨夜 3 小时寻回被困布偶猫:上海专业找猫团队救援实录,真实绝了 - 资讯焦点
  • 与学习相关的技巧(超参数的验证)
  • 非标机械设计中设备的三伤验证
  • P0926GU FBM230通信模块
  • 霍尔传感器:绿电追溯困局的破局之钥
  • 2026年2月随州招聘/随州找工作/随州进厂/随州劳务外包服务TOP5品牌深度评测与选型指南 - 2026年企业推荐榜
  • 六 非标设备项目
  • 318. Java Stream API - 深入理解 Java Stream 的中间 Collector —— mapping、filtering 和 flatMapping
  • 2026年期货量化交易文档编写_代码注释与文档规范
  • 不怕行业冷,就怕找不到厂!天下工厂400万数据库,覆盖所有细分赛道
  • 基于python的麻辣烫餐馆管理系统[python]-计算机毕业设计源码+LW文档
  • 2026年期货量化交易最佳实践_从开发到部署的完整流程
  • 四川旅游旅行社怎么挑?认准这家老牌国企!2026成都出境游、九寨沟旅游首选指南 - 深度智识库
  • 基于python的猫眼电影数据可视化分析系统[python]-计算机毕业设计源码+LW文档
  • 编写阅读助手APP,上传书籍/文章,自动生成阅读摘要,提取核心观点,好词好句,支持标注阅读笔记,还能记录阅读时间,生成阅读打卡日历,适合阅读爱好者。
  • 2026 东莞英语雅思培训教育机构推荐、雅思培训课程中心权威口碑榜单 - 老周说教育
  • 编写编程学习助手,根据用户编程水平(新手/入门/进阶),编程语言(python/Java/C++),推荐合适的学习课程,练习题,项目,生成编程学习计划,还能在线运行代码。
  • PHP 8.x时代:性能、类型安全与开发者体验的革命性飞跃
  • 2026年期货量化交易代码重构_提升代码质量的实践方法
  • AI编程经验总结