当前位置：首页 > news >正文

KG与LLM：大模型时代的智能规划

news 2026/7/4 15:04:35

这些文章给出的“推荐思路”可以浓缩成一句话

先用 Planner 产出 subgoal + dependency + acceptance criteria。
再让 Router 判断每个子任务该走向量RAG、KG、数据库还是工具。
对需要关系、多跳、时序、因果的问题，用 KG / event graph 做结构化检索，而不是只做 chunk similarity。
执行后必须有独立 Verifier，失败时做 localized repair，不要整条链重跑。
长任务加 memory，把约束、证据、失败模式、已完成状态显式保存。

如果你现在要落地，我最推荐的架构

单 Planner：输出任务 DAG 和每步验收条件。
RAG Router：简单事实走文本检索，复杂关系走 KG，计算/执行走工具。
Graph Memory：至少保留 entity-event 或 entity-relation 图，不一定一开始就上重型知识图谱。
Verifier：每步检查格式、事实覆盖、约束满足和跨 agent 交接。
Repair Loop：只重做失败子任务，不全局重规划。

推理方式

LLM可以利用自然语言指令，利用海量常识知识，生成类人的推理过程。

1.思维链（Chain-of-Thought, CoT）

核心思想：引导大模型显式输出中间推理步骤，而不是直接给出答案
最简单实现：在提示词中加入 "让我们一步步思考"

2.思维树（Tree-of-Thought, ToT）（NeurIPS 2023）

核心思想：将单一的推理链扩展为树状结构，在每个步骤生成多个候选思路，通过评估和剪枝选择最优路径
四大关键环节：
1. 思维拆解：将问题分解为多个中间推理步骤
2. 候选生成：在每个步骤生成多个可能的思维
3. 状态评估：评估每个思维的可行性和前景
4. 搜索剪枝：保留有希望的分支，剪枝无希望的分支

https://arxiv.org/abs/2305.10601

3.思维图（Graph-of-Thought, GoT）

核心思想：将推理结构从树进一步扩展为图，支持思维的合并、循环和跳转

https://arxiv.org/abs/2308.09687

4.Plan-and-Solve 方法（ACL 2023）

核心思想：将任务分为两个独立阶段：
1. 规划阶段：一次性生成完整的任务计划，包括所有步骤和依赖关系
2. 执行阶段：按照计划逐步执行，每步验证结果

https://arxiv.org/abs/2305.04091

5.ReAct方法（ICLR 2023）

边想边做时用

https://arxiv.org/abs/2210.03629

6.图上的推理：忠实且可解释的大语言模型推理Reasoning on Graphs (RoG)（ICLR 2024）

知识图谱（KGs）以结构化格式捕捉大量事实，为推理提供了可靠的知识来源。然而，现有的基于KG的LLM推理方法仅将KG视为事实知识库，忽视了其结构信息在推理中的重要性。在本文中，我们提出了一种新方法，称为图上推理（RoG），它将LLMs与KGs协同作用，以实现忠实且可解释的推理。具体而言，我们提出了一个规划-检索-推理框架，其中RoG首先生成由KGs支撑的关系路径作为忠实的计划。这些计划随后用于从KGs检索有效的推理路径，以便LLMs进行忠实的推理。此外，RoG不仅通过训练从KGs中提炼知识以提高LLMs的推理能力，还允许在推理过程中与任何任意的LLMs无缝集成。在两个基准KGQA数据集上的广泛实验表明，RoG在KG推理任务上达到了最先进的性能，并生成了忠实且可解释的推理结果。
https://aclanthology.org/2023.acl-long.557/

7.StructGPT（EMNLP 2023）

大语言模型的能力边界能否扩宽到结构化数据，通过利用和理解结构化知识完成用户需求？我们的答案是：Yes！本文首次提出了一套统一通用的推理框架「StructGPT」以支持大语言模型在结构化数据上进行推理。

https://arxiv.org/abs/2305.09645

8.RAP

论文的框架通过重新利用LLM同时充当世界模型和推理agent，使LLM能够模拟世界状态并预测行动结果，并通过蒙特卡罗树搜索在探索和利用之间实现有效平衡。

https://arxiv.org/abs/2305.14992

9.LATS（ICML 2024）

Language Agent Tree Search（LATS）是一个综合了LLM在规划、执行和推理方面的能力的通用框架，利用了LLM的潜在优势以提高决策能力，并通过外部反馈的环境实现更加深思熟虑和适应性强的问题解决机制。
【方法】：LATS借鉴了模型驱动强化学习中的蒙特卡洛树搜索方法，将LLM用作agent，价值函数和优化器。

https://openreview.net/forum?id=njwv9BsGHF

10.MindMap（ACL 2024）

我们提出了一种名为 MindMap 的新型提示管道，它利用知识图谱（KG）来增强LLMs的推理和透明度。我们的方法使LLMs能够理解 KG 输入，并结合隐性和外部知识进行推断。

https://aclanthology.org/2024.acl-long.558/

RAG

1.GraphRAG

RAG，由于存在相似度阈值，一次检索时一般很难把三条文档全部都找到，所以大模型无法把这些信息都串起来，最终依旧会胡说八道。

GraphRAG 诞生了，它将知识图谱引入 RAG 流程，把知识表示成“节点 + 边”的形式，把不同文档中的实体及其关系连接起来。在查询时，不仅会查询出相似度最高的文档，还会基于知识图谱查询出与其关联的文档，因此大模型就能够拥有更加完整的上下文来回答问题。

先进行文本切分，实体与关系提取，构建图，社区检测与报告生成；再进行检索，局部检索，全局检索

https://www.microsoft.com/en-us/research/publication/from-local-to-global-a-graph-rag-approach-to-query-focused-summarization/

2.Self-RAG

Self-RAG的诞生就是为了解决这个核心矛盾：让模型自己判断什么时候需要查资料，什么时候不需要。

https://arxiv.org/abs/2310.11511

3.Retrieve-Plan-Generation（EMNLP 2024）

尽管大型语言模型（LLMs）在各种任务中取得了显著进步，但由于内部知识有限，它们常常产生事实错误。检索增强生成（RAG）通过外部知识源增强大型语言模型，提供了一个有前景的解决方案。然而，这些方法可能被检索文件中无关段落误导。由于LLM生成本身存在不确定性，输入整个文档可能会引入非主题信息，导致模型偏离中心主题，影响生成内容的相关性。为解决这些问题，我们提出了检索-计划-生成（RPG）框架。

https://aclanthology.org/2024.emnlp-main.270/

4.DeepSieve（Findings of EACL 2026）

DeepSieve是一个检索增强生成（RAG）框架，其设计旨在解决传统RAG模型难以应对的三大挑战：处理结构完全不同（异构）的知识源（如SQL表、JSON日志和维基百科）、需要多步骤推理的复杂（组合式）问题，以及处理无法合并的隐私感知数据源。为了应对这些挑战，DeepSieve引入了一套新颖的“信息筛选”流水线。该流程首先将一个复杂问题分解为多个具体的子问题；然后，利用大语言模型（LLM）作为一个智能“知识路由器”，为每个子问题匹配最合适的工具和知识库组合进行查询；如果某次检索失败，系统会启动反思机制并进行重试；最后，它将所有检索到的零散答案融合，生成一个全面的最终回复。这个框架的所有核心组件都是模块化的，允许用户根据具体需求开启或关闭，提供了高度的灵活性。

https://aclanthology.org/2026.findings-eacl.160/

5.DAVIS（Findings of EMNLP 2025）

与传统的检索增强生成（RAG）方法不同，DAVIS结合了结构化和时间记忆，支持基于模型的规划。此外，DAVIS实现了一个智能的多回合检索系统，类似于人类的内心独白，允许对过去经历进行更强的推理。

https://aclanthology.org/2025.findings-emnlp.895/

Agent

1. Verification-Aware Planning for Multi-Agent Systems （EACL 2026）

大型语言模型（LLM）代理越来越多地被用于处理复杂任务，通常需要多个专业代理之间的协作。然而，多智能体协作在规划、协调和验证方面带来了新的挑战。执行失败往往不仅仅源于推理错误，还源于任务解释、输出格式或代理间切换的细微错位。为3

https://aclanthology.org/2026.eacl-long.353/

2.PlanGEN（EMNLP 2025）

由于验证生成计划或推理的局限性以及单一任务中实例复杂度的不同，最新的代理框架和推理算法常常面临自然规划问题的困难。许多现有的这些任务方法要么在不考虑约束的情况下进行任务级验证，要么应用推理时间算法而不适应实例级复杂性。为解决这些局限性，我们提出了PlanGEN，一个模型无关且易于扩展的代理框架，包含三个关键组成部分：约束、验证和选择代理。具体来说，我们的方法提出了约束引导迭代验证，以提升推理时间算法——最佳N、思维树和REBASE等算法的性能。

https://aclanthology.org/2025.emnlp-main.1042/

3.LRPLAN（Findings of EMNLP 2025）

把 LLM 和更擅长约束推理的模型/agent 组合起来。

我们的目标是构建基于语言模型的多智能体系统，用于涉及多个显式和隐性约束的复杂规划问题，其中一些可能是常识。初步研究显示，大型语言模型（LLMs）往往无法在规划过程中保持一致性，而大型推理模型（LRM）则难以处理隐含的常识约束。为此，我们引入了LRPlan，一种新型的领域无关、基于语言的多智能体架构，LLM和基于LRM的智能体在训练时协作，抽象重要的模式、启发式和领域的洞察。在测试阶段，他们协作实现这些学习到的模式和洞见，用于新的规划实例。我们在两个数据集TravelPlanner和TimeArena-Static上进行实验，并使用来自GPT和DeepSeek家族的两种LLM-LRM组合。我们发现LRPlan优于多种多代理和单代理基线，获得了显著更高的准确性和成本效益。我们将代码公开。

https://aclanthology.org/2025.findings-emnlp.440/

4. SYMPHONY（NeurIPS 2025 ）

不同 agent 负责不同搜索分支或不同推理风格。

近年来，越来越多的进展聚焦于利用大型语言模型（LLMs）构建用于复杂问题解决任务的自主智能体。然而，现有方法主要采用单智能体框架来生成搜索分支并在蒙特卡洛树搜索（MCTS）规划过程中估算奖励。这种单代理范式本质上限制了探索能力，常导致生成分支之间多样性不足，规划性能不理想。为克服这些限制，我们提出了与异构语言模型组装的协同多代理规划（SYMPHONY），这是一种新型多代理规划框架，集成了基于异构语言模型的代理池。通过利用不同代理间的多样推理模式，SYMPHONY增强了推广的多样性，促进了更有效的探索。多项基准测试任务的实证结果表明，即使SYMPHONY与可部署于消费级硬件上的开源LLM实例化，也能实现强劲性能。通过API访问云端LLM增强后，SYMPHONY进一步提升，超越现有最先进的基线，凸显异构多智能体协调在规划任务中的有效性。

https://arxiv.org/abs/2601.22623

5.EvoMem

长程任务里，把约束、失败经验、时序状态显式存起来。

规划一直是人工智能解决复杂问题的基石，基于LLM的多智能体框架的最新进展开始扩展这一能力。然而，类人记忆在这些框架中的作用仍大多未被充分探讨。理解智能体如何通过记忆协调对自然语言规划至关重要，迭代推理、约束跟踪和纠错是成功的关键。受认知心理学工作记忆模型启发，我们提出了EvoMem，这是一个基于双重进化记忆机制的多智能体框架。该框架由三个代理（约束提取器、验证器和演员）和两个内存模块组成：约束内存（CMem），通过在查询中固定存储任务特定的规则和约束来演进;以及查询反馈内存（QMem），通过在迭代中累积反馈以优化解决方案。两个内存模块在每次查询会话结束时都会重置。关于行程规划、会议规划和日程安排的评估显示了持续的性能提升，凸显了EvoMem的有效性。这一成功凸显了记忆在增强多智能体规划中的重要性。

https://arxiv.org/abs/2511.01912

6.CausalPlan

长程任务里，把约束、失败经验、时序状态显式存起来。

大型语言模型（LLM）代理——尤其是较小的开源模型——由于依赖表层关联而非扎实的因果推理，在协作任务中常常产生因果无效或不连贯的行为。这一限制削弱了他们在动态环境中的协调和规划表现。我们通过CausalPlan解决了这一挑战，这是一个两阶段框架，将显式结构性因果推理整合进LLM规划过程。CausalPlan的核心是结构性因果行为（SCA）模型，该模型从代理轨迹中学习因果图，以捕捉先前行动和当前环境状态如何影响未来决策。该结构随后通过为LLM生成的提案分配因果分数、相应权重，或在需要时回归因果基础的替代方案来指导行动选择。通过将因果知识直接嵌入决策循环，CausalPlan将规划限制为干预一致的行为，而无需对LLM本身进行微调。我们在 Overcooked-AI 基准测试中评估了 CausalPlan，涵盖五个多智能体协调任务和四个不同规模的大型语言模型：Gemma-7B、Llama-8B、Qwen-14B 和 Llama-70B。实验结果显示，CausalPlan在AI-AI和人-AI环境中持续减少无效行为，并提升协作能力，优于强强化学习基线。我们的发现凸显了因果驱动规划在部署高效、可解释且可推广的多智能体LLM系统中的价值。

https://arxiv.org/abs/2508.13721

RAG与KG结合

1. Knowledge Graph-Guided Retrieval Augmented Generation（NAACL 2025）

KG 不再只是附属索引，而是参与 chunk 扩展、组织、时序/因果约束。

检索增强生成（RAG）已成为解决大型语言模型（LLMs）反应中幻觉问题的有前景技术。现有关于RAG的研究主要聚焦于应用语义方法检索孤立的相关片段，这些片段忽略了其内在关系。本文提出了一种新的知识图谱引导增强生成（KG）2利用知识图（KG）提供块之间的事实层级关系，提升检索结果的多样性和连贯性。具体来说，在进行语义检索以提供种子块后，KG2RAG采用KG引导的块扩展过程和基于KG的块组织过程，以结构良好的段落传递相关且重要的知识。对HotpotQA数据集及其变体进行的广泛实验展示了HotpotQA的优势2在响应质量和检索质量方面，RAG与现有基于RAG的方法相比。

https://aclanthology.org/2025.naacl-long.449/

2.FRAG（Findings of ACL 2025）

为了缓解大型语言模型（LLM）中的幻觉和知识缺失，基于知识图谱（KG）的检索增强生成（RAG）通过利用知识图谱作为外部资源来增强LLM推理，展现出有前景的潜力。然而，现有的KG-RAG方法在灵活性与检索质量之间存在权衡。模块化方法通过避免在检索过程中使用KG微调模型来优先考虑灵活性，导致固定检索策略和次优检索质量。相反，耦合方法在模型中嵌入 KG 信息以提升检索质量，但代价是灵活性。本文提出了一种新型灵活模块化的KG-RAG框架，称为FRAG，结合了两种方法的优势。FRAG仅基于查询估计推理路径的跳跃范围，并将其分为简单或复杂。为匹配查询的复杂性，采用定制化的流程，确保推理路径检索高效且准确，从而促进最终推理过程。通过使用查询文本而非 KG 推断推理路径的结构信息，并采用可适应的检索策略，FRAG 提高了检索质量，同时保持了灵活性。此外，FRAG无需额外的LLM微调或调用，显著提升效率并节省资源。大量实验表明，FRAG实现了最先进的性能，同时高效且资源消耗低。我们方法的代码公开于 https://github.com/gzy02/FRAG。

https://aclanthology.org/2025.findings-acl.321/

3.Respecting Temporal-Causal Consistency: Entity-Event Knowledge Graph for Retrieval-Augmented Generation（EACL 2026）

基于大型语言模型的检索增强生成（RAG）在具有固有时间结构的叙述文档中常常表现不佳。标准的非结构化RAG方法仅依赖嵌入相似性匹配，缺乏编码或利用时间顺序信息的通用机制，而知识图谱RAG（KG-RAG）框架则将每个实体提及压缩到单一节点，抹去驱动众多查询的不断演变的上下文。为了形式化这一挑战并引起社区关注，我们构建了ChronoQA，一个稳健且具有判别性的QA基准，衡量RAG框架下叙事文档（如小说）中时间、因果和人物一致性的理解。然后我们引入实体-事件RAG（E2RAG）是一种双图框架，通过二分映射将独立的实体和事件子图连接起来，从而保留了细粒度推理所需的时间和因果方面。在ChronoQA中，我们的方法优于最先进的非结构化和基于KG的RAG基线，在因果和字符一致性查询方面取得了显著提升。E2因此，RAG为需要基于时间顺序信息的精确答案的任务提供了一条更具上下文感知性的实用路径。

查看全文

http://www.jsqmd.com/news/807083/