当前位置：首页 > news >正文

AI知识图谱生成器实战：从文本到结构化洞察的完整指南

news 2026/5/4 2:47:15

1. 从文本到洞察：AI知识图谱生成器的实战拆解

最近在整理一些行业报告和学术论文时，我遇到了一个老问题：面对动辄几十上百页的文档，如何快速理清其中的核心概念、人物、事件以及它们之间错综复杂的关系？手动梳理不仅耗时耗力，还容易遗漏关键联系。传统的思维导图工具虽然有用，但依然需要人工阅读和提炼，效率瓶颈明显。

就在我为此头疼时，我发现了 robert-mcdermott 开源的ai-knowledge-graph项目。这个工具的核心思路非常吸引人：它利用大语言模型，自动从非结构化的文本中提取“主体-谓词-客体”三元组，并构建成一个可交互的知识图谱。简单来说，就是你给它一篇文档，它帮你把文档里的“谁”、“做了什么”、“和谁有关”这些信息抽出来，画成一张关系网。这听起来就像是给文本分析装上了“自动驾驶”系统。

我花了一周时间，把这个项目从源码到应用彻底跑了一遍，用它处理了技术白皮书、历史资料甚至产品说明书。实测下来，它确实能大幅提升信息梳理的效率，尤其适合研究人员、内容分析师、产品经理或者任何需要深度消化长文档的朋友。但和所有工具一样，想要用好它，光知道命令怎么敲可不够，你得理解它每一步在干什么，以及怎么根据你的数据“调教”它。接下来，我就结合自己的实操经验，把这个项目的里里外外给你讲透。

2. 核心架构与设计哲学：为什么是“分而治之”？

拿到一个开源项目，我习惯先看它的设计思路，这比直接看代码更重要。ai-knowledge-graph的设计清晰地体现了处理复杂问题的“分而治之”策略。它没有试图让 LLM 一口气读完整个长文档并吐出完美的图谱——这既不现实（受限于上下文长度），效果也难以保证（容易产生幻觉或遗漏）。相反，它将整个过程拆解为四个逻辑严密的阶段，每个阶段解决一个子问题，最终串联成完整流程。

2.1 四阶段流水线解析

第一阶段是文本分块与初始三元组提取。这是整个流程的基石。项目不会把整篇文档扔给 LLM，而是先用一个简单的滑动窗口算法，将文本切成固定大小（比如200词）且有重叠（比如20词）的片段。这么做的原因有两个：一是绕过 LLM 的上下文长度限制；二是让 LLM 能更专注地分析局部语境，提高实体和关系提取的准确性。每个文本块被独立送入 LLM，由 LLM 识别其中的实体（主体和客体）以及连接它们的关系（谓词）。

第二阶段是实体标准化。想象一下，在第一阶段中，LLM 可能在文档的不同位置，将“人工智能”、“AI”、“Artificial Intelligence”识别为三个不同的实体。但实际上，它们指向同一个概念。如果不对这些实体进行归一化，生成的知识图谱就会充满冗余节点，变得支离破碎。实体标准化阶段就是来解决这个问题的。它通过文本规范化（如统一大小写、去除冠词）和可选的 LLM 辅助对齐，将这些同义异名的实体合并，确保图谱的简洁性和一致性。

第三阶段是关系推理。即使经过前两阶段，我们得到的可能还是一个“群岛”式的图谱——几个内部连接紧密但彼此孤立的子图。这是因为原文可能没有明确提及某些跨段落或跨章节的实体间关系。关系推理阶段的目标就是“架桥”，通过规则（如传递性推理：A是B的创始人，B是C的母公司，可推断A与C存在关联）和 LLM 的常识推理能力，在这些孤立的“社区”之间建立合理的连接，从而形成一个全局连通、更具洞察力的知识网络。

第四阶段是可视化呈现。数据最终需要被人类理解。项目使用PyVis库生成交互式 HTML 页面。这里的设计亮点在于，它不仅仅是把节点和边画出来，还融入了图计算的思想：节点大小通常由中心性指标（如度中心性）决定，重要实体一目了然；节点颜色代表通过社区发现算法（如 Louvain 方法）识别出的不同主题集群；实线代表原文提取的关系，虚线则代表推断出的关系。这种视觉编码让图谱的结构和重点跃然纸上。

2.2 配置驱动的灵活性

这个项目的另一个优秀设计是高度的可配置性。所有核心参数，从 LLM 的型号、温度，到分块大小、是否启用标准化和推理，都通过一个config.toml文件集中管理。这意味着你可以轻松地在“精度优先”和“成本/速度优先”之间做权衡。

实操心得：配置是调优的关键。处理严谨的学术论文时，我会把temperature调低（如0.1），并启用所有标准化和推理选项，以求结果的准确和完整。而在快速浏览市场报告、只需抓取核心关系时，我可能会关闭推理 (inference.enabled = false)，并增大分块尺寸以减少 LLM 调用次数，速度能快上好几倍。

3. 环境搭建与核心依赖详解

工欲善其事，必先利其器。这个项目基于 Python 3.11+，依赖管理清晰。你可以用传统的pip，也可以用更现代的uv。我个人更推荐uv，它在创建虚拟环境和依赖解析上速度更快，能避免很多环境冲突的坑。

3.1 一步到位的环境准备

假设你已经安装了 Python 3.11 或更高版本，以下是快速上手的命令：

# 克隆项目仓库 git clone https://github.com/robert-mcdermott/ai-knowledge-graph.git cd ai-knowledge-graph # 方法一：使用 uv（推荐） # 安装 uv（如果尚未安装） curl -LsSf https://astral.sh/uv/install.sh | sh # 同步依赖并进入虚拟环境 uv sync source .venv/bin/activate # Linux/macOS # 或 .venv\Scripts\activate # Windows # 方法二：使用 pip python -m venv .venv source .venv/bin/activate # 或 .venv\Scripts\activate pip install -r requirements.txt

核心依赖库主要有以下几个，了解它们有助于排查问题：

openai/litellm: 用于与 LLM API 交互。litellm是个神器，它统一了众多云厂商和本地模型的 API 格式。
networkx: 图计算库，负责在内存中构建、分析知识图谱，计算中心性、检测社区等。
pyvis: 基于 Vis.js 的库，用于将networkx图对象渲染成炫酷的交互式网页。
toml: 用于解析配置文件。
tqdm: 在控制台显示进度条，处理长文档时能让你知道进度。

3.2 LLM 后端配置：本地与云端的选择

项目的强大之处在于它对任何OpenAI 兼容 API的支持。这意味着你的选择极其灵活：

本地模型（性价比/隐私首选）：使用Ollama或LM Studio在本地电脑运行开源模型。
- 配置示例 (config.toml):
```
[llm] model = "qwen2.5:7b" # 或 "llama3.2"，"gemma2:2b" 等 base_url = "http://localhost:11434/v1" # Ollama 的默认地址 api_key = "not-needed" # 本地运行通常不需要 key max_tokens = 4096 temperature = 0.2
```
- 优势：完全免费，数据不出本地，适合处理敏感文档。
- 注意：需要你的电脑有足够内存（7B模型约需14GB以上）。temperature设置低一些（0.1-0.3）可以减少模型的“胡言乱语”。
云端 API（省心/能力最强）：使用 OpenAI GPT、Anthropic Claude 或通过LiteLLM代理的 Azure、Bedrock 等服务。
- 配置示例:
```
[llm] model = "gpt-4o-mini" # 或 "claude-3-haiku"，"azure/gpt-35-turbo" base_url = "https://api.openai.com/v1" # 如果使用 LiteLLM，可能是 "http://localhost:4000" api_key = "sk-your-actual-key-here" # 务必保管好！
```
- 优势：模型能力强，提取准确度高，无需担心本地算力。
- 成本提示：处理长文档（数十万字）可能会产生数美元的 API 调用费用。可以通过调整chunk_size来平衡成本与效果。

避坑指南：API 连接测试。在投入大量文本处理前，务必先做个测试。你可以创建一个仅包含一两句话的test.txt文件，然后运行命令。观察控制台输出，如果卡在“Processing chunk”很久或报错，很可能是base_url或api_key配置有误。对于本地 Ollama，确保模型已正确拉取 (ollama pull qwen2.5:7b)。

4. 从零到一：生成你的第一个知识图谱

环境配好了，我们来实战操作一遍。我以一个关于“电动汽车发展”的简短段落为例，让你感受完整流程。

4.1 准备输入与配置文件

首先，创建一个名为ev.txt的文本文件，内容如下：

特斯拉公司由马丁·艾伯哈德和马克·塔彭宁于2003年创立，埃隆·马斯克随后加入并领导了公司。特斯拉推出了Model S、Model 3等车型，推动了电动汽车的普及。电池技术是电动汽车的核心，宁德时代是主要的电池供应商。自动驾驶功能依赖于人工智能和传感器融合技术。充电网络的建设，如特斯拉超级充电站，缓解了用户的里程焦虑。

接着，调整config.toml，这里我们为了快速测试，使用本地 Ollama 的轻量模型：

[llm] model = "qwen2.5:1.5b" # 一个小参数模型，速度快 api_key = "not-needed" base_url = "http://localhost:11434/v1" max_tokens = 2048 temperature = 0.1 # 低温度，追求确定性输出 [chunking] chunk_size = 50 # 文本短，分块也可以小 overlap = 10 [standardization] enabled = true use_llm_for_entities = false # 首次测试，先关闭LLM标准化以简化流程 [inference] enabled = true use_llm_for_inference = false # 先关闭LLM推理 apply_transitive = true # 启用基于规则的传递推理

4.2 运行生成命令

打开终端，在项目目录下运行：

uv run generate-graph.py --input ev.txt --output my_first_kg.html --debug

这里使用了--debug参数，这非常有用，它会在控制台打印出 LLM 的原始回复和提取的 JSON，方便你诊断问题。

4.3 解读控制台输出

运行后，你会看到类似下面的分阶段输出：

PHASE 1: INITIAL TRIPLE EXTRACTION Processing text in 3 chunks... Processing chunk 1/3... Extracted triples: [{'subject': '特斯拉公司', 'predicate': '创立于', 'object': '2003年'}, ...] ... Extracted a total of 12 triples from all chunks. PHASE 2: ENTITY STANDARDIZATION Standardizing entity names... After standardization: 12 triples and 10 unique entities. PHASE 3: RELATIONSHIP INFERENCE Inferring additional relationships... Applied transitive inference: (特斯拉公司 -> 推出 -> Model S) + (Model S -> 是 -> 电动汽车) => (特斯拉公司 -> 推出 -> 电动汽车) Added 2 inferred relationships. Final knowledge graph: 14 triples. PHASE 4: VISUALIZATION Knowledge graph visualization saved to my_first_kg.html. Graph Statistics: {"nodes": 10, "edges": 14, "original_edges": 12, "inferred_edges": 2}

关键信息解读：

初始提取：从3个文本块中抽出了12个三元组。
实体标准化：将实体数从可能更多合并为了10个唯一实体。
关系推理：通过传递规则，自动推断出了2条新关系（例如，因为特斯拉推出了Model S，而Model S是电动汽车，所以系统推断“特斯拉推出电动汽车”）。
最终图谱：共包含10个节点和14条边。

4.4 分析与交互可视化

用浏览器打开生成的my_first_kg.html。你应该能看到一个交互式网络图。

节点：代表实体，如“特斯拉公司”、“埃隆·马斯克”、“电池技术”、“人工智能”。节点大小可能不同，连接数多的节点（如“特斯拉公司”）会更大。
边：代表关系，悬停在边上会显示具体的谓词，如“领导”、“依赖于”、“是主要供应商”。
社区颜色：算法可能将“特斯拉公司”、“Model S”、“埃隆·马斯克”染成同一颜色（汽车制造相关），将“人工智能”、“传感器融合”染成另一颜色（技术相关）。
虚线：代表推断出的关系，如“特斯拉公司 — 推出 — 电动汽车”。

你可以用鼠标拖拽节点、滚轮缩放、点击节点高亮其连接。尝试点击图例中的“Inferred Edges”可以切换虚线的显示，这能帮你区分哪些是原文明确提到的，哪些是系统推断的。

实操心得：从简单文本开始。强烈建议你第一次运行时，就像我上面这样，用一个自己编写的、结构清晰的短文本。这能帮你快速验证整个流程是否通畅，并直观地理解每个阶段对最终图谱产生了什么影响。如果直接用上百页的PDF去试，一旦出问题，排查起来会困难得多。

5. 处理长文档的进阶策略与参数调优

当你对基本流程熟悉后，就可以挑战真正的长文档了，比如一篇几十页的行业分析 PDF。这里面的门道就多了。

5.1 分块策略的权衡艺术

chunk_size和overlap是影响提取效果和成本的最关键参数。

chunk_size(分块大小)：决定了每次送入 LLM 的文本量。太小（如50词），会割裂完整的句子或语境，导致 LLM 提取的关系碎片化。太大（如500词），可能超出模型上下文，且 LLM 可能无法有效关注到文本块内部的所有细节。我的经验起点是 150-250 词，这个范围对大多数模型来说既能容纳一定语境，又不会信息过载。
overlap(重叠词数)：用于防止实体和关系在分块边界处被切断。例如，一个重要的关系可能主语在块A的末尾，宾语在块B的开头。没有重叠，这个关系就会丢失。重叠通常设为chunk_size的 10%-20%。但重叠意味着同一段文本会被多次处理，增加了 LLM 调用次数和成本。

调整建议：处理技术文档时，概念密集，句子较长，我倾向于使用chunk_size=200, overlap=30。处理新闻或叙事性文本时，段落较短，语境转换快，可以用chunk_size=150, overlap=20。

5.2 启用高级特性：LLM辅助的标准化与推理

在基础测试中，我们关闭了use_llm_for_entities和use_llm_for_inference。但对于复杂的长文档，这两个功能能极大提升图谱质量。

LLM 实体标准化：当你的文档中同义词、缩写、全称混用时，简单的文本规范化就不够了。启用此功能后，系统会将所有实体列表交给 LLM，问它：“以下哪些实体指的是同一个东西？” LLM 利用它的常识来回答，比如它能识别“AI”、“A.I.”、“人工智能”、“Artificial Intelligence”应被归一化为“人工智能”。配置：use_llm_for_entities = true。注意：这会额外消耗一次 LLM 调用。
LLM 关系推理：这是让图谱从“连接已知”到“发现未知”的关键。系统先用图算法找出几个互不连通的子图（社区），然后从每个社区挑几个代表实体，问 LLM：“基于常识，实体A和实体B之间可能存在什么关系？” 例如，在“工业革命”文档中，它可能将“蒸汽机”社区和“纺织厂”社区连接起来，推断出“蒸汽机为纺织厂提供了动力”。配置：use_llm_for_inference = true。注意：这是最耗资源也最慢的步骤，但生成的关系往往最有洞察力。

5.3 处理超长文档的实用技巧

预处理文本：ai-knowledge-graph接收的是纯文本文件。如果你的源文件是 PDF、Word 或网页，需要先用其他工具（如pypdf、python-docx、beautifulsoup）将其转换为干净的文本。去除页眉页脚、参考文献、无关图片的标注，能让 LLM 更专注于主体内容。
分阶段处理：对于极长的书稿，可以按章节分别生成知识图谱，最后再思考如何合并或对比。直接处理百万字文本，对内存和 LLM 调用都是挑战。
关注统计信息：运行完成后，控制台输出的统计信息（节点数、边数、社区数）是重要的质量参考。如果“推断边数”远大于“原始边数”，说明文档内在联系隐含，推理功能发挥了很大作用。如果节点数异常多，可能需要检查实体标准化是否生效。

6. 提示工程：如何让LLM更好地理解你的领域

项目的核心能力依赖于 LLM 从文本中提取三元组。它在src/knowledge_graph/prompts.py文件中定义了一系列“提示词”（Prompt）。理解并微调这些提示词，是让工具适应你特定领域文档的“秘籍”。

6.1 核心提示词剖析

打开prompts.py，你会看到几个关键函数：

get_extraction_prompt(text_chunk): 这是用于第一阶段三元组提取的提示词。它指示 LLM 扮演一个“信息提取专家”，从给定文本中找出 SPO 三元组，并以严格的 JSON 格式返回。它的质量直接决定了初始图谱的准确性。
get_standardization_prompt(entities): 用于 LLM 辅助实体标准化。它要求 LLM 对给定的实体列表进行分组。
get_inference_prompt(entity1, entity2): 用于 LLM 辅助关系推理。它要求 LLM 基于常识，推测两个实体间可能的关系。

6.2 如何定制提示词

假设你处理的不是通用文本，而是医学文献，里面充满了专业术语和特定的关系类型（如“抑制”、“表达”、“副作用”）。你可以修改get_extraction_prompt，让 LLM 更关注这些领域特定关系。

修改前（片段）:

def get_extraction_prompt(text_chunk): return f"""You are an expert information extractor. Extract ALL subject-predicate-object (SPO) triplets from the following text. ... List of common predicates: 'is a', 'part of', 'located in', 'created by', 'used by', 'invented', 'discovered', 'affects', 'causes', 'has property', 'is property of', 'is same as', 'different from', 'related to', 'opposite of', 'before', 'after', 'enables', 'prevents', 'influences', 'impacts', 'depends on', 'derived from', 'contains', 'belongs to', 'works with', 'collaborated with', 'studied', 'published', 'developed', 'designed', 'built', 'founded', 'established', 'owns', 'operates', 'produces', 'manufactures', 'sells', 'buys', 'measures', 'calculated as', 'equals', 'greater than', 'less than'. ... """

修改后（针对医学领域）:

def get_extraction_prompt(text_chunk): return f"""You are an expert biomedical information extractor. Extract ALL subject-predicate-object (SPO) triplets from the following text, with a focus on biomedical interactions and properties. ... Pay special attention to predicates common in biomedical literature such as: 'inhibits', 'activates', 'binds to', 'expresses', 'mutates', 'causes disease', 'treats', 'is a symptom of', 'is a risk factor for', 'interacts with', 'regulates', 'upregulates', 'downregulates', 'metabolizes', 'is metabolized by', 'has side effect', 'is contraindicated with', 'is dosage of', 'is target of', 'is biomarker for'. If a relationship is clearly biomedical (e.g., 'Drug A inhibits Protein B'), use the specific predicate. For general relationships, use the common list. ... """

重要提示：修改提示词后，你需要重新安装模块（pip install -e .）或确保 Python 使用的是修改后的源码。提示词的微调需要反复测试，观察提取结果的变化。可以从一个小的、有代表性的文本片段开始测试。

7. 可视化定制：让你的图谱更清晰、更专业

默认生成的 HTML 可视化已经不错，但有时你可能需要调整样式或交互行为，以更好地呈现或嵌入报告。可视化逻辑主要在src/knowledge_graph/visualization.py中。

7.1 调整视觉参数

你可以在visualization.py的_get_visualization_options函数中找到 PyVis 的配置字典。这里是一些常用的调整项：

节点物理效果："physics"下的配置控制着图的布局动态。如果节点乱飞或过于拥挤，可以调整：

options = { "nodes": { "font": {"size": 14, "face": "Tahoma"}, "shape": "dot", # 可改为 "box", "diamond", "star" 等 }, "edges": { "smooth": {"type": "continuous"}, # 边为曲线 "arrows": {"to": {"enabled": True, "scaleFactor": 0.5}}, # 显示方向箭头 }, "physics": { "enabled": True, "stabilization": {"enabled": True, "iterations": 200}, # 增加迭代使布局更稳定 "barnesHut": { "gravitationalConstant": -2000, # 负值越大，节点排斥力越强，图更舒展 "centralGravity": 0.1, # 中心引力，值越大节点越向中心聚拢 "springLength": 150, # 边的理想长度 "damping": 0.09 # 阻尼系数，影响动画停止速度 } }, "interaction": {"hover": True, "tooltipDelay": 200}, }

生成图谱后，在网页上也可以实时调整这些物理参数，找到满意的布局后点击“Generate options”按钮，可以把配置代码复制出来，直接贴到源码里，以后生成就固定了。

颜色与主题：社区颜色是自动分配的。如果你想手动指定某类节点的颜色，可以在_add_nodes_and_edges_to_network函数中，根据节点的属性（比如，你可以给所有“人物”实体一个颜色，所有“技术”实体另一个颜色）来设置node["color"]属性。

7.2 导出数据以供他用

有时你需要的不是可视化，而是图谱数据本身，用于进一步的分析（比如用 Gephi 做更复杂的网络分析，或导入数据库）。项目在运行时会自动生成一个与 HTML 同名的.json文件（如knowledge_graph.json）。

这个 JSON 文件结构清晰，包含了所有节点、边（含类型）、以及图的统计信息。你可以用 Python 的json库轻松加载它：

import json import networkx as nx with open('industrial-revolution-kg.json', 'r') as f: kg_data = json.load(f) # 访问节点和边 nodes = kg_data['nodes'] # 列表，每个元素是节点信息字典 edges = kg_data['edges'] # 列表，每个元素是边信息字典，包含source, target, label, type等 # 可以用networkx重新构建图 G = nx.DiGraph() for node in nodes: G.add_node(node['id'], label=node['label'], group=node.get('group')) for edge in edges: G.add_edge(edge['source'], edge['target'], label=edge['label'], type=edge['type']) # 现在你可以进行任何图分析了 print(f"网络密度: {nx.density(G)}") print(f"平均最短路径长度: {nx.average_shortest_path_length(G)}")

8. 常见问题排查与性能优化实战录

在实际使用中，你肯定会遇到各种问题。下面是我踩过的一些坑和解决方案。

8.1 问题排查清单

问题现象	可能原因	排查步骤与解决方案
运行后无输出或立即退出	1. 依赖未正确安装。 2. 配置文件路径错误或格式不对。 3. Python 版本过低。	1. 确认虚拟环境已激活，用`pip list`或`uv pip list`检查核心包（openai, networkx, pyvis）是否存在。 2. 检查`config.toml`文件是否存在，且是有效的 TOML 格式（可以用在线校验器）。 3. 运行`python --version`确认版本 ≥ 3.11。
卡在 “Processing chunk 1/XX” 长时间不动	1. LLM API 无法连接或超时。 2. 模型名称错误。 3. 本地 Ollama 模型未下载。	1. 检查`base_url`和`api_key`。对于本地 Ollama，在浏览器访问`http://localhost:11434/api/tags`看是否返回模型列表。 2. 确认`model`名称与 API 提供商支持的完全一致（大小写敏感）。 3. 对于 Ollama，运行`ollama list`确认模型已存在，否则用`ollama pull <model-name>`拉取。
控制台报错`JSONDecodeError`	LLM 的回复不符合预期的 JSON 格式。	1. 使用`--debug`参数运行，查看 LLM 返回的原始文本。通常是因为提示词被模型误解，或模型“说”了多余的话。 2. 尝试降低`temperature`到 0.1 或 0，增加输出的确定性。 3. 如果使用小参数模型（如 1B, 2B），它们遵循指令的能力较弱，建议换用更大或更擅长指令跟随的模型（如`qwen2.5:7b`,`llama3.2:3b`）。
生成的图谱节点过多，关系杂乱	1. 分块太小，导致提取过于碎片化。 2. 实体标准化未生效或效果差。 3. 原始文本质量差，噪声多。	1. 增大`chunk_size`，让 LLM 在更完整的语境下工作。 2. 确保`standardization.enabled = true`。对于复杂文档，尝试开启`use_llm_for_entities`。 3. 预处理输入文本，去除无关的列表、广告、版权声明等非主体内容。
图谱过于稀疏，社区间无连接	1. 关系推理功能未启用或效果不佳。 2. 文档本身主题分散，关联性弱。	1. 确保`inference.enabled = true`。尝试开启`use_llm_for_inference`让 LLM 进行跨社区推理。 2. 检查`apply_transitive`是否开启，它能基于现有关系推导出新关系。 3. 这有时不是工具问题，而是文档特性的真实反映。
HTML 文件打开空白或样式错乱	1. PyVis 生成的 HTML 需要网络加载 Vis.js 库。 2. 浏览器安全策略阻止加载本地资源。	1.这是最常见原因。PyVis 默认从 CDN 加载 Vis.js。确保生成图谱的电脑在打开 HTML 时有网络连接。如果必须离线使用，需要修改模板，将 Vis.js 库本地化，这需要修改`templates/graph_template.html`。
处理速度非常慢	1. 使用云端 API，网络延迟高。 2. 文档过长，分块太多。 3. 启用了 LLM 辅助的标准化和推理。	1. 考虑使用本地模型以消除网络延迟。 2. 适当增大`chunk_size`以减少总块数（但注意不能超过模型上下文）。 3. 对于初步探索，可以先关闭`use_llm_for_entities`和`use_llm_for_inference`，它们是最耗时的步骤。

8.2 性能与成本优化技巧

分层处理策略：对于超长文档，不要追求一步到位。可以先以较大的chunk_size（如 300）和关闭高级功能快速跑一遍，得到一个概览图谱。然后针对你感兴趣的子图（社区）对应的原文段落，再用更小的分块和开启 LLM 推理进行精细提取。这就像先看地图找区域，再拿放大镜细看。
模型选型：精度和速度/成本需要权衡。gpt-4提取最准但贵且慢；gpt-3.5-turbo性价比高；本地模型如qwen2.5:7b或llama3.2:3b在指令跟随上已经相当不错，且零成本。多试几个，找到适合你任务和预算的“甜点”模型。
缓存中间结果：项目目前每次运行都会重新调用 LLM。如果你需要反复调整可视化参数或推理设置，可以修改代码，将第一阶段提取出的原始三元组保存下来。这样后续调整时，可以直接从这些三元组开始，跳过昂贵的 LLM 提取步骤。
并行处理：项目是顺序处理每个文本块的。理论上，如果 API 允许（注意速率限制），可以将文本块列表并发地发送给 LLM，能大幅缩短总时间。但这需要修改llm.py中的调用逻辑，加入异步或线程池处理。

这个项目为我打开了一扇新的大门，让我意识到 LLM 不仅仅是聊天和写作的工具，更能成为我们理解和结构化复杂信息的强大助手。将非结构化的文本转化为可视化的知识网络，这一过程本身就能激发新的洞察和连接。当然，它不是一个全自动的魔法黑盒，输出的质量很大程度上依赖于输入文本的清晰度、提示词的引导以及合理的参数配置。把它当作一个需要你与之协作的“思考伙伴”，而不是一个替代你思考的“答案机器”，你就能从它那里获得最大的价值。最后一个小建议，定期关注项目的 GitHub 页面，开源社区的力量常常会带来意想不到的改进和新功能。

查看全文

http://www.jsqmd.com/news/748166/