当前位置：首页 > news >正文

TCM-DiffRAG: 基于知识图谱和思维链的中医个性化辨证论治推理方法

news 2026/3/27 0:01:42

摘要：本研究提出TCM-DiffRAG框架，通过整合知识图谱与思维链技术，显著提升大语言模型在中医诊疗场景中的表现。实验表明，该方法在三个测试集上均取得突破性成果，尤其在个性化辨证任务中，准确率从0.038提升至0.356。这为传统中医与人工智能深度融合开辟了新路径。

阅读原文或https://t.zsxq.com/VWVUe获取原文pdf

一、研究背景与挑战

自2022年底以来，大语言模型（LLMs）在医疗领域展现出巨大潜力。然而，尽管通用LLMs在医疗自然语言处理任务中表现出色，但在专业性和准确性方面仍远未达到专家水平，有时甚至会产生误导性内容。

中医诊疗面临独特挑战。不同于现代医学关注疾病本身，中医的核心在于"辨证论治"——通过分析症状和体征来确定机体的根本性失调。中医辨证理论包括八纲、脏腑、经络、气血或三焦等多种体系，不同流派如经方派、土派、温病派在具体诊疗过程中存在显著差异，形成"同病异治"和"异病同治"的局面。

现有的检索增强生成（RAG）技术在中医临床场景中遭遇诸多困境：

推理复杂性高
：中医临床问题涉及大量潜在推理，传统嵌入模型只能匹配表面相似文本，无法识别潜在逻辑结构
知识库局限
：RAG知识库多源自教科书，理论性强但与实际临床实践存在差距
个性化不足
：难以反映不同中医流派的诊疗思维差异

二、TCM-DiffRAG创新方法论

2.1 双层次通用知识图谱构建

研究团队收集了580部中医经典著作、名医医案等文献，提出"宏观-微观"知识图谱构建方法。

宏观层面：利用文档布局模型识别PDF每页元素，提取标题及对应段落文本，构建类似树状图的知识图谱。节点由书籍标题组成，节点关系通过标题的父子结构自动生成。

微观层面：使用大语言模型从段落文本中提取实体和关系。宏观标题节点作为结构枢纽，与微观实体建立双向映射。

数学表达为：

文档集D由章节层次结构ℋ和内容集合P组成：D={ℋ,P}
通过LLM提取医学逻辑三元组集Gbook：Gbook=LLMextract(D)
每个三元组tk∈Gbook满足tk=(esub,r,eobj)

2.2 个性化知识图谱增强与迁移

为弥合通用知识与特定临床实践的鸿沟，研究通过分析不同流派医生的诊疗案例，将通用知识图谱增强并迁移为个性化知识图谱。

核心流程包括：

思维链分解
：将给定问题和答案输入Qwen2.5-72B-instruct模型，生成多跳推理链并分解为结构化三元组
三元组匹配与溯源
：生成的三元组与通用知识图谱中的实体对齐，定位中医经典中的原文依据
问题与文档关联
：为给定问题从文档集中检索k个最相关文本片段
推理思维过程生成
：以对齐的三元组和相关经典文本为上下文，驱动模型生成完整推理过程
个性化图谱生成
：从推理文本中提取新实体和关系，与原始通用知识图谱整合

个性化知识图谱的优势在于：通过分析医生实际诊疗案例的问答分解推理链，显式捕获其个性化推理逻辑（如流派偏好、辨证侧重），避免通用知识图谱的同质化缺陷。同时，在通用知识图谱约束下，引入个性化知识时严格遵循中医理论体系的核心权威性。

2.3 TCM-DiffRAG架构设计

TCM-DiffRAG的核心创新在于：通过思维链推理模型将临床问题分解为多跳三元组路径序列，并基于个性化知识图谱进行语义对齐和证据生成。

关键步骤：

步骤1：思维链模型训练
使用包含推理过程的问答对数据集C和分解推理过程得到的三元组Gstyle构建监督数据集DSFT，通过领域监督微调获得专门化模型LLMcot。研究选择Qwen2.5-7B-instruct模型进行全参数微调，使用8张A800 80G GPU，基于LLaMA Factory框架，批次大小为每GPU 2个，学习率1e-4。

步骤2：多跳检索与知识增强

思维链分解
：对输入问题qi，使用LLMcot解析为多跳推理路径
个性化知识召回
：多跳推理的三元组与个性化知识图谱进行语义相似度匹配
条款检索
：通过映射从三元组到推理文本条款，召回相关文本片段

步骤3：可溯源诊疗决策
大语言模型基于召回的个性化知识图谱及其关联经典文本生成增强响应。得益于图的深度图遍历能力（支持多跳推理）以及隐式关联性和可扩展性，召回内容既保证了结构化知识的广度，又确保了可溯源推理的深度。

三、实验设计与数据集

3.1 数据集构成

研究将语料数据集划分为四类：中医书籍、TCM-MCQ、TCM-SD和经方-SD。

语料库	片段数	平均令牌数	平均三元组数
中医书籍	433,950	330	8
TCM-MCQ训练集	21,660	103	12
TCM-MCQ测试集	600	117	/
TCM-SD训练集	43,085	409	16
TCM-SD测试集	5,486	416	/
经方-SD训练集	20,049	194	16
经方-SD测试集	5,012	194	/

三个评估基准代表不同难度等级：

TCM-MCQ语料库
：聚焦测试通用中医知识掌握，源自中医医学考试题库，要求从五个选项中选择唯一正确答案，难度最低
TCM-SD语料库
：源自徐州中医院真实病历，要求从148个候选证候中确定唯一正确答案，RAG难度显著增加
经方-SD语料库
：来自浙江中医药大学第二、第三附属医院门诊病例，要求从42个候选证候中选择唯一正确答案，基于中医经方学派，具有鲜明流派特征，挑战最大

3.2 评估框架

研究采用RAGAS评估框架，使用OpenAI的gpt-3.5-turbo-16k作为基础LLM，阿里云text-embedding-v3作为嵌入模型，召回文档数设置为k=20。

四、实验结果与性能分析

4.1 通用知识图谱有效性评估

实验对比了四种方法的性能表现：

方法	准确率	答案相似度	上下文精确度	上下文召回率	上下文实体召回率
无RAG	0.403	0.786	\	\	\
固定字符分割	0.540	0.856	0.621	0.829	0.173
宏观知识图谱分割	0.640	0.863	0.808	0.848	0.188
微观知识图谱分割	0.627	0.871	0.782	0.836	0.192
宏观-微观知识图谱集成检索	0.687	0.885	0.846	0.887	0.244

实验结果显示，宏观-微观知识图谱集成方法在所有评估指标上均处于领先地位，验证了所构建知识图谱方法的显著先进性。

关键发现：

固定字符分割容易导致语义碎片化和实体断裂，尤其在处理教科书表格时常破坏结构完整性
宏观知识图谱分割依赖书籍原始层次结构，有效保证语义单元完整性
微观知识图谱分割能相对精确匹配实体关系，但缺乏提取问题关键实体的显式步骤
宏观-微观集成方法结合两者优势：宏观层面保留辨证论治的逻辑框架和语义完整性，微观三元组精确锁定核心知识实体

4.2 思维链模型效能评估

使用包含思维过程的数据集C和Gstyle，对qwen-2.5-7B-instruct模型进行微调，获得LLM-cot-7B。以deepseek-r1为参考模型，使用Likert量表（0-5分）评估三元组质量，结果显示微调后的LLM-cot-7B生成的三元组质量显著优于qwen-2.5-7B-instruct（P < 0.05）。

此外，LLM-cot-7B在TCM-SD测试集上的效果（0.74）显著优于前期研究（0.52），证实使用思维过程数据微调LLM能取得更优结果。进一步消融实验表明，TCM-DiffRAG结合LLM-cot-7B和个性化知识图谱，在所有三个测试集上均优于单独使用LLM-cot-7B。

4.3 TCM-DiffRAG消融实验评估

TCM-MCQ测试集（图6）：
当仅依靠模型自身能力时，主要基于中文数据集训练的qwen-plus和deepseek-r1显著优于gpt-4o-mini和gemini-2.5-flash-preview。gpt-4o-mini和gemini-2.5-flash-preview在不同RAG方法下均获得显著提升，而qwen-plus和deepseek-r1仅在使用TCM-DiffRAG（结合LLM-cot-7B和个性化知识图谱）时才有改进。这可能因为后两者已具备优秀的通用中医知识能力，普通RAG方法引入噪声召回导致负面效果。

TCM-SD数据集（图7）：
难度更高，普通RAG方法对LLM性能提升效果不佳。仅在应用TCM-DiffRAG方法后才观察到显著改进。使用LLM-cot-7B作为思维链生成模型时，相比原始模型有明显性能提升。这是因为TCM-SD作为临床实践测试集，对模型推理能力要求极高。LLM-cot-7B能将输入查询分解为更细粒度的三元组并进行推理，这些互联三元组形成具有临床思维链的知识图谱结构，平衡了RAG的信息检索广度与思维链的深度推理能力。

经方-SD测试集（图8）：
三个测试集中最具挑战性。未使用RAG时，四个生成模型仅能达到0.03-0.07的准确率，即使使用普通RAG方法也无显著改善。但使用LLM-cot-7B结合个性化知识图谱后，准确率提升至0.35-0.38。可能原因除LLM缺乏经方诊疗推理能力外，还在于通用知识图谱缺乏经方诊疗数据，使用个性化知识图谱后可实现更显著改进。

性能提升示例：
qwen-plus模型在三个测试集上的得分从0.927、0.361、0.038显著提升至0.952、0.788、0.356。非中文LLM的改进更为显著。此外，TCM-DiffRAG的表现优于直接监督微调（SFT）的LLM和其他基准RAG方法。

五、讨论与启示

5.1 核心创新总结

TCM-DiffRAG的核心创新在于引入结构化知识库构建工作流程和基于思维链（CoT）的训练方法。

知识库构建方面：
充分利用中医书籍的章节层次结构进行文档分割，构建通用中医知识图谱。相比传统固定长度字符分割方法，这种基于语义单元的预处理方法具有显著优势。

临床实践方面：
为弥合通用知识与特定临床实践的差距，考虑到中医诊断思维的鲜明个性化特征，基于通用知识图谱进一步构建个性化知识图谱及其配套CoT模型。该CoT模型能自动将输入问题分解为符合特定风格的多跳查询三元组序列并相应检索子图。

TCM-DiffRAG结合了传统知识图谱RAG的广泛检索范围优势与基于推理RAG的深度推理优势，在三个基准数据集上均取得最优性能。

5.2 通用性与可推广性

研究结论具有普遍性，可扩展至其他非医疗领域：

TCM-MCQ（简单领域知识问答）
：LLM本身在此类任务上已表现优异，通用RAG方法改进有限甚至可能产生负面效果
TCM-SD（领域通用推理问答）
：虽然LLM掌握了通用行业知识，但处理复杂推理问题的能力仍显不足。引入CoT模型可显著增强LLM性能
经方-SD（领域特定推理问答）
：LLM缺乏此类特定私有数据的训练，表现不佳。这是大多数企业的典型应用场景，需要从内部业务数据进行推理。在此场景下，TCM-DiffRAG结合CoT模型和个性化知识图谱可带来显著性能提升