当前位置: 首页 > news >正文

TCM-DiffRAG: 基于知识图谱和思维链的中医个性化辨证论治推理方法

摘要: 本研究提出TCM-DiffRAG框架,通过整合知识图谱与思维链技术,显著提升大语言模型在中医诊疗场景中的表现。实验表明,该方法在三个测试集上均取得突破性成果,尤其在个性化辨证任务中,准确率从0.038提升至0.356。这为传统中医与人工智能深度融合开辟了新路径。

阅读原文或https://t.zsxq.com/VWVUe获取原文pdf


一、研究背景与挑战

自2022年底以来,大语言模型(LLMs)在医疗领域展现出巨大潜力。然而,尽管通用LLMs在医疗自然语言处理任务中表现出色,但在专业性和准确性方面仍远未达到专家水平,有时甚至会产生误导性内容。

中医诊疗面临独特挑战。不同于现代医学关注疾病本身,中医的核心在于"辨证论治"——通过分析症状和体征来确定机体的根本性失调。中医辨证理论包括八纲、脏腑、经络、气血或三焦等多种体系,不同流派如经方派、土派、温病派在具体诊疗过程中存在显著差异,形成"同病异治"和"异病同治"的局面。

现有的检索增强生成(RAG)技术在中医临床场景中遭遇诸多困境:

  1. 推理复杂性高

    :中医临床问题涉及大量潜在推理,传统嵌入模型只能匹配表面相似文本,无法识别潜在逻辑结构

  2. 知识库局限

    :RAG知识库多源自教科书,理论性强但与实际临床实践存在差距

  3. 个性化不足

    :难以反映不同中医流派的诊疗思维差异

二、TCM-DiffRAG创新方法论

2.1 双层次通用知识图谱构建

研究团队收集了580部中医经典著作、名医医案等文献,提出"宏观-微观"知识图谱构建方法。

宏观层面:利用文档布局模型识别PDF每页元素,提取标题及对应段落文本,构建类似树状图的知识图谱。节点由书籍标题组成,节点关系通过标题的父子结构自动生成。

微观层面:使用大语言模型从段落文本中提取实体和关系。宏观标题节点作为结构枢纽,与微观实体建立双向映射。

数学表达为:

  • 文档集D由章节层次结构ℋ和内容集合P组成:D={ℋ,P}

  • 通过LLM提取医学逻辑三元组集Gbook:Gbook=LLMextract(D)

  • 每个三元组tk∈Gbook满足tk=(esub,r,eobj)

2.2 个性化知识图谱增强与迁移

为弥合通用知识与特定临床实践的鸿沟,研究通过分析不同流派医生的诊疗案例,将通用知识图谱增强并迁移为个性化知识图谱。

核心流程包括

  1. 思维链分解

    :将给定问题和答案输入Qwen2.5-72B-instruct模型,生成多跳推理链并分解为结构化三元组

  2. 三元组匹配与溯源

    :生成的三元组与通用知识图谱中的实体对齐,定位中医经典中的原文依据

  3. 问题与文档关联

    :为给定问题从文档集中检索k个最相关文本片段

  4. 推理思维过程生成

    :以对齐的三元组和相关经典文本为上下文,驱动模型生成完整推理过程

  5. 个性化图谱生成

    :从推理文本中提取新实体和关系,与原始通用知识图谱整合

个性化知识图谱的优势在于:通过分析医生实际诊疗案例的问答分解推理链,显式捕获其个性化推理逻辑(如流派偏好、辨证侧重),避免通用知识图谱的同质化缺陷。同时,在通用知识图谱约束下,引入个性化知识时严格遵循中医理论体系的核心权威性。

2.3 TCM-DiffRAG架构设计

TCM-DiffRAG的核心创新在于:通过思维链推理模型将临床问题分解为多跳三元组路径序列,并基于个性化知识图谱进行语义对齐和证据生成。

关键步骤

步骤1:思维链模型训练
使用包含推理过程的问答对数据集C和分解推理过程得到的三元组Gstyle构建监督数据集DSFT,通过领域监督微调获得专门化模型LLMcot。研究选择Qwen2.5-7B-instruct模型进行全参数微调,使用8张A800 80G GPU,基于LLaMA Factory框架,批次大小为每GPU 2个,学习率1e-4。

步骤2:多跳检索与知识增强

  • 思维链分解

    :对输入问题qi,使用LLMcot解析为多跳推理路径

  • 个性化知识召回

    :多跳推理的三元组与个性化知识图谱进行语义相似度匹配

  • 条款检索

    :通过映射从三元组到推理文本条款,召回相关文本片段

步骤3:可溯源诊疗决策
大语言模型基于召回的个性化知识图谱及其关联经典文本生成增强响应。得益于图的深度图遍历能力(支持多跳推理)以及隐式关联性和可扩展性,召回内容既保证了结构化知识的广度,又确保了可溯源推理的深度。

三、实验设计与数据集

3.1 数据集构成

研究将语料数据集划分为四类:中医书籍、TCM-MCQ、TCM-SD和经方-SD。

语料库

片段数

平均令牌数

平均三元组数

中医书籍

433,950

330

8

TCM-MCQ训练集

21,660

103

12

TCM-MCQ测试集

600

117

/

TCM-SD训练集

43,085

409

16

TCM-SD测试集

5,486

416

/

经方-SD训练集

20,049

194

16

经方-SD测试集

5,012

194

/

三个评估基准代表不同难度等级

  1. TCM-MCQ语料库

    :聚焦测试通用中医知识掌握,源自中医医学考试题库,要求从五个选项中选择唯一正确答案,难度最低

  2. TCM-SD语料库

    :源自徐州中医院真实病历,要求从148个候选证候中确定唯一正确答案,RAG难度显著增加

  3. 经方-SD语料库

    :来自浙江中医药大学第二、第三附属医院门诊病例,要求从42个候选证候中选择唯一正确答案,基于中医经方学派,具有鲜明流派特征,挑战最大

3.2 评估框架

研究采用RAGAS评估框架,使用OpenAI的gpt-3.5-turbo-16k作为基础LLM,阿里云text-embedding-v3作为嵌入模型,召回文档数设置为k=20。

四、实验结果与性能分析

4.1 通用知识图谱有效性评估

实验对比了四种方法的性能表现:

方法

准确率

答案相似度

上下文精确度

上下文召回率

上下文实体召回率

无RAG

0.403

0.786

\

\

\

固定字符分割

0.540

0.856

0.621

0.829

0.173

宏观知识图谱分割

0.640

0.863

0.808

0.848

0.188

微观知识图谱分割

0.627

0.871

0.782

0.836

0.192

宏观-微观知识图谱集成检索

0.687

0.885

0.846

0.887

0.244

实验结果显示,宏观-微观知识图谱集成方法在所有评估指标上均处于领先地位,验证了所构建知识图谱方法的显著先进性。

关键发现

  • 固定字符分割容易导致语义碎片化和实体断裂,尤其在处理教科书表格时常破坏结构完整性

  • 宏观知识图谱分割依赖书籍原始层次结构,有效保证语义单元完整性

  • 微观知识图谱分割能相对精确匹配实体关系,但缺乏提取问题关键实体的显式步骤

  • 宏观-微观集成方法结合两者优势:宏观层面保留辨证论治的逻辑框架和语义完整性,微观三元组精确锁定核心知识实体

4.2 思维链模型效能评估

使用包含思维过程的数据集C和Gstyle,对qwen-2.5-7B-instruct模型进行微调,获得LLM-cot-7B。以deepseek-r1为参考模型,使用Likert量表(0-5分)评估三元组质量,结果显示微调后的LLM-cot-7B生成的三元组质量显著优于qwen-2.5-7B-instruct(P < 0.05)。

此外,LLM-cot-7B在TCM-SD测试集上的效果(0.74)显著优于前期研究(0.52),证实使用思维过程数据微调LLM能取得更优结果。进一步消融实验表明,TCM-DiffRAG结合LLM-cot-7B和个性化知识图谱,在所有三个测试集上均优于单独使用LLM-cot-7B。

4.3 TCM-DiffRAG消融实验评估

TCM-MCQ测试集(图6):
当仅依靠模型自身能力时,主要基于中文数据集训练的qwen-plus和deepseek-r1显著优于gpt-4o-mini和gemini-2.5-flash-preview。gpt-4o-mini和gemini-2.5-flash-preview在不同RAG方法下均获得显著提升,而qwen-plus和deepseek-r1仅在使用TCM-DiffRAG(结合LLM-cot-7B和个性化知识图谱)时才有改进。这可能因为后两者已具备优秀的通用中医知识能力,普通RAG方法引入噪声召回导致负面效果。

TCM-SD数据集(图7):
难度更高,普通RAG方法对LLM性能提升效果不佳。仅在应用TCM-DiffRAG方法后才观察到显著改进。使用LLM-cot-7B作为思维链生成模型时,相比原始模型有明显性能提升。这是因为TCM-SD作为临床实践测试集,对模型推理能力要求极高。LLM-cot-7B能将输入查询分解为更细粒度的三元组并进行推理,这些互联三元组形成具有临床思维链的知识图谱结构,平衡了RAG的信息检索广度与思维链的深度推理能力。

经方-SD测试集(图8):
三个测试集中最具挑战性。未使用RAG时,四个生成模型仅能达到0.03-0.07的准确率,即使使用普通RAG方法也无显著改善。但使用LLM-cot-7B结合个性化知识图谱后,准确率提升至0.35-0.38。可能原因除LLM缺乏经方诊疗推理能力外,还在于通用知识图谱缺乏经方诊疗数据,使用个性化知识图谱后可实现更显著改进。

性能提升示例
qwen-plus模型在三个测试集上的得分从0.927、0.361、0.038显著提升至0.952、0.788、0.356。非中文LLM的改进更为显著。此外,TCM-DiffRAG的表现优于直接监督微调(SFT)的LLM和其他基准RAG方法。

五、讨论与启示

5.1 核心创新总结

TCM-DiffRAG的核心创新在于引入结构化知识库构建工作流程和基于思维链(CoT)的训练方法。

知识库构建方面
充分利用中医书籍的章节层次结构进行文档分割,构建通用中医知识图谱。相比传统固定长度字符分割方法,这种基于语义单元的预处理方法具有显著优势。

临床实践方面
为弥合通用知识与特定临床实践的差距,考虑到中医诊断思维的鲜明个性化特征,基于通用知识图谱进一步构建个性化知识图谱及其配套CoT模型。该CoT模型能自动将输入问题分解为符合特定风格的多跳查询三元组序列并相应检索子图。

TCM-DiffRAG结合了传统知识图谱RAG的广泛检索范围优势与基于推理RAG的深度推理优势,在三个基准数据集上均取得最优性能。

5.2 通用性与可推广性

研究结论具有普遍性,可扩展至其他非医疗领域:

  1. TCM-MCQ(简单领域知识问答)

    :LLM本身在此类任务上已表现优异,通用RAG方法改进有限甚至可能产生负面效果

  2. TCM-SD(领域通用推理问答)

    :虽然LLM掌握了通用行业知识,但处理复杂推理问题的能力仍显不足。引入CoT模型可显著增强LLM性能

  3. 经方-SD(领域特定推理问答)

    :LLM缺乏此类特定私有数据的训练,表现不佳。这是大多数企业的典型应用场景,需要从内部业务数据进行推理。在此场景下,TCM-DiffRAG结合CoT模型和个性化知识图谱可带来显著性能提升

5.3 研究局限与未来方向

本研究存在一定局限性:

  1. 知识图谱的评估维度需进一步丰富和完善

  2. TCM-DiffRAG在小样本数据条件下的性能有待进一步研究

  3. 不同规模和基础的LLM作为CoT模型的差异化评估仍待探索

这些将是未来研究的重要方向。

六、结论

TCM-DiffRAG展示了将结构化中医知识图谱与基于思维链的推理相结合,能够大幅提升个性化诊断任务的性能。通用知识图谱与个性化知识图谱的联合使用,实现了通用知识与临床推理的有效对齐。这些结果凸显了推理感知RAG框架在推进大语言模型中医应用方面的潜力。

研究构建了一套评估数据集来验证中医思维链模型和不同知识库的性能,为传统中医与人工智能的深度融合提供了可行路径,也为其他专业领域的知识图谱增强生成提供了宝贵参考。

http://www.jsqmd.com/news/457378/

相关文章:

  • 电子万能试验机哪个品牌好?4大推荐品牌与靠谱生产厂家选购指南 - 品牌推荐大师
  • 2026年口碑好的国际物流品牌推荐,细聊捷运达美国清关靠谱吗 - 工业品网
  • 【无标题】超详细的常见漏洞代码审计方法,网络安全必看的零基础入门到精通教程!
  • 9倍效率提升:抖音视频批量下载的全链路解决方案
  • HSTracker:macOS炉石传说智能辅助工具,提升对战决策效率
  • 推荐一下适合佛山企业的AI营销推广公司,光合道GEO值得选吗? - myqiye
  • 轻量级Ollama本地部署指南:零基础可视化管理工具实操手册
  • 2026全国十大摄影职业培训学校推荐排行榜:短视频剪辑/IP运营/AI摄影培训哪家好 - 深度智识库
  • 2026年全国靠谱的UPS电源供应机构排行,费用怎么算 - 工业推荐榜
  • 天虹购物卡回收如何秒变红包,附回收全过程 - 京回收小程序
  • OpenVINO AI插件:革新性音频智能处理技术解析与实践指南
  • 迫零预编码算法(Zero Forcing Precoding, ZF Precoding)MATLAB实现
  • 2026年垃圾站除臭厂家推荐榜单:脉冲电浆/离子/高压喷雾除臭技术,专业解决中转站、垃圾房异味难题 - 品牌企业推荐师(官方)
  • 微信智能自动化:释放Windows微信生产力的实用指南
  • 2026年催化燃烧设备厂家实力推荐榜:RCO/CO炉废气处理装置专业解析,高效净化与技术创新口碑之选 - 品牌企业推荐师(官方)
  • 2026年盘点成都靠谱的全屋定制供应商,选购时如何选择? - mypinpai
  • dnSpy文档导出技术全解析:从反编译到工程化落地的完整指南
  • 超硬合金锯片,石材金属硬质材料切割专用利器 - 非研科技
  • 2026年参考:台州平价宠物急诊与24小时医院,猫咪体检/宠物腹腔镜绝育/狗狗绝育/猫咪绝育/母狗绝育,宠物医院哪家好 - 品牌推荐师
  • 电子万能试验机生产厂家推荐!国产品牌哪家好与厂家对比分析 - 品牌推荐大师
  • 3步解锁音乐自由:如何用ncmdump实现NCM格式高效转换
  • Flutter 组件 pathfinding 的鸿蒙化适配实战 - 驾驭极致拓扑寻踪大坝、实现 OpenHarmony 分布式端高性能 AI 寻路、迷宫拓扑与工业级路径导航核方案
  • 基于粒子群优化(PSO)算法优化卷积神经网络(CNN)进行数据预测
  • 2026服装ERP系统推荐|从初创到中大型,精准选型不踩坑
  • 想把电子书转TXT却不知选什么方法?这5个方法随便选
  • QMCDecode:音乐格式自由的解密引擎
  • ncmdump:突破NCM格式限制,重构音乐自由体验
  • 5步轻松解锁WeMod全部高级功能:零成本游戏体验增强全攻略
  • 如何用AppleRa1n解决iOS 15-16激活锁问题?3步完成设备解锁
  • ctfileGet无广告直链提取工具使用指南:从核心价值到场景化解决方案