当前位置: 首页 > news >正文

[开源] DRG边界病例错分识别与病案首页整改建议系统:面向医院信息科、医保办与病案室的自动化质控工具

本项目是一套专为DRG支付改革落地设计的病案数据质控系统,核心是把病案首页结构化数据与国家/地方DRG分组逻辑对齐,用规则引擎+决策树模型联合识别「系统性错分」的边界病例。它不替代人工终审,而是把原本靠经验翻查、靠抽查发现的错分问题,变成可批量扫描、可科室归因、可溯源到主诊断与手术操作匹配关系的量化任务。面向医院信息科做分组质量监控、医保办准备申诉材料、病案室开展首页填写培训三类刚需场景;交付形态为命令行工具(CLI),支持Python原生调用与TypeScript封装双入口;技术栈聚焦稳定可解释的scikit-learn决策树、pandas数据管道与轻量CLI渲染,所有分析结果以结构化JSON+可读报告形式输出,不依赖数据库或Web服务。

定位与能力范围

我们不做全量DRG分组,也不重写分组器。我们只解决一个具体而高频的问题:当病案首页中主诊断与手术操作组合落在DRG分组规则的模糊边界上时,系统是否持续性地把这类病例分进了错误的组?这类“边界病例”往往不违反单条规则,但因临床表述习惯、编码员理解偏差或系统逻辑盲区,形成隐性错分集群。本系统把这种错分从“偶发个案”提升为“可建模的模式”,并反向生成填写改进建议,不是告诉医生“你分错了”,而是指出“主诊断选A时若同时含B类手术,92%的正确分组应为C,当前78%被分入D,建议核查术式描述是否遗漏关键修饰词”。

这决定了我们的能力边界:仅处理已结算、已完成编码的病案首页+医保结算双源数据;仅覆盖主诊断与主要手术操作之间的匹配逻辑(不涉及并发症合并症权重、年龄性别等次要维度);所有风险评分与建议均基于历史数据分布与规则解析结果,不引入外部知识图谱或大模型生成。

核心功能

系统围绕“识别—归因—反馈”闭环构建四项不可拆解的功能模块:

  • 边界病例识别:通过DRG规则解析引擎(drg_rules_parser.py)加载JSON格式的本地DRG规则文件,自动提取每组允许的主诊断ICD编码范围与对应手术操作编码集,标记出主诊断在A组允许范围内、但所伴手术操作仅出现在B组规则中的“跨组候选病例”。

  • 决策树错分模式学习:对历史数据中已知分组结果的病例,用scikit-learn训练二分类决策树,区分“实际被分入某DRG组且经复核确认正确”与“被分入该组但复核确认为错分”的样本,提取如“手术操作编码末位为X”“住院天数<3且无并发症编码”等高区分度特征路径。

  • 科室/医生级风险评分:将错分病例按科室编码主治医师工号聚合,计算各单元错分率,并依据配置文件中预设阈值(高风险>0.3、中风险>0.15、低风险>0.05)分级标定,输出可排序的TOP10风险清单。

  • 病案首页整改建议:对每一类被决策树识别出的错分模式(例如“甲状腺切除术+主诊断为结节性甲状腺肿,却分入内分泌疾病组”),自动生成结构化建议:“主诊断建议升级为‘甲状腺良性肿瘤’(ICD-10 D34),并补充手术编码‘甲状腺部分切除术’(ICD-9-CM-3 06.2)”。

功能模块

输入数据来源

输出形态

关键约束

边界病例识别

drg_rules.json

+ 病案首页主诊断/手术编码字段

CSV清单(含病例ID、疑似错分DRG组、触发的规则路径)

仅识别规则层面逻辑冲突,不判断临床合理性

决策树错分模式学习

历史已分组病例标签数据(正确/错分二值)

.pkl

模型文件 + 特征重要性报告

最小训练样本数由min_samples_for_tree配置,默认100

科室/医生级风险评分

错分病例明细表 + 医疗机构组织架构映射表

JSON统计摘要 + TOP10排名表

依赖病案首页中科室代码医师工号字段完整准确

病案首页整改建议

决策树叶子节点规则 + ICD编码映射表

Markdown格式建议文档(含编码对照与填写示例)

建议基于公开ICD-10/ICD-9-CM-3标准,不覆盖院内自定义编码

使用与配置

系统提供两套CLI入口,满足不同使用习惯:Python用户可直接运行核心引擎;熟悉Node.js生态的团队可使用TypeScript封装版,获得彩色日志与交互式报告导航。

安装只需两步:

pip install -r requirements.txt cd cli && npm install && npm run build

运行分析任务时,推荐优先使用TypeScript CLI统一入口:

node cli/dist/index.js analyze --data ./data node cli/dist/index.js report --output ./output

所有行为均由配置文件驱动。默认配置位于config/default.json,关键参数含义如下:

配置层级

参数名

说明

典型值

data

medical_records_path

病案首页CSV/Excel路径,需含diagnosis_codeoperation_codedepartment_iddoctor_id字段

./data/medical_records.csv

rules

boundary_threshold

边界病例判定宽松度,值越高越敏感

0.15

(即15%相似度即触发)

risk_scoring

high_risk_threshold

高风险科室错分率下限

0.3

decision_tree

max_depth

决策树最大深度,影响可解释性与过拟合风险

5

环境变量可覆盖配置文件值,便于CI/CD集成或临时调试:

cp .env.example .env # 编辑 .env 文件,设置: DATA_MEDICAL_RECORDS=./data/prod_records.csv RULES_DRG_PATH=./rules/beijing_2024.json

工程结构

代码严格分层,Python核心引擎与TypeScript CLI物理隔离,确保算法逻辑不被UI层污染:

  • src/目录承载全部业务逻辑:data_loader.py负责双源数据对齐与缺失值填充;drg_rules_parser.py将JSON规则转为内存可查询的诊断-手术映射矩阵;decision_tree_detector.py封装模型训练与预测;risk_scorer.py完成聚合计算与建议生成;engine.py串联全流程;cli.py暴露Python原生命令行接口。

  • cli/目录为独立前端工程:index.ts注册analyzereport两条命令;formatters/将JSON结果渲染为带颜色标记的终端表格与Markdown报告;所有输出文件(风险排名表、错分明细、整改建议)均按配置路径写入./output/

  • data/目录内置1000条模拟数据,其中15%为预设边界错分案例,开箱即可验证全流程,无需额外准备生产数据。

环境与运行

系统对运行环境要求极简:Python 3.8+、Node.js 16+,无GPU依赖,单机即可完成千级病例分析。典型执行耗时参考(MacBook Pro M1, 16GB RAM):

  • 加载1000条病案数据 + 解析DRG规则:≤1.2秒

  • 训练决策树模型(1000样本,max_depth=5):≤0.8秒

  • 生成科室风险排名 + 整改建议文档:≤0.5秒

全程无网络请求,所有规则、模型、映射表均本地加载,符合医院内网部署安全要求。日志级别可通过LOG_LEVEL环境变量动态调整,DEBUG模式下会输出每一步数据形状与规则匹配详情,便于定位字段映射异常。

数据与扩展

输入数据需满足最低字段契约,项目文档明确列出必填项与格式规范:

字段名

来源表

必填

格式要求

示例

diagnosis_code

病案首页

ICD-10标准编码(含小数点)

E11.9
operation_code

病案首页

ICD-9-CM-3标准编码(4位数字)

06.2
drg_group

医保结算单

地方DRG组编码(如BJ-DRG A12a)

BJ-DRG B23c
department_id

病案首页

否(影响风险归因)

医院内部科室编码

NEPHRO
doctor_id

病案首页

否(影响风险归因)

工号或医师唯一标识

DOC2023001

规则文件drg_rules.json采用扁平化键值结构,示例片段如下:

{ "A12a": { "diagnosis_range": ["I20.0", "I25.6"], "operation_set": ["36.01", "36.05"] } }

新接入地方DRG版本时,仅需更新此JSON文件,无需修改Python代码。

限制与说明

本系统不解决以下问题:非结构化病历文本的NLP编码;未结算病例的预分组预测;DRG分组器本身的算法缺陷修复;跨年度规则变更导致的历史数据重分组。所有错分判定均基于输入规则文件与当前数据快照,不维护状态或历史版本比对。

风险评分本质是统计显著性提示,而非临床责任认定依据。高风险科室名单需结合人工复核确认,系统仅提供“哪些组合值得优先查”这一线索。整改建议基于编码标准与规则逻辑生成,不替代临床路径或诊疗规范。

项目文档完整覆盖安装、配置、数据样例、命令说明与常见报错,所有术语与字段名均与《医疗保障基金结算清单填写规范》保持一致,无自定义缩略语或黑盒模块。

项目地址:
https://github.com/nexorin9/drg-boundary-anomaly-detector

http://www.jsqmd.com/news/927252/

相关文章:

  • CRAFT框架:大模型驱动的多机器人协同训练技术解析
  • 2026年江浙沪气泡膜卷/共挤膜气泡膜卷/彩色气泡膜卷/黑色气泡膜卷可靠供应商推荐 - 行业平台推荐
  • 2026年热门的苏州AI算力机房/弱电算力机房热选公司推荐 - 品牌宣传支持者
  • 保姆级教程:用YOLOv8n和BotSORT搞定足球比赛视频的球员与足球追踪(附完整Python源码)
  • 爆火的三个GitHub项目,真香~
  • 2026年知名的浙江机房建设方案/机房建设施工方案榜单优选公司 - 行业平台推荐
  • AI编码时代:如何审查与理解AI生成代码,夺回代码所有权
  • 驾驭AI:从理解大语言模型到构建人机协作工作流
  • 【Gemini安全红皮书首发】:基于MITRE ATTCK框架的5类攻击面测绘+自动化检测脚本(限前500名开发者领取)
  • 别再只用散点图了!用Seaborn的pairplot函数5分钟搞定多变量关系探索(附国赛数据集实战)
  • 告别蓝图依赖:用C++重构你的UE项目核心框架(GameMode篇)
  • 2026年口碑好的挂布台车/多功能台车/浙江隧道台车高口碑品牌推荐 - 品牌宣传支持者
  • 深度解析SingularityNET:去中心化AI市场的技术架构与经济模型挑战
  • 2026年口碑好的硅岩净化板/净化板/岩棉净化板推荐品牌厂家 - 行业平台推荐
  • 2026年靠谱的泵站/玻璃钢一体化泵站/一体化泵站/农业灌溉泵站实力工厂推荐 - 行业平台推荐
  • 《告别日志排查:OpenClaw如何修复工具错误指南》
  • 知识越记越乱?obsidian + claude快速搭建增量式知识库,实现笔记自动关联
  • 基于Azure AI Studio与RAG架构构建私有数据AI助手实战指南
  • 2026年知名的均质机乳品设备/离心机乳品设备主流厂家对比评测 - 品牌宣传支持者
  • AI驱动网络无障碍:智能图像描述、实时字幕与文本简化实战
  • 别再折腾了!一个Windows用户搞定多个OneDrive账号同步的保姆级教程
  • 深度学习花卉识别笔记
  • 2026年质量好的胡辣汤/逍遥镇胡辣汤/羊肉胡辣汤/面筋胡辣汤加盟热门榜 - 行业平台推荐
  • 量子密钥分发安全挑战与混合QLSTM防御方案
  • 用Anaconda一键搞定torch_geometric?实测Pip与Conda安装的差异与选择建议
  • 2026年热门的安防监控弱电工程/园区门禁弱电工程/楼宇安防弱电工程专业公司推荐 - 行业平台推荐
  • 从规则到理解:LLM如何重塑NLP实践与范式
  • DS390芯片4K SRAM配置与栈优化实战
  • 从‘翻车’到‘稳如狗’:聊聊我在MOS管电源控制电路上踩过的那些坑(附解决方案)
  • 2026年口碑好的牛肉胡辣汤/羊肉胡辣汤/河南胡辣汤/胡辣汤连锁品牌榜 - 品牌宣传支持者