当前位置：首页 > news >正文

[开源] 医疗大模型知识盲区检测与可视化系统：面向临床决策者的AI能力边界认知工具

news 2026/7/22 6:22:12

本项目是一个专为医疗场景设计的知识盲区探测与可视化系统，核心目标是帮助临床医生、医院信息科、AI医学产品团队等角色，客观识别当前医疗大语言模型在具体知识域（如心内科-急性心梗-溶栓禁忌证）中的能力断点。它不替代模型推理，而是构建一套可枚举、可复现、可对比的测试框架：将医疗知识组织为「科室→疾病→药物/操作」层级结构；通过语义熵测量答案一致性、LLM自我置信度标注、探测式黑盒提问三路信号交叉验证；最终生成结构化盲区评分与分类错误标签，并以雷达图、热力图等形式呈现「哪里能用、哪里慎用、哪里不能用」的直观地图。交付形态覆盖命令行（CLI）、Web仪表盘、REST API三种接口，技术栈以Python为主引擎，TypeScript/Node.js支撑交互层，FastAPI提供服务，D3.js实现动态可视化。

定位与能力范围

我们不做通用AI评测，也不做单点问答打分。本项目的判断颗粒度锚定在临床真实工作流中的最小决策单元，比如「是否推荐阿司匹林用于房颤患者卒中一级预防」，而非笼统的「心血管知识」。这种定位决定了三个刚性边界：
-不评估模型基础能力（如逻辑推理、多步计算），只聚焦其在已知医疗知识体系内的覆盖完整性；
-不介入模型训练或微调流程，所有探测均走标准API或本地Mock调用，属纯黑盒行为分析；
-不输出治疗建议或诊断结论，所有结果仅服务于「这个模型在该问题上是否具备稳定输出能力」这一元判断。

因此，它的适用对象非常明确：当一位心内科医生准备将某LLM嵌入查房辅助流程时，他需要知道该模型对「新型口服抗凝药（NOAC）在肾功能不全患者中的剂量调整」这类具体条目是否可靠；当医院信息科部署AI导诊模块时，需确认其对「儿科发热待查鉴别诊断路径」的覆盖深度；当AI厂商发布新版医疗模型时，可用它生成第三方视角的盲区对照报告。它不是用来证明模型“好不好”，而是回答“在哪好、在哪不好”。

核心功能模块

系统由五大协同模块构成，每一块都对应临床AI落地中的一个现实卡点：

模块名称	解决的问题	关键机制
知识域体系建模	医疗知识太散，无法结构化测试	将公开指南、教科书、临床路径映射为三级树形结构（如：神经外科→脑胶质瘤→替莫唑胺同步放化疗方案），支持手动扩展与版本管理
语义熵测量	同一问题多次回答不一致，但模型不自知	对同一探测题发起5–10次独立采样，用Sentence-BERT计算答案向量余弦相似度标准差，熵值＞0.25即标记为高不确定性区间
自我评估置信度	LLM常把错误答案说得无比笃定	在每次探测后追加元提示：“请用0–100分评价你对上述回答的确定性”，强制模型进行认知自检
探测式黑盒测试	被动问答漏掉隐性盲区	按预设策略生成对抗性探测题（如：故意替换关键术语、插入干扰条件、要求反向推理），主动触发边界失效
盲区分析引擎	单点错误难形成决策依据	综合语义熵、自我置信分、错误类型（事实错误/逻辑断裂/回避回答/幻觉生成）加权计算域级盲区得分（0–100），并归类为「高危盲区」「待验证区」「可信区」

所有模块输出统一存入结构化存储层，确保每次探测可追溯、可回放、可比对。例如，当发现「内分泌科→糖尿病足感染→铜绿假单胞菌经验用药」这一节点盲区得分高达92分，系统会同时给出：该节点5次采样的语义熵值（0.31）、模型自评置信均值（43分）、3例典型错误回答原文及错误类型标注。

使用与配置流程

上手只需三步，无须修改代码即可完成端到端验证：

# 1. 安装依赖（Python与Node.js环境需预先就绪） pip install -r requirements.txt npm install

# 2. 快速跑通一个完整闭环（以「呼吸内科→社区获得性肺炎→CURB-65评分解读」为例） npx blindspot domain list # 查看全部知识域ID npx blindspot probe run --domain resp-cap-curbscore # 启动探测，生成probe_id npx blindspot analyze run --probe-id 20240521-143207 # 分析结果，输出盲区评分 npx blindspot report generate --probe-id 20240521-143207 # 生成HTML报告

# 3. 启动可视化界面，实时查看多维度分布 npx blindspot web start # 浏览器打开 http://localhost:3000 即可交互式浏览雷达图（各科室盲区强度）、热力图（疾病粒度错误密度）、时间轴（不同模型版本对比）

CLI命令设计遵循临床工作习惯：domain list输出带中文路径的树状列表（如呼吸内科 > 社区获得性肺炎 > 抗菌药物选择），避免用户记忆ID；probe run支持按科室批量探测（--department resp）；report generate默认包含原始探测题、全部采样回答、熵值曲线、错误类型统计饼图，满足院内质控文档归档需求。

工程结构与技术选型

我们坚持「能力可验证、边界可解释、部署可嵌入」三条原则选型：

Python作为主引擎
：因其在NLP生态（Sentence-BERT、HuggingFace Transformers）、科学计算（NumPy/Pandas）、以及医疗文本处理（MedSpaCy、ScispaCy）方面无可替代的成熟度，所有核心算法（熵计算、置信加权、错误聚类）均在此层实现；
TypeScript/Node.js负责CLI与Web
：保障跨平台命令行体验（Windows/macOS/Linux一致），且TypeScript的强类型约束有效防止前端传参错误导致后端崩溃；
FastAPI暴露REST接口
：轻量、异步、OpenAPI原生支持，方便医院现有信息系统（如HIS、EMR）通过HTTP直接调用探测服务，无需重写客户端；
D3.js而非Chart.js/ECharts
：因盲区地图需支持动态交互（如点击某科室热力区块，下钻显示其下属所有疾病的错误类型分布），D3的底层控制力更适配复杂定制需求。

整个代码库按职责严格分层，src/knowledge_domain/仅维护知识树定义与校验规则，src/probe_engine/封装所有LLM调用逻辑（含OpenAI/Claude/Mock三套适配器），src/analysis/独立于模型提供商，确保分析结果不随API变更而漂移。

数据与扩展机制

知识域数据完全开放可编辑。data/domains/目录下存放JSON格式定义文件，示例片段如下：

{ "id": "card-afib-noac", "path": ["心内科", "心房颤动", "新型口服抗凝药（NOAC）"], "description": "NOAC在不同肾功能分期患者的剂量调整与禁忌证", "questions": [ { "text": "CrCl=28mL/min的房颤患者能否使用利伐沙班？若能，推荐剂量是多少？", "source": "2023 ESC房颤指南第4.2节" } ] }

新增疾病或操作只需补充对应JSON文件，运行npx blindspot domain reload即可加载。探测题支持引用权威来源（指南章节、药品说明书条款），确保每个测试点都有据可查。对于尚未覆盖的领域，项目文档提供了标准字段说明与映射规范，便于医院信息科基于本院临床路径自主构建私有知识域。

限制与说明

本系统存在三项明确限制，我们在设计之初即公开声明：
-不覆盖非结构化临床经验：如“如何向老年患者家属委婉解释临终撤机决定”，此类高度情境化、伦理权重高的问题不在当前知识域体系内；
-不替代人工审核：所有盲区地图仅为辅助参考，最终临床决策必须由执业医师完成；
-LLM提供商响应差异不可控：OpenAI与Claude对同一探测题的熵值表现可能不同，系统不对厂商API稳定性负责，仅保证本端测量逻辑一致。

此外，语义熵阈值（0.25）、自我置信权重（30%）、错误类型判定规则等参数均在项目文档中明确定义，支持用户根据本院质控标准调整。所有探测过程日志默认留存，符合医疗软件可审计要求。

项目地址：
https://github.com/nexorin9/medical-llm-blindspot-detector

查看全文

http://www.jsqmd.com/news/927833/