当前位置：首页 > news >正文

Agent+电子病历：病史整理、结构化录入与摘要生成如何落地

news 2026/7/22 10:55:29

电子病历系统里大量信息仍然来自自由文本：主诉、现病史、既往史、过敏史、体格检查记录等，医生录入耗时，后续质控和检索也困难。本文从工程实现角度，拆解一个 Agent 辅助病史整理、结构化录入和摘要生成的最小可落地方案。本文仅讨论技术架构和工程流程示例，不提供诊断、治疗、分诊或用药建议，所有规则都应由医疗专业人员和机构规范确认。

问题背景：自由文本为什么难以直接入库

在电子病历场景中，开发者经常遇到三个问题。

第一，自由文本格式不稳定。同一个字段可能写成“否认药物过敏史”“青霉素过敏”“过敏史：不详”，简单正则很难覆盖全部表达。

第二，结构化字段有强约束。例如chief_complaint、present_illness、past_history、allergy_history等字段需要类型明确、来源可追溯、可被人工修改。

第三，模型输出不能直接覆盖病历。Agent 可以提升整理效率，但必须保留审核边界：哪些字段来自原文、哪些是模型归纳、哪些需要人工确认，都要在数据结构里体现。

因此，合理目标不是“自动写病历”，而是构建一个“候选结构化结果生成器 + 审核工作台”。

技术目标与边界

本文示例技术栈如下：

Python + FastAPI：提供病历解析和审核接口
PostgreSQL：保存原始文本、抽取结果、审核状态
vector store：存储历史模板、科室常用表达、字段示例
LLM API：完成字段抽取、摘要生成和一致性检查

系统目标可以拆成四步：

接收原始病历文本，做脱敏和分段。
Agent 根据字段 Schema 抽取结构化候选值。
生成病史摘要，并标注来源片段。
审核工作台展示差异，由人工确认后回填。

需要特别注意：示例中的风险提示、字段完整性检查、升级规则都只是可配置工程规则，真实项目必须由医疗专业人员和机构制度确认。

方案总览：把 Agent 拆成可控流程

Agent 不建议设计成一个黑盒接口。更稳妥的方式是拆成多个节点，每个节点只做一件事。

核心设计点是“候选结果”和“最终病历”分离。模型只写入draft_record，人工审核后才写入confirmed_record。这样可以避免模型生成内容直接污染正式病历数据。

一个简化的数据结构如下：

emr_raw_note - id - patient_visit_id - raw_text - deidentified_text - created_at emr_draft_extract - id - raw_note_id - field_name - field_value - evidence_text - confidence - status: pending / accepted / rejected / edited emr_confirmed_record - id - patient_visit_id - structured_json - reviewer_id - reviewed_at

实现步骤一：定义字段 Schema

不要让模型自由发挥字段名。先定义固定 Schema，抽取任务围绕 Schema 进行。

frompydanticimportBaseModel,FieldfromtypingimportOptional,ListclassEvidenceField(BaseModel):value:Optional[str]=Field(default=None,description="抽取出的字段值")evidence:Optional[str]=Field(default=None,description="原文依据片段")confidence:float=Field(default=0.0,ge=0.0,le=1.0)classEmrExtractResult(BaseModel):chief_complaint:EvidenceField present_illness:EvidenceField past_history:EvidenceField allergy_history:EvidenceField family_history:EvidenceField medication_history:EvidenceField missing_fields:List[str]=[]need_human_review:List[str]=[]

这里的evidence很关键。审核人员看到的不应只是模型结论，还要能回到原始文本。confidence也不要理解为医学准确率，它只是工程上的模型自评或规则综合评分，不能替代人工判断。

实现步骤二：FastAPI 接口与 Agent 调用

下面是一个最小示例，演示如何把原始文本传入 LLM，并要求返回符合 Schema 的 JSON。实际项目中还应加入鉴权、审计日志、敏感信息处理和异常重试。

importjsonfromfastapiimportFastAPIfrompydanticimportBaseModelfromopenaiimportOpenAI app=FastAPI()client=OpenAI(api_key="YOUR_LLM_API_KEY")classExtractRequest(BaseModel):patient_visit_id:strraw_text:strSYSTEM_PROMPT=""" 你是电子病历结构化助手，只能根据输入文本抽取字段。 不得生成诊断、治疗、分诊或用药建议。 如果原文没有明确依据，字段 value 填 null，并加入 missing_fields。 每个字段必须返回 evidence，表示原文依据片段。 输出严格 JSON，不要输出解释。 """defbuild_user_prompt(text:str)->str:returnf""" 请从以下电子病历自由文本中抽取结构化字段： 字段包括 chief_complaint, present_illness, past_history, allergy_history, family_history, medication_history。 原文：{text}返回 JSON 格式： {{ "chief_complaint": {{"value": "", "evidence": "", "confidence": 0.0}}, "present_illness": {{"value": "", "evidence": "", "confidence": 0.0}}, "past_history": {{"value": "", "evidence": "", "confidence": 0.0}}, "allergy_history": {{"value": "", "evidence": "", "confidence": 0.0}}, "family_history": {{"value": "", "evidence": "", "confidence": 0.0}}, "medication_history": {{"value": "", "evidence": "", "confidence": 0.0}}, "missing_fields": [], "need_human_review": [] }} """@app.post("/emr/extract")defextract_emr(req:ExtractRequest):response=client.chat.completions.create(model="gpt-4o-mini",temperature=0.1,messages=[{"role":"system","content":SYSTEM_PROMPT},{"role":"user","content":build_user_prompt(req.raw_text)}])content=response.choices[0].message.content result=json.loads(content)validated=EmrExtractResult(**result)return{"patient_visit_id":req.patient_visit_id,"draft_extract":validated.model_dump(),"status":"pending_review"}

这个接口只返回待审核草稿，不直接写入正式病历。工程上建议把 LLM 原始响应、Prompt 版本、模型版本、调用时间都记录下来，方便追溯和回放。

实现步骤三：摘要生成不要脱离证据

摘要生成常见问题是“写得像病历，但找不到出处”。建议摘要 Agent 只基于已抽取字段和证据片段生成，不直接基于完整原文自由发挥。

摘要 Prompt 可以限制为：

根据已审核或待审核的结构化字段生成病史摘要。 不得新增输入中不存在的信息。 如果字段状态为 pending，需要在摘要元数据中标记 pending_source=true。 不得输出诊断、治疗、分诊或用药建议。

摘要结果建议保存为：

{"summary":"患者主诉及病史摘要文本","source_fields":["chief_complaint","present_illness","past_history"],"pending_source":true,"generated_at":"2026-05-30T09:00:00"}