当前位置：首页 > news >正文

山东大学项目实训-医患沟通系统

news 2026/7/2 8:07:36

（这是初版策划案，待答辩后与导师沟通后修改）

项目背景

医患沟通是临床诊疗的核心环节，良好的沟通能显著提升患者满意度、减少医疗纠纷。然而，传统医患沟通培训多依赖标准化病人（SP）或角色扮演，存在成本高、场景单一、反馈滞后等问题。本项目旨在利用人工智能与虚拟现实技术，开发一款基于Unity的医患聊天模拟训练系统。医生（用户）通过与AI驱动的数字人患者进行多轮语音对话，训练在不同医疗场景（如解释病情、共同决策、坏消息告知）的沟通技巧，系统自动依据“医患沟通技能评价量表”（SEGUE）对沟通表现进行客观评分，为医学教育提供低成本、可重复、标准化的训练工具。

技术创新

大语言模型驱动的患者角色：采用DeepSeek-V3大模型，通过精细的Prompt工程模拟不同性格、病情和心理状态的患者角色，使对话更真实、更具挑战性，突破传统脚本式对话的局限性。
端到端语音交互与实时口型同步：集成科大讯飞语音识别（STT）与语音合成（TTS），实现“语音输入-大模型生成-TTS播报”闭环。结合SALSA LipSync Suite插件，根据音频实时驱动数字人口型，提升沉浸感。
SEGUE量表自动评分：利用大模型的语义理解能力，结合预设评分规则，对医患对话历史进行结构化分析，自动计算SEGUE量表各维度得分，提供即时、客观的反馈。
多场景数字人快速构建：使用Character Creator 4生成高保真患者模型，配合Mixamo动作库和SALSA唇形同步，实现角色快速迭代与表情动画增强，降低美术开发成本。
WebSocket实时通信架构：前后端通过WebSocket保持长连接，实现低延迟的语音流式传输与对话状态同步，提升交互流畅度。

工作内容

与医学院合作：搜集1~2篇医患沟通模拟训练脚本，根据剧本编写病人prompt；使用“医患沟通技能评价量表”（SEGUE量表）指导评分工作。
数字人与诊室环境构建：生成符合现代审美的医学数字人模型，搭建专业的诊室三维场景，并绑定自然顺畅、符合患者病情的待机与情绪动画。
实时语音对讲系统开发：开发Unity客户端的麦克风音频采集模块与音频流播放模块，搭建Python后端的并发连接处理与API调度服务。
医疗场景Prompt工程设计：撰写并调试针对不同经典医患沟通场景的患者身份设定，确保AI的回复口语化、贴合患者心理且具有挑战性。
自动化打分引擎开发：开发一套将对话逐字稿转化为SEGUE量表各维度得分及评语的LLM推理系统，并将结果结构化入库。
UI/UX交互设计与实现：实现医生登录、训练场景选择、聊天录音控制、最终打分结果及分析报告的可视化呈现。

技术路线
前端技术栈：

·语音输入：UnityEngine.Microphone

·音频输出：UnityEngine.AudioSource

·UI：UGUI

·网络通信：WebSocket

美术技术栈：

·角色生成：Character Creator 4 (CC4)（咸鱼）

·场景：Maya/Blender或者买买买

·唇形同步：SALSA LipSync Suite（咸鱼）

·动画动作：Mixamo 库

后端技术栈：

·基础框架：Python+FastAPI

·语音识别：科大讯飞语音听写API

·语音合成：科大讯飞在线语音合成

·大模型LLM：DeepSeek-V3

·数据库：PostgreSQL

数据流：

用户点击按钮开始录音 →

Unity通过Microphone捕获音频 →

通过WebSocket发送音频流/文件到后端 →

后端接收音频，调用科大讯飞STT接口，返回文本 →

后端将文本与当前场景、历史对话组合成Prompt，调用DeepSeek-V3，获得患者回复文本 →

后端将回复文本发送至科大讯飞TTS，获取音频文件URL →

Unity收到音频URL后下载并播放，同时触发SALSA口型同步；数字人播放对应说话动画 →

用户点击“结束聊天”按钮，后端基于完整对话历史调用SEGUE评分模块，返回评分结果并在UI展示

实施计划

第一阶段（1-2周）：需求细化与技术验证。确认场景脚本、SEGUE量表细则；测试所有API（科大讯飞、DeepSeek）可用性及延迟；搭建基础通信框架。

第二阶段（3-6周）：核心功能开发。后端实现STT→LLM→TTS串联及WebSocket服务；Unity实现录音、播放、UI框架及基础通信；美术完成第一个角色及场景原型。

第三阶段（7-9周）：功能完善与集成。后端完成评分模块、多场景Prompt配置；Unity集成SALSA、动画控制，完成全部UI；美术完成全部角色、动画、场景并导入。

第四阶段（10-12周）：测试、优化与部署。端到端联调，优化响应速度、评分准确性，打包Unity客户端，编写用户手册。

预期成果

一套高可用、低延迟的“医患沟通模拟与评价系统” Demo，包含 1-2 个基于写实渲染管线的高精度 3D 虚拟病人模型，具备真实的呼吸动作与高精度的唇音同步，实现“按住说话 -> 智能理解 -> 语音回复”的顺畅体验，系统端到端交互延迟控制在极低水平，以及包含实时滚动的聊天记录界面和问诊结束后的打分系统

查看全文

http://www.jsqmd.com/news/486473/