当前位置: 首页 > news >正文

山东大学项目实训-医患沟通系统

(这是初版策划案,待答辩后与导师沟通后修改)

  • 项目背景

医患沟通是临床诊疗的核心环节,良好的沟通能显著提升患者满意度、减少医疗纠纷。然而,传统医患沟通培训多依赖标准化病人(SP)或角色扮演,存在成本高、场景单一、反馈滞后等问题。本项目旨在利用人工智能与虚拟现实技术,开发一款基于Unity的医患聊天模拟训练系统。医生(用户)通过与AI驱动的数字人患者进行多轮语音对话,训练在不同医疗场景(如解释病情、共同决策、坏消息告知)的沟通技巧,系统自动依据“医患沟通技能评价量表”(SEGUE)对沟通表现进行客观评分,为医学教育提供低成本、可重复、标准化的训练工具。

  • 技术创新

  1. 大语言模型驱动的患者角色:采用DeepSeek-V3大模型,通过精细的Prompt工程模拟不同性格、病情和心理状态的患者角色,使对话更真实、更具挑战性,突破传统脚本式对话的局限性。

  2. 端到端语音交互与实时口型同步:集成科大讯飞语音识别(STT)与语音合成(TTS),实现“语音输入-大模型生成-TTS播报”闭环。结合SALSA LipSync Suite插件,根据音频实时驱动数字人口型,提升沉浸感。

  3. SEGUE量表自动评分:利用大模型的语义理解能力,结合预设评分规则,对医患对话历史进行结构化分析,自动计算SEGUE量表各维度得分,提供即时、客观的反馈。

  4. 多场景数字人快速构建:使用Character Creator 4生成高保真患者模型,配合Mixamo动作库和SALSA唇形同步,实现角色快速迭代与表情动画增强,降低美术开发成本。

  5. WebSocket实时通信架构:前后端通过WebSocket保持长连接,实现低延迟的语音流式传输与对话状态同步,提升交互流畅度。

  • 工作内容

  1. 与医学院合作:搜集1~2篇医患沟通模拟训练脚本,根据剧本编写病人prompt;使用“医患沟通技能评价量表”(SEGUE量表)指导评分工作。

  2. 数字人与诊室环境构建:生成符合现代审美的医学数字人模型,搭建专业的诊室三维场景,并绑定自然顺畅、符合患者病情的待机与情绪动画。
  3. 实时语音对讲系统开发:开发Unity客户端的麦克风音频采集模块与音频流播放模块,搭建Python后端的并发连接处理与API调度服务。
  4. 医疗场景Prompt工程设计:撰写并调试针对不同经典医患沟通场景的患者身份设定,确保AI的回复口语化、贴合患者心理且具有挑战性。
  5. 自动化打分引擎开发:开发一套将对话逐字稿转化为SEGUE量表各维度得分及评语的LLM推理系统,并将结果结构化入库。
  6. UI/UX交互设计与实现:实现医生登录、训练场景选择、聊天录音控制、最终打分结果及分析报告的可视化呈现。
  • 技术路线

  • 前端技术栈:

·语音输入:UnityEngine.Microphone

·音频输出:UnityEngine.AudioSource

·UI:UGUI

·网络通信:WebSocket

美术技术栈:

·角色生成:Character Creator 4 (CC4)(咸鱼)

·场景:Maya/Blender或者买买买

·唇形同步:SALSA LipSync Suite(咸鱼)

·动画动作:Mixamo 库

后端技术栈:

·基础框架:Python+FastAPI

·语音识别:科大讯飞语音听写API

·语音合成:科大讯飞在线语音合成

·大模型LLM:DeepSeek-V3

·数据库:PostgreSQL

数据流:

用户点击按钮开始录音 →

Unity通过Microphone捕获音频 →

通过WebSocket发送音频流/文件到后端 →

后端接收音频,调用科大讯飞STT接口,返回文本 →

后端将文本与当前场景、历史对话组合成Prompt,调用DeepSeek-V3,获得患者回复文本 →

后端将回复文本发送至科大讯飞TTS,获取音频文件URL →

Unity收到音频URL后下载并播放,同时触发SALSA口型同步;数字人播放对应说话动画 →

用户点击“结束聊天”按钮,后端基于完整对话历史调用SEGUE评分模块,返回评分结果并在UI展示

实施计划

第一阶段(1-2周):需求细化与技术验证。确认场景脚本、SEGUE量表细则;测试所有API(科大讯飞、DeepSeek)可用性及延迟;搭建基础通信框架。

第二阶段(3-6周):核心功能开发。后端实现STT→LLM→TTS串联及WebSocket服务;Unity实现录音、播放、UI框架及基础通信;美术完成第一个角色及场景原型。

第三阶段(7-9周):功能完善与集成。后端完成评分模块、多场景Prompt配置;Unity集成SALSA、动画控制,完成全部UI;美术完成全部角色、动画、场景并导入。

第四阶段(10-12周):测试、优化与部署。端到端联调,优化响应速度、评分准确性,打包Unity客户端,编写用户手册。

预期成果

一套高可用、低延迟的“医患沟通模拟与评价系统” Demo,包含 1-2 个基于写实渲染管线的高精度 3D 虚拟病人模型,具备真实的呼吸动作与高精度的唇音同步,实现“按住说话 -> 智能理解 -> 语音回复”的顺畅体验,系统端到端交互延迟控制在极低水平,以及包含实时滚动的聊天记录界面和问诊结束后的打分系统

http://www.jsqmd.com/news/486473/

相关文章:

  • Twemoji核心优势解析:从技术特性到商业价值的选型指南
  • 导师在地铁改博士论文被拍,网友:“他边看边挠头,越看越发愁”。。。
  • 2026年2月国产数据库大事记:2025年达梦净利5.17亿,金仓营收超5亿;中国人民银行采购OceanBase 1341万+GaussDB 519万……
  • 2026年天津专业酒回收厂家那就好:老酒回收、名酒回收、茅台酒回收、洋酒回收、红酒回收、整箱茅台酒回收、年份茅台酒回收、五粮液酒回收厂家选择指南(按价格公允度 + 真伪鉴别度综合排名) - 海棠依旧大
  • 2026年桂林仿石漆厂家前十推荐:仿石漆定制厂家,仿石漆订制厂家,仿石漆供货厂家,仿石漆批发厂家(按仿真度 + 气候适配度综合排名) - 海棠依旧大
  • 收藏 | 网络安全入门必看:黑客十大常用攻击手段与防御策略(小白程序员必备)
  • 2026年北京洋酒回收找哪家?洋酒藏友亲测首选万腾老酒 本地30年经验专业靠谱更省心 - 宁夏壹山网络
  • 云南大棚管/镀锌管/方管厂家怎么选?2026 年靠谱钢材服务商推荐 - 深度智识库
  • AI时代,传统面试还有意义么?
  • 球形识别
  • 2026陕西房车/露营车产业标杆企业深度解析——合正汽车双主体协同构筑全产业链核心竞争力 - 深度智识库
  • BotHub 聚合AI大模型客户端分享(41.0.23重构版) AI客户端、AI聚合工具、GPT客户端、Claude客户端、Gemini客户端、AI多模型工具、BotHub下载、BotHub最新版
  • 快速温变试验箱全方位解析:从原理到选型的实用指南 - 品牌推荐大师
  • 智能按摩椅:AI Agent的个性化按摩方案
  • 2000-2025年区县级数字治理DID
  • 掌控进程:深入剖析 Linux 内核调度机制
  • 太阳能板清洁机器人3D图纸 STEP格式
  • 一劳永逸!Linux基础命令和工具详解,让你轻松应对各种任务!
  • Win10下安装 Redis
  • SourceTree 交互式变基(rebase) 合并压缩提交
  • 嵌入式知识篇---IMU(惯性测量单元)
  • Docker网络高级实战:隔离网络、检查路由表和自定义网络驱动
  • Python-flask安卓微信小程序农产品商城农贸市场信息管理与个性化菜谱推送系统vue
  • 2025年爬取上市公司高管、董事和监事简历、持股情况、任职情况变动数据(历年)
  • 董宝珍《精神经济学》PDF下载与阅读笔记分享 精神经济学PDF、精神经济学电子书、精神经济学下载、董宝珍精神经济学、精神价值理论
  • BeatBanker木马的复合攻击机制与移动安全防御研究
  • 密码学中的 GPU 加速 AES 算法探索
  • 上位机知识篇---显示框卡顿原因分析与分辨率优化方案
  • Linux 内核内存管理:虚拟地址空间、伙伴系统和块分配器
  • 进阶8 翻译47 单词40