当前位置: 首页 > news >正文

2026山东大学软件学院项目实训(五)

一、阶段背景

StarMate 已具备与通义千问后端的文字对话能力,支持默认、老师、朋友、导师等多种人设,并允许用户自定义人设。在孤独症干预与家庭陪伴场景中,团队通过试用与教师反馈发现:部分使用者阅读困难,对语音输入、语音反馈的接受度明显高于纯文字;同时,家长希望切换「老师 / 朋友」时,不仅文字语气变化,听到的声音也应随之变化,以增强沉浸感与角色认同。

本次确定:要做哪些能力、验收标准是什么、技术路线选哪条。


二、本阶段分步工作

第一步:场景调研与目标确认
梳理现有对话页能力:文字发送、人设菜单、会话重置、自定义人设等。在此基础上明确增量目标——语音输入(STT) 与 语音输出(TTS),且 TTS 需与当前选中的人设绑定。

第二步:需求拆解与验收标准
将目标拆为五项可验证需求。
其一,AI 回复应支持自动朗读,并允许用户一键关闭,避免干扰课堂环境。
其二,不同人设听感应可区分,至少满足「男声 / 女声 / 沉稳 / 活泼 / 童声 / 大叔」等差异,不能出现菜单标注与播放效果严重不符。
其三,用户可通过麦克风完成提问,说话结束后得到识别文本并进入既有聊天流程。
其四,无麦克风权限、后端未启动、识别失败、合成失败等情况,需有简短中文提示,不能长时间无反馈。
其五,原有文字聊天、人设切换、自定义人设、重置对话等功能不得回退。
本步仅形成需求清单与验收描述,尚未进入开发。

第三步:技术路线对比
方案 A:纯本机语音。 使用 Android 系统TextToSpeechSpeechRecognizer,优点是不改 Flask 后端、接入快,适合两周内出原型;缺点是各厂商中文音色命名混乱,难以保证「导师 = 女声」稳定成立,同性别人设之间 pitch、rate 调节后差别仍有限。本阶段结论:可作为流程验证,不宜作为最终音色方案。

方案 B:云端语音 + 本机兜底。 在 StarMate_Backend 增加识别与合成接口,复用项目已有 DashScope 密钥;聊天仍走POST /api/chat/send。识别拟用 Paraformer,合成拟用 CosyVoice,按人设固定声线与语气指令;云端失败时回退系统 TTS。

第四步:人设与合规边界
产品曾希望支持「动画角色」风格音色。本阶段调研结论:公开 API 无法提供版权角色原声,风格模仿也不稳定,易引发「名不副实」投诉。故在需求文档中明确:对外菜单改为 豪爽大叔、星星童伴 等原创称呼;内部 persona key(如guangtouqiang)可暂保留,避免数据库迁移。具体 CosyVoice 声线映射留待第二阶段实现。

第六步:风险识别与应对预案
识别到四类风险并写对策方向:依赖 PC 运行后端(文档化启动步骤与真机 IP 配置);云端合成耗时与失败(预案为超时控制、文本截断、本机兜底);动画版权与预期管理(原创人设 + 风格化语气,不承诺原声);模拟器无麦克风(语音识别以真机为准,模拟器可测文字 + TTS)。这些预案在后续,本阶段只记录。


三、本阶段产出与边界

产出物包括:语音能力目标说明、五项需求与验收标准、技术选型报告(本机 vs 云端)、架构草图、人设命名策略、风险清单。

明确未做:未新增transcribe/synthesize路由;未编写persona_tts.py;未修改ChatPageChatViewModel的语音流程;未进行真机联调与性能测试。

http://www.jsqmd.com/news/892005/

相关文章:

  • Mooncake:以 KVCache 为中心的分离式 LLM 服务架构
  • 2026亲测:专业AI智能降重工具选它准没错
  • 2026年,杭州这些口碑好的跨境电商咨询服务商,究竟好在哪里? - 品牌企业推荐师(官方)
  • 井下频频失联,UWB短板频发,无感定位如何破局?
  • 2026年正规的安徽雕塑定制厂家有哪些厂家推荐榜,3D打印雕塑/玻璃钢雕塑/泡沫雕塑 - 品牌企业推荐师(官方)
  • Java 匿名内部类与方法执行时间计算
  • 饲料颗粒机厂家
  • 【分享】HyperMesh vs SimLab:CAE前处理老司机与智能助手的终极对决
  • 观察使用 Token Plan 套餐后月度 API 成本的可预测性变化
  • 如何在五分钟内完成Taotoken的Python接入并调用大模型API
  • ESP32实战指南:构建稳定TCP客户端连接
  • 利用Taotoken多模型能力为AIGC应用构建智能降级策略
  • ARMv8虚拟化:HFGWTR2_EL2寄存器与细粒度陷阱控制
  • Color-X卡乐瓷砖的工艺跟普通瓷砖有什么区别? - 寻茫精选
  • 高危矿井技术大洗牌,无感定位相比UWB拥有哪些碾压级优势?
  • 全球出行一站式专家:圣擎航空助您抢占特价商务舱,畅飞美西三大都会 - 土星买买买
  • 零基础自学生信分析指南,含详细步骤,跟着学轻松实现从零到一!
  • 基于分层注意力网络的序列推荐模型:从用户行为序列理解动态意图
  • 【Lovable功能更新路线图】:2024Q3核心迭代清单与开发者优先适配指南
  • 2026年广州GEO优化服务商实力对比,谁更胜一筹? - 智鸥科技
  • 深度学习CNN-LSTM混合模型在低资源语言垃圾短信检测中的实践
  • 太赫兹通信中的智能反射面技术解析与应用
  • 【Lovable审计系统黄金配置手册】:基于27家头部客户压测数据——CPU占用降低63%、审计延迟<8ms的关键参数调优公式
  • 通过curl命令快速测试Taotoken的API兼容性与模型响应
  • Color-X 卡乐瓷砖网上怎么买?有官方渠道吗?(Color-X 卡乐瓷砖小红书线上渠道介绍) - 寻茫精选
  • 从OpenWrt拨号异常到网络畅通:一次MTU值的精准调优实战
  • 知了AI:以自研技术积淀,筑牢企业数字运营稳定根基 - 品牌企业推荐师(官方)
  • ARM调试寄存器EDITR与EDLAR详解与应用
  • File 类
  • 主流推理模型架构的协议对比表格,和专利坑 专利埋雷