当前位置: 首页 > news >正文

“循序渐进组第二次团队作业——原型设计+概要设计”

一、 作业基本信息

课程:软件工程
课程链接:https://edu.cnblogs.com/campus/gdgy/SoftwareEngineeringDoubleDegree2026/
作业要求 作业链接:https://edu.cnblogs.com/campus/gdgy/SoftwareEngineeringDoubleDegree2026/homework/15664
作业目标:于前期成果,完成项目的原型设计与概要设计(UML设计和数据库设计),为后续的编码与实现打下坚实基础。
学号:3123001768
团队主页链接:https://github.com/bwrcry20/BWRCRY20/blob/main/README.md

二、 原型设计与展示 (Prototype Design)
为了最大程度契合视障群体的真实生理需求与 Alpha 敏捷冲刺的开发节奏,我们在使用专用原型设计工具 墨刀 (Modao) 进行搭建时,彻底抛弃了传统的“多层级、小按钮”UI,创新性地构建了 “Zero-UI 无障碍交互规范”。

🔗 原型在线预览链接:https://modao.cc/proto/yopT4Z5texay1bJbpne3/sharing?view_mode=read_only&screen=rbpVJPICHjBn4Tf7B #智眸-分享

  1. 前台应用原型设计
    启动引导逻辑:全黑背景配合高对比度明黄色的“智眸”Logo。停留 2 秒自动进入主控工作区,并触发底层 TTS 流式语音引导:“智眸已就绪,轻触上半屏识别万物,长按下下半屏雷达寻物”。

Zero-UI 主控工作区布局与交互规则:

万物说明书(上半屏):大面积高纯度红色区块。交互规则:轻触该区域任意位置触发全屏拍照,隐式调用场景解析 Agent 提炼有效摘要信息,并流式语音播报。

触觉寻物雷达(下半屏):大面积深邃夜空蓝区块。交互规则:长按该区域,录入寻物语音指令。松手后系统不再提供视觉画面,纯粹通过调用手机底层原生马达的高频震动来指引方位。(注:在网页原型中,由于无法传递物理震动,我们以半透明黑色 Toast 弹窗的视觉化形式,向评审展现底层的硬件调用与业务闭环。)

  1. 后台管理原型设计
    面向系统管理员与用户家属,采用经典的中后台 SaaS 左右分栏布局。包含基于 Token 消耗的风控折线图大盘、用户交互日志溯源表,以及支持远程下发全局语速与最高马达震感阈值的偏好配置台。

  2. 硬件原型连接设计图
    除了将智能手机视为原生传感器外,我们针对老师提及的硬件加分点,设计了 “ESP32 智能盲杖超声波配件”。当硬件探测到极近障碍物时,将绕过云端常规并发排队,触发最高优先级的蜂鸣器报警与中断指令。

代码段
flowchart LR
subgraph 智能盲杖配件端
Power[便携电源 5V/3.3V] --> ESP32[ESP32 主控开发板]
ESP32 -- "GPIO 5 (Trig发射)" --- HCSR04[HC-SR04 超声波探测模块]
ESP32 -- "GPIO 18 (Echo接收)" --- HCSR04
ESP32 -- "GPIO 19 (PWM输出)" --- Buzzer[蜂鸣器/微型马达]
end
subgraph 智眸手机端与云网关
APP[智眸 App中枢]
end
ESP32 -. "Wi-Fi/蓝牙 中断报警信号" .-> APP

三、 概要设计与后端展示 (System Architecture & UML)
本系统后端设计主打“流式低延迟极速响应”与“防高并发算力耗尽”,我们从架构视角自顶向下展示了功能流转与运行逻辑。

  1. 系统架构思维导图
    自顶向下划分为端侧感知层、云端多智能体路由层与基础服务支撑层,实现算力与交互的完美解耦。

代码段
mindmap
root((智眸系统架构))
感知交互层(端侧终端)
环境感知:摄像头连续抽帧采集
意图捕获:麦克风拾音/全局手势盲操
多模态反馈:TTS流式播报/马达物理高频震动
多智能体路由层(云侧中心)
意图分发Agent:轻量级NLP路由决策
场景解析Agent:万物说明书有效摘要提炼
目标检测Agent:BBox面积占比计算与居中映射
基础支撑服务(后台)
防破产流控引擎:1fps边缘降帧与图片极致压缩
安全与监控:用户偏好与算力风控中心

  1. 需求分析设计:用例图 (Use Case)
    明确划分了端侧视障用户的业务触发边界,以及后台家属/管理员的风控审计管理边界。

代码段
usecaseDiagram
actor 视障用户 as User
actor 管理员或家属 as Admin

package 智眸APP_感知交互端 {usecase "万物说明书(单点盲操拍照)" as UC1usecase "触觉寻物雷达(长按连续扫视)" as UC2usecase "接收语音播报与物理震动" as UC3
}package 智眸_后台云控制中心 {usecase "大模型API算力Token监控大盘" as UC4usecase "远程配置设备播报语速与参数" as UC5
}User --> UC1
User --> UC2
User --> UC3
Admin --> UC4
Admin --> UC5
  1. 核心业务流程设计:活动图 (Activity Diagram)
    心后端亮点:防刷流控与物理致动映射
    寻物时连续的视频扫视极易耗尽系统 Token。后端设计了“1fps边缘降帧算法”。并在核心算法中剥离多模态大模型返回的二维边界框(BBox),计算其面积占据全图的比例,随后利用数学映射,转化为手机 1-10 级的底层物理马达震感(PWM指令),实现跨次元的硬件闭环。

代码段
flowchart TD
A[用户长按蓝色区块录入语音指令] --> B[提取目标开启摄像头连续取景]
B --> E[核心护城河: 按 1fps 极低频抽帧截取单帧画面]
E --> F[图像数据内存级 Base64 极致压缩]
F --> G[推至云端多模态目标检测Agent]
G --> H{画面正中央是否存在目标?}
H -- 否 --> E
H -- 是 --> J[核心算法: 计算目标 BBox 面积占据全画面的比例]
J --> K[软硬换算: 将面积占比映射转换为 1-10 级物理马达震动]
K --> L[调用端侧设备底层 API 触发硬件高频震动]

  1. 系统结构设计:类图 (Class Diagram)
    面向对象的设计严格落实解耦,将中枢网关、大模型会话调度与底层硬件抽象代理完全分离。

classDiagram
class User {
+String userId
+updatePreferences()
}
class SessionManager {
+String currentMode
+routeIntent()
}
class AgentOrchestrator {
+callVisionAPI(base64)
+callObjectDetection(base64, target)
}
class HardwareController {
+startCameraStream()
+playTTS(text)
+triggerVibration(intensityLevel)
}
User "1" --> "1..*" SessionManager : 发起请求
SessionManager "1" *-- "1" AgentOrchestrator : 调度算力
SessionManager "1" *-- "1" HardwareController : 调度硬件

  1. 核心算法流程设计:时序图 (Sequence Diagram)
    核心后端亮点:SSE 流式推播低延迟引擎
    为严格满足“拍照后4秒内发起语音播报”的验收标准,后端彻底舍弃串行 HTTP 轮询,采用 SSE(Server-Sent Events)结合 WebSocket 推流引擎,实现大模型“边推演”,端侧“边发声”的极速响应机制。

sequenceDiagram
participant Front as 手机App感知端
participant Backend as 后台云网关服务
participant LLM as 多模态视觉大模型
participant TTS as 端侧TTS音频引擎

Front->>Backend: 发起场景解析请求 (含高清压缩图像)
Backend->>LLM: 组装强约束Prompt并调用并发 API
LLM-->>Backend: SSE 流式返回数据流块 Chunk 1 ("感冒药")
Backend-->>Front: WebSocket 极速向下游推送 Chunk 1
Front->>TTS: 收到碎片并发调用端侧合成语音
TTS-->>Front: [满足验收条件] 4秒内流式开始语音播报
LLM-->>Backend: SSE 流式返回后续 Chunk 2 ("一日三次")
  1. 对象协作交互设计:协作图 (Collaboration Diagram)
    从空间通信与消息网络维度,直观展示寻物雷达模式下完整的数据流转链路。

四、 数据库物理与逻辑设计 (Database Design)
由于本系统侧重于并发实时大语言模型计算,数据库设计坚持“轻量化与高吞吐”原则。绝不持久化留存用户的环境图像隐私,核心功能围绕“设备个性化配置”与“API防并发刷单风控”建立。

Zero-UI 主控工作区布局与交互规则:万物说明书(上半屏):大面积高纯度红色区块。交互规则:轻触该区域任意位置触发全屏拍照,隐式调用场景解析 Agent 提炼有效摘要信息,并流式语音播报。触觉寻物雷达(下半屏):大面积深邃夜空蓝区块。交互规则:长按该区域,录入寻物语音指令。松手后系统不再提供视觉画面,纯粹通过调用手机底层原生马达的高频震动来指引方位。(注:在网页原型中,由于无法传递物理震动,我们以半透明黑色 Toast 弹窗的视觉化形式,向评审展现底层的硬件调用与业务闭环。)2. 后台管理原型设计面向系统管理员与用户家属,采用经典的中后台 SaaS 左右分栏布局。包含基于 Token 消耗的风控折线图大盘、用户交互日志溯源表,以及支持远程下发全局语速与最高马达震感阈值的偏好配置台。3. 硬件原型连接设计图 (高阶扩展)除了将智能手机视为原生传感器外,我们针对老师提及的硬件加分点,设计了 “ESP32 智能盲杖超声波配件”。当硬件探测到极近障碍物时,将绕过云端常规并发排队,触发最高优先级的蜂鸣器报警与中断指令。代码段flowchart LR
subgraph 智能盲杖配件端
Power[便携电源 5V/3.3V] --> ESP32[ESP32 主控开发板]
ESP32 -- "GPIO 5 (Trig发射)" --- HCSR04[HC-SR04 超声波探测模块]
ESP32 -- "GPIO 18 (Echo接收)" --- HCSR04
ESP32 -- "GPIO 19 (PWM输出)" --- Buzzer[蜂鸣器/微型马达]
end
subgraph 智眸手机端与云网关
APP[智眸 App中枢]
end
ESP32 -. "Wi-Fi/蓝牙 中断报警信号" .-> APP
三、 概要设计与后端展示 (System Architecture & UML)本系统后端设计主打“流式低延迟极速响应”与“防高并发算力耗尽”,我们从架构视角自顶向下展示了功能流转与运行逻辑。1. 系统架构思维导图自顶向下划分为端侧感知层、云端多智能体路由层与基础服务支撑层,实现算力与交互的完美解耦。代码段mindmap
root((智眸系统架构))
感知交互层(端侧终端)
环境感知:摄像头连续抽帧采集
意图捕获:麦克风拾音/全局手势盲操
多模态反馈:TTS流式播报/马达物理高频震动
多智能体路由层(云侧中心)
意图分发Agent:轻量级NLP路由决策
场景解析Agent:万物说明书有效摘要提炼
目标检测Agent:BBox面积占比计算与居中映射
基础支撑服务(后台)
防破产流控引擎:1fps边缘降帧与图片极致压缩
安全与监控:用户偏好与算力风控中心
2. 需求分析设计:用例图 (Use Case)明确划分了端侧视障用户的业务触发边界,以及后台家属/管理员的风控审计管理边界。代码段usecaseDiagram
actor 视障用户 as User
actor 管理员或家属 as Admin

package 智眸APP_感知交互端 {usecase "万物说明书(单点盲操拍照)" as UC1usecase "触觉寻物雷达(长按连续扫视)" as UC2usecase "接收语音播报与物理震动" as UC3
}package 智眸_后台云控制中心 {usecase "大模型API算力Token监控大盘" as UC4usecase "远程配置设备播报语速与参数" as UC5
}User --> UC1
User --> UC2
User --> UC3
Admin --> UC4
Admin --> UC5
  1. 核心业务流程设计:活动图 (Activity Diagram)🔥 核心后端亮点:防刷流控与物理致动映射寻物时连续的视频扫视极易耗尽系统 Token。后端设计了“1fps边缘降帧算法”。并在核心算法中剥离多模态大模型返回的二维边界框(BBox),计算其面积占据全图的比例,随后利用数学映射,转化为手机 1-10 级的底层物理马达震感(PWM指令),实现跨次元的硬件闭环。代码段flowchart TD
    A[用户长按蓝色区块录入语音指令] --> B[提取目标开启摄像头连续取景]
    B --> E[核心护城河: 按 1fps 极低频抽帧截取单帧画面]
    E --> F[图像数据内存级 Base64 极致压缩]
    F --> G[推至云端多模态目标检测Agent]
    G --> H{画面正中央是否存在目标?}
    H -- 否 --> E
    H -- 是 --> J[核心算法: 计算目标 BBox 面积占据全画面的比例]
    J --> K[软硬换算: 将面积占比映射转换为 1-10 级物理马达震动]
    K --> L[调用端侧设备底层 API 触发硬件高频震动]

  2. 系统结构设计:类图 (Class Diagram)面向对象的设计严格落实解耦,将中枢网关、大模型会话调度与底层硬件抽象代理完全分离。代码段classDiagram
    class User {
    +String userId
    +updatePreferences()
    }
    class SessionManager {
    +String currentMode
    +routeIntent()
    }
    class AgentOrchestrator {
    +callVisionAPI(base64)
    +callObjectDetection(base64, target)
    }
    class HardwareController {
    +startCameraStream()
    +playTTS(text)
    +triggerVibration(intensityLevel)
    }
    User "1" --> "1..*" SessionManager : 发起请求
    SessionManager "1" *-- "1" AgentOrchestrator : 调度算力
    SessionManager "1" *-- "1" HardwareController : 调度硬件

  3. 核心算法流程设计:时序图 (Sequence Diagram)🔥 核心后端亮点:SSE 流式推播低延迟引擎为严格满足“拍照后4秒内发起语音播报”的验收标准,后端彻底舍弃串行 HTTP 轮询,采用 SSE(Server-Sent Events)结合 WebSocket 推流引擎,实现大模型“边推演”,端侧“边发声”的极速响应机制。代码段sequenceDiagram
    participant Front as 手机App感知端
    participant Backend as 后台云网关服务
    participant LLM as 多模态视觉大模型
    participant TTS as 端侧TTS音频引擎

    Front->>Backend: 发起场景解析请求 (含高清压缩图像)
    Backend->>LLM: 组装强约束Prompt并调用并发 API
    LLM-->>Backend: SSE 流式返回数据流块 Chunk 1 ("感冒药")
    Backend-->>Front: WebSocket 极速向下游推送 Chunk 1
    Front->>TTS: 收到碎片并发调用端侧合成语音
    TTS-->>Front: [满足验收条件] 4秒内流式开始语音播报
    LLM-->>Backend: SSE 流式返回后续 Chunk 2 ("一日三次")

  4. 对象协作交互设计:协作图 (Collaboration Diagram)从空间通信与消息网络维度,直观展示寻物雷达模式下完整的数据流转链路。代码段flowchart LR
    User((视障用户)) -- 1.语音指令"找杯子" --> HC[HardwareController]
    HC -- 2.抓取降压帧上传 --> SM[SessionManager]
    SM -- 3.调度智能体分析 --> AO[AgentOrchestrator]
    AO -- 4.大模型并发检测 --> SM
    SM -- 5.换算软硬件震感参数 --> HC
    HC -- 6.调用物理马达产生震动 --> User
    四、 数据库物理与逻辑设计 (Database Design)由于本系统侧重于并发实时大语言模型计算,数据库设计坚持“轻量化与高吞吐”原则。绝不持久化留存用户的环境图像隐私,核心功能围绕“设备个性化配置”与“API防并发刷单风控”建立。1. 实体关系图设计 (ER 图)

erDiagram
sys_user ||--|| sys_preference : "1对1 拥有偏好"
sys_user ||--o{ sys_recognition_log : "1对多 产生API记录"

sys_user {varchar user_id PK "主键,设备硬件指纹"datetime created_at
}
sys_preference {varchar pref_id PKfloat speech_speed "全局TTS播报语速"int max_vibration "雷达最高震感安全限制"
}
sys_recognition_log {varchar log_id PK "全局唯一流水号"varchar trigger_mode "多智能体路由模式"int token_cost "单次调用算力损耗计费"
}
http://www.jsqmd.com/news/805346/

相关文章:

  • 量子噪声对机器学习模型的影响与缓解策略
  • AI辅助Pine Script v6开发:构建结构化知识库提升代码生成质量
  • 数字永生:将意识上传云端的技术与伦理极限
  • 独立开发者利用Taotoken统一API开发跨模型内容生成应用案例
  • 喜马拉雅音频本地化实战:绕过xm格式,直接获取mp3文件的两种方法对比
  • Visual C++运行库合集AIO:一站式解决Windows程序依赖问题
  • 2026届学术党必备的AI写作平台解析与推荐
  • 2026 iPhone17护眼膜终极选购指南:从AR抗反射、圆偏振光到叶黄素,一篇终结护眼钢化膜所有疑问
  • 5个简单步骤实现iOS虚拟定位:iFakeLocation终极解决方案
  • 5-12午夜盘思
  • libmodbus 源码分析
  • 从NBA智能分析到智慧城市:数据驱动系统的架构、挑战与落地实践
  • OpenClaw本地运行教程,隐私安全型AI助手搭建指南
  • Nodejs后端服务如何稳定调用Claude并避免封号风险
  • 简单序列帧动画播放器,播放GIF
  • 【python】离线安装库到内网中
  • 开源AI代码生成工具unsaged:本地化部署与高效开发实践
  • vsftpd匿名用户本地用户虚拟用户总结【20260512】001篇
  • 淘宝要接入AI购物助手:以后买东西,可能不是搜索,而是“让AI帮你挑”
  • Midjourney Sumi-e风格合规性预警:2024Q3版权新规下,3类易侵权水墨元素识别清单与安全替代方案(含JIS X 9051标准对照)
  • 终极PS4存档管理指南:Apollo Save Tool完全解析
  • 个人开发者如何利用Taotoken模型广场快速选型并验证创意原型
  • 2026届必备的五大AI辅助写作助手解析与推荐
  • 百元级GEO工具真的能生成高质量内容吗?
  • 终极VLC美化指南:5款VeLoCity专业主题让你的播放器焕然一新
  • 忆阻器争议:从数学定义到产业应用,如何理解下一代存储技术
  • 35岁零基础转行网络安全?值得吗?
  • 怎么解决梨采摘后的果肉黑心问题
  • 基于Dlib与OpenCV的人脸关键点检测实战:从静态图片到实时视频
  • 基于STM32CubeMX与HAL库的MAX30102心率血氧监测系统实战指南