当前位置：首页 > news >正文

“循序渐进组第二次团队作业——原型设计+概要设计”

news 2026/5/13 0:05:15

一、作业基本信息

课程：软件工程
课程链接：https://edu.cnblogs.com/campus/gdgy/SoftwareEngineeringDoubleDegree2026/
作业要求作业链接：https://edu.cnblogs.com/campus/gdgy/SoftwareEngineeringDoubleDegree2026/homework/15664
作业目标：于前期成果，完成项目的原型设计与概要设计（UML设计和数据库设计），为后续的编码与实现打下坚实基础。
学号：3123001768
团队主页链接：https://github.com/bwrcry20/BWRCRY20/blob/main/README.md

二、原型设计与展示 (Prototype Design)
为了最大程度契合视障群体的真实生理需求与 Alpha 敏捷冲刺的开发节奏，我们在使用专用原型设计工具墨刀 (Modao) 进行搭建时，彻底抛弃了传统的“多层级、小按钮”UI，创新性地构建了 “Zero-UI 无障碍交互规范”。

🔗 原型在线预览链接：https://modao.cc/proto/yopT4Z5texay1bJbpne3/sharing?view_mode=read_only&screen=rbpVJPICHjBn4Tf7B #智眸-分享

前台应用原型设计
启动引导逻辑：全黑背景配合高对比度明黄色的“智眸”Logo。停留 2 秒自动进入主控工作区，并触发底层 TTS 流式语音引导：“智眸已就绪，轻触上半屏识别万物，长按下下半屏雷达寻物”。

Zero-UI 主控工作区布局与交互规则：

万物说明书（上半屏）：大面积高纯度红色区块。交互规则：轻触该区域任意位置触发全屏拍照，隐式调用场景解析 Agent 提炼有效摘要信息，并流式语音播报。

触觉寻物雷达（下半屏）：大面积深邃夜空蓝区块。交互规则：长按该区域，录入寻物语音指令。松手后系统不再提供视觉画面，纯粹通过调用手机底层原生马达的高频震动来指引方位。(注：在网页原型中，由于无法传递物理震动，我们以半透明黑色 Toast 弹窗的视觉化形式，向评审展现底层的硬件调用与业务闭环。)

后台管理原型设计
面向系统管理员与用户家属，采用经典的中后台 SaaS 左右分栏布局。包含基于 Token 消耗的风控折线图大盘、用户交互日志溯源表，以及支持远程下发全局语速与最高马达震感阈值的偏好配置台。
硬件原型连接设计图
除了将智能手机视为原生传感器外，我们针对老师提及的硬件加分点，设计了 “ESP32 智能盲杖超声波配件”。当硬件探测到极近障碍物时，将绕过云端常规并发排队，触发最高优先级的蜂鸣器报警与中断指令。

代码段
flowchart LR
subgraph 智能盲杖配件端
Power[便携电源 5V/3.3V] --> ESP32[ESP32 主控开发板]
ESP32 -- "GPIO 5 (Trig发射)" --- HCSR04[HC-SR04 超声波探测模块]
ESP32 -- "GPIO 18 (Echo接收)" --- HCSR04
ESP32 -- "GPIO 19 (PWM输出)" --- Buzzer[蜂鸣器/微型马达]
end
subgraph 智眸手机端与云网关
APP[智眸 App中枢]
end
ESP32 -. "Wi-Fi/蓝牙中断报警信号" .-> APP

三、概要设计与后端展示 (System Architecture & UML)
本系统后端设计主打“流式低延迟极速响应”与“防高并发算力耗尽”，我们从架构视角自顶向下展示了功能流转与运行逻辑。

系统架构思维导图
自顶向下划分为端侧感知层、云端多智能体路由层与基础服务支撑层，实现算力与交互的完美解耦。

代码段
mindmap
root((智眸系统架构))
感知交互层(端侧终端)
环境感知:摄像头连续抽帧采集
意图捕获:麦克风拾音/全局手势盲操
多模态反馈:TTS流式播报/马达物理高频震动
多智能体路由层(云侧中心)
意图分发Agent:轻量级NLP路由决策
场景解析Agent:万物说明书有效摘要提炼
目标检测Agent:BBox面积占比计算与居中映射
基础支撑服务(后台)
防破产流控引擎:1fps边缘降帧与图片极致压缩
安全与监控:用户偏好与算力风控中心

需求分析设计：用例图 (Use Case)
明确划分了端侧视障用户的业务触发边界，以及后台家属/管理员的风控审计管理边界。

代码段
usecaseDiagram
actor 视障用户 as User
actor 管理员或家属 as Admin

package 智眸APP_感知交互端 {usecase "万物说明书(单点盲操拍照)" as UC1usecase "触觉寻物雷达(长按连续扫视)" as UC2usecase "接收语音播报与物理震动" as UC3
}package 智眸_后台云控制中心 {usecase "大模型API算力Token监控大盘" as UC4usecase "远程配置设备播报语速与参数" as UC5
}User --> UC1
User --> UC2
User --> UC3
Admin --> UC4
Admin --> UC5

核心业务流程设计：活动图 (Activity Diagram)
心后端亮点：防刷流控与物理致动映射
寻物时连续的视频扫视极易耗尽系统 Token。后端设计了“1fps边缘降帧算法”。并在核心算法中剥离多模态大模型返回的二维边界框（BBox），计算其面积占据全图的比例，随后利用数学映射，转化为手机 1-10 级的底层物理马达震感（PWM指令），实现跨次元的硬件闭环。

代码段
flowchart TD
A[用户长按蓝色区块录入语音指令] --> B[提取目标开启摄像头连续取景]
B --> E[核心护城河: 按 1fps 极低频抽帧截取单帧画面]
E --> F[图像数据内存级 Base64 极致压缩]
F --> G[推至云端多模态目标检测Agent]
G --> H{画面正中央是否存在目标?}
H -- 否 --> E
H -- 是 --> J[核心算法: 计算目标 BBox 面积占据全画面的比例]
J --> K[软硬换算: 将面积占比映射转换为 1-10 级物理马达震动]
K --> L[调用端侧设备底层 API 触发硬件高频震动]

系统结构设计：类图 (Class Diagram)
面向对象的设计严格落实解耦，将中枢网关、大模型会话调度与底层硬件抽象代理完全分离。

classDiagram
class User {
+String userId
+updatePreferences()
}
class SessionManager {
+String currentMode
+routeIntent()
}
class AgentOrchestrator {
+callVisionAPI(base64)
+callObjectDetection(base64, target)
}
class HardwareController {
+startCameraStream()
+playTTS(text)
+triggerVibration(intensityLevel)
}
User "1" --> "1..*" SessionManager : 发起请求
SessionManager "1" *-- "1" AgentOrchestrator : 调度算力
SessionManager "1" *-- "1" HardwareController : 调度硬件

核心算法流程设计：时序图 (Sequence Diagram)
核心后端亮点：SSE 流式推播低延迟引擎
为严格满足“拍照后4秒内发起语音播报”的验收标准，后端彻底舍弃串行 HTTP 轮询，采用 SSE（Server-Sent Events）结合 WebSocket 推流引擎，实现大模型“边推演”，端侧“边发声”的极速响应机制。

sequenceDiagram
participant Front as 手机App感知端
participant Backend as 后台云网关服务
participant LLM as 多模态视觉大模型
participant TTS as 端侧TTS音频引擎

Front->>Backend: 发起场景解析请求 (含高清压缩图像)
Backend->>LLM: 组装强约束Prompt并调用并发 API
LLM-->>Backend: SSE 流式返回数据流块 Chunk 1 ("感冒药")
Backend-->>Front: WebSocket 极速向下游推送 Chunk 1
Front->>TTS: 收到碎片并发调用端侧合成语音
TTS-->>Front: [满足验收条件] 4秒内流式开始语音播报
LLM-->>Backend: SSE 流式返回后续 Chunk 2 ("一日三次")

对象协作交互设计：协作图 (Collaboration Diagram)
从空间通信与消息网络维度，直观展示寻物雷达模式下完整的数据流转链路。

四、数据库物理与逻辑设计 (Database Design)
由于本系统侧重于并发实时大语言模型计算，数据库设计坚持“轻量化与高吞吐”原则。绝不持久化留存用户的环境图像隐私，核心功能围绕“设备个性化配置”与“API防并发刷单风控”建立。

Zero-UI 主控工作区布局与交互规则：万物说明书（上半屏）：大面积高纯度红色区块。交互规则：轻触该区域任意位置触发全屏拍照，隐式调用场景解析 Agent 提炼有效摘要信息，并流式语音播报。触觉寻物雷达（下半屏）：大面积深邃夜空蓝区块。交互规则：长按该区域，录入寻物语音指令。松手后系统不再提供视觉画面，纯粹通过调用手机底层原生马达的高频震动来指引方位。(注：在网页原型中，由于无法传递物理震动，我们以半透明黑色 Toast 弹窗的视觉化形式，向评审展现底层的硬件调用与业务闭环。)2. 后台管理原型设计面向系统管理员与用户家属，采用经典的中后台 SaaS 左右分栏布局。包含基于 Token 消耗的风控折线图大盘、用户交互日志溯源表，以及支持远程下发全局语速与最高马达震感阈值的偏好配置台。3. 硬件原型连接设计图 (高阶扩展)除了将智能手机视为原生传感器外，我们针对老师提及的硬件加分点，设计了 “ESP32 智能盲杖超声波配件”。当硬件探测到极近障碍物时，将绕过云端常规并发排队，触发最高优先级的蜂鸣器报警与中断指令。代码段flowchart LR
subgraph 智能盲杖配件端
Power[便携电源 5V/3.3V] --> ESP32[ESP32 主控开发板]
ESP32 -- "GPIO 5 (Trig发射)" --- HCSR04[HC-SR04 超声波探测模块]
ESP32 -- "GPIO 18 (Echo接收)" --- HCSR04
ESP32 -- "GPIO 19 (PWM输出)" --- Buzzer[蜂鸣器/微型马达]
end
subgraph 智眸手机端与云网关
APP[智眸 App中枢]
end
ESP32 -. "Wi-Fi/蓝牙中断报警信号" .-> APP
三、概要设计与后端展示 (System Architecture & UML)本系统后端设计主打“流式低延迟极速响应”与“防高并发算力耗尽”，我们从架构视角自顶向下展示了功能流转与运行逻辑。1. 系统架构思维导图自顶向下划分为端侧感知层、云端多智能体路由层与基础服务支撑层，实现算力与交互的完美解耦。代码段mindmap
root((智眸系统架构))
感知交互层(端侧终端)
环境感知:摄像头连续抽帧采集
意图捕获:麦克风拾音/全局手势盲操
多模态反馈:TTS流式播报/马达物理高频震动
多智能体路由层(云侧中心)
意图分发Agent:轻量级NLP路由决策
场景解析Agent:万物说明书有效摘要提炼
目标检测Agent:BBox面积占比计算与居中映射
基础支撑服务(后台)
防破产流控引擎:1fps边缘降帧与图片极致压缩
安全与监控:用户偏好与算力风控中心
2. 需求分析设计：用例图 (Use Case)明确划分了端侧视障用户的业务触发边界，以及后台家属/管理员的风控审计管理边界。代码段usecaseDiagram
actor 视障用户 as User
actor 管理员或家属 as Admin

package 智眸APP_感知交互端 {usecase "万物说明书(单点盲操拍照)" as UC1usecase "触觉寻物雷达(长按连续扫视)" as UC2usecase "接收语音播报与物理震动" as UC3
}package 智眸_后台云控制中心 {usecase "大模型API算力Token监控大盘" as UC4usecase "远程配置设备播报语速与参数" as UC5
}User --> UC1
User --> UC2
User --> UC3
Admin --> UC4
Admin --> UC5

核心业务流程设计：活动图 (Activity Diagram)🔥 核心后端亮点：防刷流控与物理致动映射寻物时连续的视频扫视极易耗尽系统 Token。后端设计了“1fps边缘降帧算法”。并在核心算法中剥离多模态大模型返回的二维边界框（BBox），计算其面积占据全图的比例，随后利用数学映射，转化为手机 1-10 级的底层物理马达震感（PWM指令），实现跨次元的硬件闭环。代码段flowchart TD
A[用户长按蓝色区块录入语音指令] --> B[提取目标开启摄像头连续取景]
B --> E[核心护城河: 按 1fps 极低频抽帧截取单帧画面]
E --> F[图像数据内存级 Base64 极致压缩]
F --> G[推至云端多模态目标检测Agent]
G --> H{画面正中央是否存在目标?}
H -- 否 --> E
H -- 是 --> J[核心算法: 计算目标 BBox 面积占据全画面的比例]
J --> K[软硬换算: 将面积占比映射转换为 1-10 级物理马达震动]
K --> L[调用端侧设备底层 API 触发硬件高频震动]
系统结构设计：类图 (Class Diagram)面向对象的设计严格落实解耦，将中枢网关、大模型会话调度与底层硬件抽象代理完全分离。代码段classDiagram
class User {
+String userId
+updatePreferences()
}
class SessionManager {
+String currentMode
+routeIntent()
}
class AgentOrchestrator {
+callVisionAPI(base64)
+callObjectDetection(base64, target)
}
class HardwareController {
+startCameraStream()
+playTTS(text)
+triggerVibration(intensityLevel)
}
User "1" --> "1..*" SessionManager : 发起请求
SessionManager "1" *-- "1" AgentOrchestrator : 调度算力
SessionManager "1" *-- "1" HardwareController : 调度硬件
核心算法流程设计：时序图 (Sequence Diagram)🔥 核心后端亮点：SSE 流式推播低延迟引擎为严格满足“拍照后4秒内发起语音播报”的验收标准，后端彻底舍弃串行 HTTP 轮询，采用 SSE（Server-Sent Events）结合 WebSocket 推流引擎，实现大模型“边推演”，端侧“边发声”的极速响应机制。代码段sequenceDiagram
participant Front as 手机App感知端
participant Backend as 后台云网关服务
participant LLM as 多模态视觉大模型
participant TTS as 端侧TTS音频引擎

Front->>Backend: 发起场景解析请求 (含高清压缩图像)
Backend->>LLM: 组装强约束Prompt并调用并发 API
LLM-->>Backend: SSE 流式返回数据流块 Chunk 1 ("感冒药")
Backend-->>Front: WebSocket 极速向下游推送 Chunk 1
Front->>TTS: 收到碎片并发调用端侧合成语音
TTS-->>Front: [满足验收条件] 4秒内流式开始语音播报
LLM-->>Backend: SSE 流式返回后续 Chunk 2 ("一日三次")
对象协作交互设计：协作图 (Collaboration Diagram)从空间通信与消息网络维度，直观展示寻物雷达模式下完整的数据流转链路。代码段flowchart LR
User((视障用户)) -- 1.语音指令"找杯子" --> HC[HardwareController]
HC -- 2.抓取降压帧上传 --> SM[SessionManager]
SM -- 3.调度智能体分析 --> AO[AgentOrchestrator]
AO -- 4.大模型并发检测 --> SM
SM -- 5.换算软硬件震感参数 --> HC
HC -- 6.调用物理马达产生震动 --> User
四、数据库物理与逻辑设计 (Database Design)由于本系统侧重于并发实时大语言模型计算，数据库设计坚持“轻量化与高吞吐”原则。绝不持久化留存用户的环境图像隐私，核心功能围绕“设备个性化配置”与“API防并发刷单风控”建立。1. 实体关系图设计 (ER 图)

erDiagram
sys_user ||--|| sys_preference : "1对1 拥有偏好"
sys_user ||--o{ sys_recognition_log : "1对多产生API记录"

sys_user {varchar user_id PK "主键,设备硬件指纹"datetime created_at
}
sys_preference {varchar pref_id PKfloat speech_speed "全局TTS播报语速"int max_vibration "雷达最高震感安全限制"
}
sys_recognition_log {varchar log_id PK "全局唯一流水号"varchar trigger_mode "多智能体路由模式"int token_cost "单次调用算力损耗计费"
}

查看全文

http://www.jsqmd.com/news/805346/