当前位置: 首页 > news >正文

2026山东大学软件学院项目实训个人博客(四)

一、进展概述

近期我们完成了语言训练模块中看图说话功能的开发,使患儿能够通过观察图片并回答由浅入深的问题来提升语言表达能力。系统会根据回答情况提供引导式反馈,支持多次补充回答,形成持续迭代的训练闭环。

二、功能设计

看图说话系统包含以下核心模块:

1. 图片生成模块 :调用通义千问图片生成API,根据难度等级自动生成适合儿童的训练图片
2. 问题生成模块 :基于图片内容自动生成由浅入深的问题序列
3. 语义分析模块 :判断用户回答的完整度(完整/基本完整/不完整)和缺失信息类型(缺少主语/宾语/细节等)
4. 引导反馈模块 :根据分析结果生成鼓励性反馈,引导用户逐步完善表达
5. 难度自适应模块 :根据训练结果动态调整后续任务难度

三、核心功能实现

3.1前端实现

看图说话功能在 PictureTalkGame.kt 中完整实现,主要包含以下核心部分:

游戏状态管理:

// 游戏状态 var imageUrl by remember { mutableStateOf("") } var questions by remember { mutableStateOf(listOf<String>()) } var currentQuestion by remember { mutableStateOf("") } var questionIndex by remember { mutableStateOf(0) } var sessionId by remember { mutableStateOf("") }

API交互:通过 ApiClient.pictureTalkApiService 调用后端接口,实现游戏启动和回答提交

UI交互:支持加载状态、错误处理、反馈展示、完成统计等完整交互流程

3.2后端实现

后端在 app.py 中实现了三个核心接口:

启动接口/api/picture-talk/start :生成训练图片并创建问题列表

# 生成训练图片 image_url = generate_image(image_prompt) # 生成问题 questions = generate_questions(image_url, level)

回答接口/api/picture-talk/answer :分析用户回答并返回引导反馈

# 分析回答完整性 analysis = analyze_answer(session['imageUrl'], current_question, user_answer)

3.3数据模型

定义了完整的数据结构支持前后端交互:

模型用途
PictureTalkRequest请求参数(难度等级、用户回答、问题索引)
PictureTalkResponse响应结构
PictureTalkData包含图片URL、问题列表、反馈信息等

四、训练流程

系统形成完整的"图片呈现→问题生成→用户作答→语义分析→引导反馈→再次表达→结果记录"闭环逻辑:

1. 图片呈现 :展示AI生成的训练图片
2. 问题生成 :根据图片内容和难度等级生成问题序列
3. 用户作答 :通过文本输入框提交回答
4. 语义分析 :判断回答是否包含主语、动作、对象等语言要素
5. 引导反馈 :生成鼓励性反馈(如"很好!"或"他在做什么呢?")
6. 持续迭代 :支持多次补充回答直到达到训练目标
7. 结果记录 :记录本轮训练数据并更新用户能力等级

五、后续计划

下一步我们计划引入更多和AI结合的功能,包括:

- 支持语音输入输出,增强交互体验
- 根据用户语言能力等级自动调整训练难度
- 添加更多语言训练场景和题型
- 引入家长端功能,方便监督学习进度

http://www.jsqmd.com/news/768466/

相关文章:

  • 汽车ECU休眠唤醒那些事:从TJA1021的INH引脚到AUTOSAR LinTrcv的唤醒机制全解析
  • mex:现代极简终端编辑器,平衡性能与易用性的新选择
  • OpenCharacters开源框架:构建有记忆的AI角色对话系统
  • 5G NR物理层扫盲:手把手拆解PBCH信道里的MIB消息(附与LTE对比)
  • AI助手如何通过MCP协议与AgentQL实现自主网页查询
  • SQL 高性能查询:学过 001 至少一门课的同学
  • Loki介绍(Grafana Labs轻量级日志聚合系统,不索引日志内容,只索引元数据labels)LogQL查询语言、日志监控、日志系统、ELK、Promtail、Query Frontend
  • C++ easyx库 自动化出计算题程序 (附源码图)
  • 晶圆级混合键合技术优化AI计算网络性能
  • Achronix Speedster7t AC7t1500 FPGA架构与性能解析
  • 采购-生产数据链路断层自查清单(中小企业专用)
  • 别再只用3σ了!用Python手把手教你用MAD法揪出数据中的‘捣蛋鬼’
  • 嵌入式流媒体技术:核心算法与低延迟优化实践
  • AI自动化研究代理实战:从部署到调优的完整指南
  • 从OpenAPI到本地化API文档站:构建可控开发者门户的工程实践
  • Transformer模型工程化实战:从微调到部署的完整指南
  • AI驱动游戏场景生成:从文本描述到Unity 3D世界的自动化构建
  • 如何利用开源明日方舟游戏资源库解决你的二次创作素材难题
  • 渤海大学考研辅导班机构推荐:排行榜单与哪家好评测 - michalwang
  • React Hooks驱动下的现代音乐播放器架构深度解析:Tonzhon音乐平台设计哲学与实现机制
  • 别再盲目堆算力了!AISMM揭示真相:91.3%的“高智商”模型在社会语境理解项得分低于4.2/10——你的团队达标了吗?
  • VibeCheck:基于AI的本地音乐智能分析与情感标签系统实战
  • 5分钟快速入门pycalphad:免费开源相图计算终极指南
  • 全国真做注塑的工厂只有 8173 家:B2B 销售名单的 4 道反常识过滤
  • AI一周事件 · 2026-04-29 至 2026-05-05
  • Wecom酱企业级消息推送:构建Server酱开源替代的技术方案
  • 游戏模组加载器终极指南:3步搞定ASI插件安装与管理
  • OpenClaw与Langfuse集成:为AI应用构建生产级可观测性
  • AI智能体技能工具包:构建模块化AI助手的设计与实践
  • Claude代码学习手册:从Prompt工程到实战应用开发指南