当前位置: 首页 > news >正文

【HarmonyOS 6.1 全场景实战】《灵犀厨房》实战(十七):【语音识别】免提声控启动播报——动口不动手

HarmonyOS 6.1 开发者盛宴|《灵犀厨房》实战(十七):【语音识别】免提声控启动播报——动口不动手

摘要:上一篇我们为菜谱详情页装上了"嘴巴"——接入 CoreSpeechKit 的 TTS 引擎实现了烹饪步骤分步语音播报。但你很快会发现:炒菜时手上全是油,根本没法点屏幕上的播放按钮。真正的免提厨房需要——进页面后直接说"开始播放",菜谱自动念起来。本篇,我们将接入 HarmonyOS 6.1.0 CoreSpeechKit 的 **SpeechRecognizer(语音识别)**模块,为《灵犀厨房》装上"耳朵"。你将学会:进页面自动开启声控、免提启动 TTS 播报、播完后自动重开声控供重听、1 分钟无指令自动关闭以省电。关键设计决策:声控不用于播报过程中的操作控制(避免 TTS 音频被麦克风回采),而是专职于免提启动播报。严格遵循 API 23 规范,代码即文档。


一、引言与系列定位

经过第 16 篇的语音合成,菜谱详情页有了播报按钮。但你很快会发现尴尬的现实:

场景问题解决
进页面后手上有油没法点▶️播放按钮直接说"开始播放"
TTS 播完一轮,想重听屏幕已息屏,不想碰手机声控自动重启,说"重新播放"
只想重听某一步想听步骤2但不想从头来屏幕按钮点"下一步"跳转
声控开着但不用了不想一直耗电监听1 分钟无指令自动关闭

设计决策:为何声控不用于"下一步""暂停"等播报中途控制?

经过多次真机验证,我们发现:当 TTS 正在大声播报菜谱步骤时,手机麦克风会捕获自己的喇叭声,导致 ASR 把播报内容识别为语音指令。例如 TTS 正在说"第三步,蒸锅水开后放入蛋液碗……",ASR 识别到长文本,尝试匹配指令时可能因关键词碰撞而误触发。这是一个物理层面的回采问题,目前在模拟器调试场景中暂时无法通过纯软件可靠解决。感兴趣读者,后续可以通过采用利用 AudioKit 的音频焦点与会话隔离、分时复用 + 短暂静音、唤醒词 + 录音回采过滤、将声控能力下移到系统级语音助手等方案进行验证和解决,菜品详情页面中预留了手动和自动切换的按钮,便于读者后续可以利用这个按钮进行功能扩展、增强和改进。

因此,本项目的声控设计为:

  • TTS 播报前:声控自动开启,用户说"开始播放"启动播报
  • TTS 播报中:声控自动关闭,用户通过屏幕按钮控制(暂停/上下步/停止)
  • TTS 播报后:声控自动重启,用户可说"重新播放"重听,1 分钟无指令自动关闭

这就是声控操作的核心价值——进页面免提启动,播完免提重听。不是指挥每一步,而是"开始"和"重来"两个关键动作。


二、核心原理与底层机制深度解读

2.1 SpeechRecognizer:系统级的"云端+本地"语音识别

HarmonyOS 6.1.0(API 23)的@kit.CoreSpeechKit提供了speechRecognizer模块,封装了华为自研的语音识别引擎。它的工作模式是"持续监听 + 静默检测自动结束":

TtsSpeechManagerRecipeDetailPageVoiceControlManagerSpeechRecognizer 引擎📱 手机👤 用户TtsSpeechManagerRecipeDetailPageVoiceControlManagerSpeechRecognizer 引擎📱 手机👤 用户用户进入菜谱详情页🎤 声控自动开启🔊 播报步骤1、步骤2、步骤3...🎤 声控自动重启🔊 从头播报
http://www.jsqmd.com/news/851360/

相关文章:

  • CANN/asc-devkit HCCL批量写入接口
  • 终极指南:如何用YOLOv8 AI自瞄系统快速提升游戏瞄准精度
  • 终极知识管理模板:快速搭建你的Obsidian笔记系统
  • CANN/Ascend C GroupBarrier Arrive函数
  • KDiff3技术深度解析:高效文件比较与合并的架构设计与算法实现
  • 用Simulink复现VSG自适应控制:从理论模型到完整仿真(附2018b+源码)
  • 通过 TaoToken CLI 工具一键配置开发环境提升团队协作效率
  • Perplexity体育新闻搜索失效真相大起底(2024赛季高频故障TOP5深度归因)
  • 如何零成本获取全球金融数据?开源工具AKShare终极指南
  • 告别‘听完再说’:聊聊LAS语音识别模型为啥不能实时转文字,以及现在有啥新方案
  • 3步精通FanControl:打造Windows平台智能风扇控制系统
  • 【Perplexity语法查询终极指南】:20年DBA亲授5大隐藏技巧,90%开发者至今不知!
  • 2026年青岛欧式起重机制造厂优选榜单揭晓 - 品牌企业推荐师(官方)
  • 在自动化工作流中集成Taotoken为OpenClaw提供稳定模型服务
  • CANN/asc-devkit Tiling注册API
  • 5分钟掌握Unlock Music:浏览器音乐解密转换终极指南
  • i.MX6ULL电容触摸驱动开发:从硬件原理到Linux输入子系统实战
  • Perplexity艺术知识检索实战手册(2024博物馆级精准查询法)
  • 从CUDA到OpenCLAW:跨越平台异构的高性能内核重写全指南
  • 终极解决方案:IPXWrapper让经典游戏在现代Windows系统重获联机能力
  • 工厂采购设备脚轮总遇质量问题,选靠谱服务商的避坑经验分享 - 品牌企业推荐师(官方)
  • 深度探索:用可视化源文件构建专业神经网络架构图
  • cann/asc-devkit HCCL AlltoAllvWrite接口
  • Obsidian-i18n终极指南:5步实现插件界面中文化,效率提升300%
  • NAT类型检测终极指南:3分钟快速诊断网络卡顿问题
  • 2025届毕业生推荐的六大降AI率助手实测分析
  • Cursor Pro免费激活终极指南:简单快速解锁AI编程高级功能
  • 解锁精密制造的“隐形护城河”:从AR眼镜到MiniLED,点胶与封装设备如何重塑科技边界? - 品牌企业推荐师(官方)
  • Photoshop图层批量导出神器:告别手动导出,效率提升10倍!
  • Ascend C数据解压搬运API