当前位置: 首页 > news >正文

OpenClaw人人养虾:音频与语音

Audio Node(音频节点)为 Agent 提供语音输入和输出能力,包括语音转文字 STT(Speech-to-Text)和文字转语音 TTS(Text-to-Speech)。

启动音频节点

openclaw node --type audio

首次启动

系统会要求授予麦克风权限。macOS 用户需要在「系统设置 → 隐私与安全 → 麦克风」中允许终端应用访问。

语音识别(STT)

STT 将用户的语音输入转换为文本,再交给 Agent 处理。

支持的 STT 提供商

提供商延迟中文支持特点
Deepgram极低实时流式,推荐首选
OpenAI Whisper精度高,支持本地部署
Azure Speech企业级稳定性
Google Speech多语言混合识别
阿里云语音国内访问速度快

STT 配置

config.yamlWhisper 本地配置

audio: stt: provider: deepgram # STT 提供商 api_key: ${DEEPGRAM_API_KEY} # 引用环境变量 language: zh-CN # 识别语言 model: nova-2 # 模型版本 interim_results: true # 是否返回中间结果 punctuate: true # 自动添加标点 encoding: opus # 音频编码格式 sample_rate: 16000 # 采样率 (Hz)

🇨🇳 中国用户须知

推荐使用阿里云语音识别或本地 Whisper 模型。Deepgram 在国内需要代理访问,延迟可能增加。

语音合成(TTS)

TTS 将 Agent 的文本回复转换为语音输出。

支持的 TTS 提供商

提供商中文音色特点
OpenAI TTS有限自然度高
Azure TTS丰富多音色,SSML 支持
ElevenLabs有限克隆音色
阿里云 TTS丰富国内低延迟

TTS 配置

audio: tts: provider: azure # TTS 提供商 api_key: ${AZURE_SPEECH_KEY} region: eastasia # 服务区域 voice: zh-CN-XiaoxiaoNeural # 音色名称 speed: 1.0 # 语速 (0.5-2.0) format: audio-24khz-48kbitrate-mono-mp3

音频格式

OpenClaw 支持以下音频格式:

格式编码场景
Opus有损压缩实时流式传输(推荐)
WAV无损高质量录音存档
MP3有损压缩TTS 输出、文件传输

实时流式 vs 文件上传

OpenClaw 支持两种音频输入模式:

实时流式(推荐)

audio: mode: streaming chunk_size: 1024 # 每块大小(字节) vad: true # 启用 VAD(Voice Activity Detection,语音活动检测)
  • 延迟低,用户说完即开始识别
  • 需要 WebSocket 持续连接
  • 适合对话场景

文件上传

audio: mode: file max_duration: 300 # 最大录音时长(秒) max_size: 25MB # 最大文件大小
  • 录音完成后一次性上传
  • 适合长段语音、离线场景

高级配置

噪声抑制

audio: noise_suppression: true noise_level: moderate # low / moderate / aggressive

多声道支持

audio: channels: 1 # 单声道(推荐) # channels: 2 # 立体声

音频缓存

audio: cache: enabled: true tts_cache_size: 100 # 缓存最近 100 条 TTS 结果 ttl: 3600 # 缓存过期时间(秒)

隐私提示

实时流式模式下,音频数据会发送到 STT 提供商的服务器。如果涉及敏感对话,建议使用本地 Whisper 模型,数据不会离开你的设备。

常用命令

# 测试麦克风输入 openclaw node --type audio --test # 指定音频设备 openclaw node --type audio --device "MacBook Pro Microphone" # 查看可用音频设备 openclaw node --type audio --list-devices

故障排查

问题可能原因解决方案
无法录音麦克风权限未授予检查系统权限设置
识别为空采样率不匹配确认sample_rate与设备匹配
TTS 无声音频输出设备问题检查系统默认输出设备
延迟过高网络或提供商问题切换提供商或使用本地模型

《DeepSeek高效数据分析:从数据清洗到行业案例》聚焦DeepSeek在数据分析领域的高效应用,是系统讲解其从数据处理到可视化全流程的实用指南。作者结合多年职场实战经验,不仅深入拆解DeepSeek数据分析的核心功能——涵盖数据采集、清洗、预处理、探索分析、建模(回归、聚类、时间序列等)及模型评估,更通过金融量化数据分析、电商平台数据分析等真实行业案例,搭配报告撰写技巧,提供独到见解与落地建议。助力职场人在激烈竞争中凭借先进技能突破瓶颈,实现职业进阶,开启发展新篇。

http://www.jsqmd.com/news/672239/

相关文章:

  • 93、快速筛选数据
  • JavaQuestPlayer:终极QSP游戏引擎与开发平台完整指南
  • NaViL-9B部署详解:双24GB显卡PCIe带宽优化与NVLink配置建议
  • Mobilerun架构深度解析:基于LLM的多Agent移动设备自动化框架设计
  • 5分钟快速部署:打造你的专属AI中医助手——仲景中医大语言模型实战指南
  • LangGraph CLI实战:5分钟搞定Python 3.11环境下的本地服务器部署(含常见错误排查)
  • 防脱洗发水怎么选?为什么劝你把“乌诺地尔”加入成分清单 - 速递信息
  • Dify金融合规配置实战指南:从零搭建符合银保监2024新规的AI应用流水线
  • 重返未来1999自动化助手M9A:如何轻松解放双手的终极指南
  • 华硕笔记本轻量化控制神器:G-Helper完全指南,告别臃肿的奥创中心
  • 如何免费使用多平台音乐聚合播放器:完整开源工具使用指南
  • 全新升级版H5封装分发平台|支持安卓APK与iOS A一键打包+免签分发
  • 官方认证|2026年国内五大正规助眠草本枕公司 / 批发厂排名,四川等地可参考,成都晓梦纺织品有限公司综合实力遥遥领先 - 十大品牌榜
  • 别急着看P控制图!用Minitab做二项分布能力分析前,先搞定这3个数据坑
  • 2026年中东欧亚美容展BeautyEurasia- 中国组团单位- 新天国际会展 - 新天国际会展
  • 从田间到法庭:一家西北检测公司如何用四张“牌照”守护农业安全? - 博客湾
  • 自动化测试ROI成本计算器:从理论到实践的专业解析
  • 3步掌握微信好友检测:快速识别谁悄悄删除了你
  • 企业舆情处置太难?Infoseek AI中台技术架构与实战分析
  • 众智商学院成立多少年?发展历程回顾 - 众智商学院官方
  • 惠州安防产品双色模胚加工厂家推荐指南 - 昌晖模胚
  • 终极GMod修复方案:3步解决游戏浏览器与启动问题
  • 官方认证|2026年国内五大正规功能性枕芯公司 / 批发厂 / 家纺OEM服务商排名,四川等地,成都晓梦纺织品有限公司综合实力遥遥领先 - 十大品牌榜
  • UCIe 1.0 软件配置实战:手把手教你定位并访问那些关键的寄存器
  • 自控力差、基础薄弱?天津托福机构应该如何选? - 大喷菇123
  • 忍者像素绘卷:天界画坊MySQL配置教程:构建像素画作品元数据库
  • 告别定时任务!用Rsync+inotify在国产麒麟系统上实现文件秒级同步(附完整脚本)
  • 2026年4月百达翡丽官方售后网点亲测+避坑指南:实地横评与数据溯源报告(含迁址/新开)|老司机分享全流程记录 - 亨得利官方服务中心
  • 华为OD机试真题 新系统-8位LED控制器(C/C++/Py/Java/Js/Go)
  • 官方认证|2026年国内五大正规苦荞枕公司 / 苦荞枕厂家排名,四川等地,成都晓梦纺织品有限公司综合实力遥遥领先 - 十大品牌榜