当前位置：首页 > news >正文

qwen3-asr模型推理逻辑

news 2026/4/30 15:27:38

输入模板:
<|im_start|>system\n<|im_end|>\n<|im_start|>user\n<audio_start><audio_pad><|im_end|>\n<im_start>assistant\nlanguage Chinese<asr_text>
<|audio_pad|>根据音频特征长度进行占位，replace_multimodeal_special_tokens:
<|im_start|>system\n<|im_end|>\n<|im_start|>user\n<audio_start><audio_pad>*N<|im_end|>\n<im_start>assistant\nlanguage Chinese<asr_text>
tokenizer:
1）audio inputs: {‘feature_attention_mask’: tensor([[1,1,1,1,…]]), ‘input_features’: tensor([[TDIM])} # 特征刚输入的值
2）text inputs: {‘input_ids’: tensor([[id, id…]]), ‘attention_mask’: tensor([[1N]])}，其中input_ids就是模板映射之后的id，其中audio_pad是audio_feature下采样之后的长度。
3）audio 的padding有单独的id【audio_pad占位，根据最终输入帧数】，以及text的padding有单独的id【endoftext | 151643，进行left padding】，另外model.generation的结束标签是（【eos_token_id】151645，<|im_end|>）。
4）根据audio inputs提取特征之后经过speech encoder之后，进行插入text inputs中。

http://www.jsqmd.com/news/725985/

相关文章：

Postman测试EasyExcel导入功能：从本地文件路径到HTTP上传的完整避坑指南

上海实木定制公司排行：5家高端品牌实力实测对比 - 奔跑123

暗黑破坏神2存档修改器终极指南：3步打造完美角色

2026物业服务推荐排行榜：住宅/政务/公建物业招标专用实力企业深度解析 - 深度智识库

2026年3月激光切割厂家推荐分析，金属切割/二手锯床/锯切设备/二手圆锯机/圆锯机/锯床/锯条，激光切割源头厂家哪家好 - 品牌推荐师

SRWE终极指南：免费窗口编辑器让你的Windows窗口管理更高效

雄县邦讯商贸：昌平浴袍回收有哪些 - LYL仔仔

客户端接入实战：在 LangChain 中集成 MCP 工具调用

【Matllab代码】不确定风功率接入下电-气互联系统的分布鲁棒机会约束经济分布式优化调度

macOS菜单栏终极管理指南：用Ice打造高效整洁的工作空间

云手机高振畅玩不踩坑

2026年住宅小区物业公司TOP5权威榜单 - 深度智识库

上海万国自动上链失灵：从“啄木鸟”罢工到动力衰减，你的机芯需要一次精准复位 - 时光修表匠

深度解析KKManager：3大架构设计与5个实战应用方案

北京门窗品牌排行：5家市场认可度高的实力品牌盘点 - 奔跑123

如何用嘎嘎降AI处理含大量数据表格的论文：保留格式的降AI操作完整教程

望言OCR：5分钟学会的终极视频字幕提取解决方案

AutoDock Vina非标准原子力场扩展机制深度解析：从硅硼原子支持看计算化学软件架构设计

突破性技术：Windows原生APK安装架构深度解析

2026年新疆票据印刷、不干胶标签及办公用纸采购指南：金阳印务与行业竞品深度对标 - 企业名录优选推荐

2026年｜凌晨三点改论文？收藏4招教你彻底去AI痕迹！ - 降AI实验室

从SOC到VSOC：手把手教你规划车企网络安全运营中心的“车规级”技术栈

群晖百度网盘套件终极安装指南：5步轻松实现NAS云存储同步

终极抖音批量下载方案：douyin-downloader架构解析与高效部署指南

涂改液质地好推开防晒霜，懒人本命谁用谁爱的5款防晒霜在这里 - 全网最美

告别网盘限速烦恼！八大主流网盘直链下载助手终极指南

【优化布置】基于粒子群算法求解分布式发电机布置的优化问题附Matlab代码

InfluxDB Studio终极指南：高效管理时序数据库的桌面利器

高效解决方案：SteamAutoCrack自动化游戏破解全流程指南