当前位置：首页 > news >正文

火热报名｜Interspeech 2026 第二届音频编码器能力挑战赛正式启动

news 2026/3/26 18:37:16

国际语音顶级会议 Interspeech 2026 将于明年 9 月在澳大利亚悉尼举行。由小米、萨里大学、清华大学、海天瑞声联合发起的第二届 Audio Encoder Capability Challenge（AECC）音频编码器能力挑战赛将同步亮相 Interspeech 2026，目前已正式开放报名。

当前，音频大语言模型（LALMs）发展迅速，但大多数主流模型在音频前端编码器上选择非常单一，几乎均基于 OpenAI Whisper Encoder。这种对单一技术的依赖不利于模型架构的多样化探索，也限制了 LALMs 整体能力的进一步提升。为应对音频理解能力不断增长的需求，本次挑战赛将聚焦于音频编码器这一核心模块，重点评估其在复杂真实场景下的理解与特征表示能力。

一、比赛介绍

1.1 评测方法

本次挑战赛采用统一的端到端训练和评估框架。参赛者只需提交预训练的编码器模型，下游任务的训练和评估由主办方完成。主办方提供了开源的评估系统 XARES-LLM (https://github.com/xiaomi-research/xares-llm)。该系统基于用户提供的音频编码器自动训练一个典型的 LALM。该系统会自动下载训练数据，训练模型，然后测试各种下游任务，并为每个任务提供分数，如下图所示。

参赛者并不需要自己运行 XARES-LLM，而只需把音频编码器按照一个简单的接口说明和示例封装，通过邮件发送给主办方即可，大模型的训练和评估由主办方完成。当然，由于 XARES-LLM 是开源的，且只需 GTX4090 即可完成训练和评估，参赛者也可以自行使用该系统训练大模型、评估待提交的编码器的性能，并和主办方提供的基线系统比较。

1.2训练数据

和大多数比赛不同，本挑战赛不仅重视模型设计和训练，也同样重视数据的收集和利用。主办方不规定具体的训练数据集。参赛者可以使用任何数据训练，包括在网络上抓取的数据，但训练数据必须是公开可访问的，不得使用私有保密数据。参赛的模型既可以基于任何开源的预训练模型参数，也可以从头训练。

同时，海天瑞声公司为比赛提供了一个补充数据集，供参赛者免费使用。该数据集从八个商用数据集（King-ASR-457、King-ASR-958 等）提取构建而成。其内容涵盖了丰富的日常环境噪声，具体包括书店、健身房、地铁、餐厅等多种室内外场景的背景噪声，以及家庭环境下的不同距离背景噪声。

此外，数据集还收录了水流、脚步声、户外窗边等特定非语音干扰声，以及地铁车厢在不同时段的运行噪声。啸叫类数据则包含了通话、游戏和直播场景下的纯净啸叫声。

车辆相关环境噪声也是其重要组成部分，如机械噪声、空调运行声和开窗风噪，还有咖啡馆、医院、市场、步行街等生活场景的实录环境声。报名参赛者可以免费访问该数据集，细节详见 :

https://dataoceanai.github.io/Interspeech2026-Audio-Encoder-Challenge/King_NonSpeech-Dataset_en_20h.html。

1.3 赛道设置

我们设置了两个赛道，赛道 A 关注大模型处理传统分类任务、输出分类标签的能力，赛道 B 关注大模型的理解和表达能力。参赛者无需选择赛道。所有提交作品将同时接受两个赛道的评估，两个赛道独立排名。

☆ ☆赛道 A ：传统分类任务

领域	数据集	任务类型	指标	#
语音	Speech Commands	关键词检测	准确率	30
LibriCount	说话人计数	准确率	11
VoxLingua107	语言识别	准确率	33
VoxCeleb1-Binary	二元说话人识别	准确率	2
ASVSpoof2015	欺骗检测	准确率	2
Fluent Speech Commands	意图分类	准确率	31
VocalSound	非语音声音识别	准确率	6
CREMA-D	情感识别	准确率	5
ASV2015	欺骗检测	准确率	2
声音	ESC-50	环境声音分类	准确率	50
FSD50k	声音事件检测	平均精度	200
UrbanSound 8k	城市声音分类	准确率	10
FSD18-Kaggle	声音事件检测	平均精度	41
音乐	GTZAN Genre	流派分类	准确率	10
NSynth-Instruments	乐器分类	准确率	11
Free Music Archive Small	音乐流派分类	准确率	8

☆ ☆赛道 B ：理解和表达任务

数据集	任务类型	指标
LibriSpeech-100h	语音识别	iWER
AISHELL-1-100h	语音识别	iWER
Clotho	音频描述	FENSE
The Song Describer Dataset	音乐描述	FENSE
MECAT	通用描述	DATE

二、报名参赛

2.1 报名和提交方法

在2026.01.25 11:59 PM AoE 前填写报名链接：
https://docs.google.com/forms/d/1oaTnhh0HVX8K2oRdHKXsnyZfBWb7F6Oj8xZ6yAiMI74/viewform?edit_requested=true
参考https://github.com/xiaomi-research/xares-llm/tree/main/example 封装自己的编码器，并通过https://github.com/xiaomi-research/xares-llm/tree/main/scripts/audio_encoder_checker.py 工具的检查。
在2026.02.12 11:59 PM AoE 前，把编码器代码和模型文件打成 zip 包，通过邮件发送给主办方。
在2026.02.25 11:59 PM AoE 前，把技术报告 PDF 文件邮件发送给主办方。技术报告可以同时在 Interspeech 官方提交系统作为会议论文投稿。