国际语音顶级会议 Interspeech 2026 将于2026年9月在澳大利亚悉尼举行。由小米、萨里大学、清华大学、海天瑞声联合发起的第二届 Audio Encoder Capability Challenge(AECC)音频编码器能力挑战赛将同步亮相 Interspeech 2026,目前已正式开放报名。

当前,音频大语言模型(LALMs)发展迅速,但大多数主流模型在音频前端编码器上选择非常单一,几乎均基于 OpenAI Whisper Encoder。这种对单一技术的依赖不利于模型架构的多样化探索,也限制了 LALMs 整体能力的进一步提升。为应对音频理解能力不断增长的需求,本次挑战赛将聚焦于音频编码器这一核心模块,重点评估其在复杂真实场景下的理解与特征表示能力。
评测方法
本次挑战赛采用统一的端到端训练和评估框架。参赛者只需提交预训练的编码器模型,下游任务的训练和评估由主办方完成。主办方提供了开源的评估系统 XARES-LLM (https://github.com/xiaomi-research/xares-llm)。该系统基于用户提供的音频编码器自动训练一个典型的 LALM。该系统会自动下载训练数据,训练模型,然后测试各种下游任务,并为每个任务提供分数,如下图所示。

参赛者并不需要自己运行 XARES-LLM,而只需把音频编码器按照一个简单的接口说明和示例封装,通过邮件发送给主办方即可,大模型的训练和评估由主办方完成。当然,由于 XARES-LLM 是开源的,且只需 GTX4090 即可完成训练和评估,参赛者也可以自行使用该系统训练大模型、评估待提交的编码器的性能,并和主办方提供的基线系统比较。
训练数据
和大多数比赛不同,本挑战赛不仅重视模型设计和训练,也同样重视数据的收集和利用。主办方不规定具体的训练数据集。但训练数据必须是公开可访问的,不得使用私有保密数据。参赛的模型既可以基于任何开源的预训练模型参数,也可以从头训练。
同时,海天瑞声公司为比赛提供了一个补充数据集,供参赛者免费使用。该数据集从八个商用数据集(King-ASR-457、King-ASR-958 等)提取构建而成。其内容涵盖了丰富的日常环境噪声,具体包括书店、健身房、地铁、餐厅等多种室内外场景的背景噪声,以及家庭环境下的不同距离背景噪声。此外,数据集还收录了水流、脚步声、户外窗边等特定非语音干扰声,以及地铁车厢在不同时段的运行噪声。啸叫类数据则包含了通话、游戏和直播场景下的纯净啸叫声。车辆相关环境噪声也是其重要组成部分,如机械噪声、空调运行声和开窗风噪,还有咖啡馆、医院、市场、步行街等生活场景的实录环境声。
报名参赛者可以免费访问该数据集,细节详见 :
https://dataoceanai.github.io/Interspeech2026-Audio-Encoder-Challenge/King_NonSpeech-Dataset_en_20h.html
赛道设置
设置了两个赛道,赛道 A 关注大模型处理传统分类任务、输出分类标签的能力,赛道 B 关注大模型的理解和表达能力。参赛者无需选择赛道。所有提交作品将同时接受两个赛道的评估,两个赛道独立排名。
赛道 A:传统分类任务
| 领域 | 数据集 | 任务类型 | 指标 | # |
| 语音 | Speech Commands | 关键词检测 | 准确率 | 30 |
| LibriCount | 说话人计数 | 准确率 | 11 | |
| VoxLingua107 | 语言识别 | 准确率 | 33 | |
| VoxCeleb1-Binary | 二元说话人识别 | 准确率 | 2 | |
| ASVSpoof2015 | 欺骗检测 | 准确率 | 2 | |
| Fluent Speech Commands | 意图分类 | 准确率 | 31 | |
| VocalSound | 非语音声音识别 | 准确率 | 6 | |
| CREMA-D | 情感识别 | 准确率 | 5 | |
| ASV2015 | 欺骗检测 | 准确率 | 2 | |
| 声音 | ESC-50 | 环境声音分类 | 准确率 | 50 |
| FSD50k | 声音事件检测 | 平均精度 | 200 | |
| UrbanSound 8k | 城市声音分类 | 准确率 | 10 | |
| FSD18-Kaggle | 声音事件检测 | 平均精度 | 41 | |
| 音乐 | GTZAN Genre | 流派分类 | 准确率 | 10 |
| NSynth-Instruments | 乐器分类 | 准确率 | 11 | |
| Free Music Archive Small | 音乐流派分类 | 准确率 | 8 |
赛道 B:理解和表达任务
| 数据集 | 任务类型 | 指标 |
| LibriSpeech-100h | 语音识别 | iWER |
| AISHELL-1-100h | 语音识别 | iWER |
| Clotho | 音频描述 | FENSE |
| The Song Describer Dataset | 音乐描述 | FENSE |
| MECAT | 通用描述 | DATE |
报名和提交方法
- 在 2026.01.25 11:59 PM AoE 前填写报名链接:https://docs.google.com/forms/d/1oaTnhh0HVX8K2oRdHKXsnyZfBWb7F6Oj8xZ6yAiMI74/viewform?edit_requested=true
- 参考 https://github.com/xiaomi-research/xares-llm/tree/main/example 封装自己的编码器,并通过 https://github.com/xiaomi-research/xares-llm/tree/main/scripts/audio_encoder_checker.py 工具的检查。
- 在 2026.02.12 11:59 PM AoE 前,把编码器代码和模型文件打成 zip 包,通过邮件发送给主办方。
- 在 2026.02.25 11:59 PM AoE 前,把技术报告 PDF 文件邮件发送给主办方。技术报告可以同时在 Interspeech 官方提交系统作为会议论文投稿。
联系方式
主办方邮箱: 2026interspeech-aecc@dataoceanai.com
挑战赛官网:https://dataoceanai.github.io/Interspeech2026-Audio-Encoder-Challenge/
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。