在语音大模型与具身智能快速发展的今天,全双工人机交互正成为学术界与工业界关注的焦点。构建高拟人度、支持实时中断与流式响应的口语对话系统,关键在于是否拥有具备“真实交互动态”与“富含副语言标签”的长音频对话数据。然而,当前开源社区仍缺乏此类大规模、高质素的真实中文自然口语对话资产。
为此,ASLP 实验室与上海元音矩阵科技有限公司联手,正式开源 SmoothConv 与 DuplexConv 同源中文长音频对话双子星数据集。
两款数据集均源自真实的中文自然对话场景,覆盖深度教育垂类与丰富的通用闲聊领域。数据采用多通道录制,完整保留了多方交谈、非结构化交互以及呼吸停顿等真实世界的口语生态,旨在为下一代语音大模型与全双工口语对话系统的研发提供高质量的数据底座。
核心亮点
- 高精与规模兼顾:包含 100 小时高密度专家级人工精标数据(SmoothConv)与 2,000 小时自动化标注数据(DuplexConv),完美覆盖流式交互微调与大规模预训练的双重需求。
- 专为全双工交互定制:针对连续流式交互的痛点,提供精准的话轮转换(Turn-taking)、停顿(Pause)、多维副语言及声音事件标签,直接助力全双工系统的中断与响应决策。
- 真实上下文:告别传统的录音棚朗读或人工拼接音频,真实还原多方话语交叠、上下文理解等实际应用场景中的真实中文交互生态。
- 多样任务需求:数据来源覆盖教育垂类与通用闲聊。可满足全双工中断机制建模、话轮预测(Turn-taking Prediction)、情感计算、多说话人语音识别、口语语言模型预训练、通用声音表征学习、对话理解等任务的训练。
双子星数据集:兼顾精细化建模与海量预训练
数据集关键信息统计


SmoothConv:100小时专家级人工精标数据集
作为高精度的交互基准与算法微调数据,SmoothConv 由专业团队进行多维度、高密度的精细化标注,力求捕捉人类真实交谈中的每一个微观动态:
核心标注维度:
- 音字精准对齐:提供高准确率的 ASR 文本抄本与毫秒级音字对齐时间戳。
- 节奏与非言语事件:精准标注停顿(Pause)以及笑声、咳嗽、吸气、背景杂音等丰富的非言语声音事件(Audio Events)。
- 话轮动态标签:完整记录发言权流转、话轮重叠(Overlap)的时序状态,直接服务于交互策略训练。
- 细粒度属性:包含说话人性别(Gender)与动态情感(Emotion)状态标签。
DuplexConv:2000小时大规模自动化标注数据集
为了满足大规模语音预训练模型对数据体量的需求,DuplexConv 借助高效的大模型自动化打标链路,提供了全双工赛道极其稀缺的大规模自然交互语料,开创了高效的数据工程范式:
- 核心技术特征:
- 规模化同源语料:提供高达 2000 小时、与 SmoothConv 同源且具高度多样性的中文自然对话音频,为表征学习和自监督预训练提供充足养分。
- 丰富大模型标签:引入前沿大模型作为自动化打标核心,对音频进行深度的语义与上下文环境理解,全自动沉淀和SmoothConv类似的标签,富含Turn Taking、语气、情绪氛围等关键副语言标签。
赋能全双工:打破传统“回合制”交互瓶颈
要实现真正行云流水般的“全双工人机交互”,模型必须具备在连续听觉流中“边听边想、适时中断、精准感知”的能力。SmoothConv 与 DuplexConv 的开源,正是为了解决全双工系统研发的核心挑战:
- 解决“什么时候该插话”:依赖 SmoothConv 丰富的话轮转换与停顿标签,模型可以训练出更鲁棒的端点检测(VAD)与话轮预测能力,显著降低交互延迟。
- 解决“如何应对背景音与误中断”:多通道长音频中夹杂的丰富声音事件与非结构化交谈,能帮助全双工模块在复杂的真实环境中建立更稳定的“过滤与拒绝”决策模型。
- 理解连续对话中的“弦外之音”:结合 DuplexConv 中海量的副语言标签,系统能够更敏锐地捕捉人类说话时的情绪起伏与潜在意图,让全双工回复更加细腻、拟人。
开源与共建
目前,SmoothConv 与 DuplexConv 的已正式开源。我们诚邀广大语音科研人员、开源社区爱好者与工业界同行下载使用,共同探讨和推动全双工口语对话技术的演进。
GitHub 仓库:https://github.com/qualialabsAI/SmoothConv-DuplexConv
Hugging Face Dataset:
https://huggingface.co/datasets/qualialabsAI/SmoothConv
https://huggingface.co/datasets/qualialabsAI/DuplexConv
技术交流与合作联系:jimz@qualialabs.ai
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。