Seed 全双工语音大模型发布：懂倾听、抗干扰，走向更自然的交互

今天，字节跳动 Seed 正式推出原生全双工语音大模型 Seeduplex。相比于上一代半双工豆包端到端语音模型，Seeduplex 基于“边听边说”的全新框架设计，交互体验的自然感、顺畅度大幅提升。

如果说端到端架构通过统一“听”“说”模块，让 AI 拥有了自然表达的潜能，那么全双工（Full-Duplex）技术则通过实现“听”“说”同步，进一步释放了这种潜能。它赋予模型更自然的对话节奏和更出色的抗干扰能力——不再是简单的一问一答，而是能在噪声与无关人声的干扰下精准响应，做到快慢有度、收放自如。

具体来说，通过模型架构创新与训练优化，并攻克高并发下的卡顿与稳定性等工程挑战，Seeduplex 实现了业界领先的全双工语音实时交互效果，其在保持模型智能上限与超低时延的同时，重点实现了以下两项突破：

精准抗干扰：模型具备持续的“倾听”能力，从而能更好地理解用户所处的声学环境，准确忽略背景噪音和无关对话。在复杂场景下，相比半双工模型，其误回复率和误打断率减少了一半。
动态判停：模型能联合语音和语义特征，综合判断用户意图，可实现更自然的对话节奏控制。面对用户的思考犹豫，模型能耐心倾听；在用户说完后，又能快速响应。相比半双工模型，其抢话比例相对下降了 40%。

目前，Seeduplex 已在豆包 App 全量上线，这意味着全双工技术正式走出实验室，在业界率先实现了规模化落地，可为上亿用户提供连续高质量的实时语音交互体验。多维度评测显示，Seeduplex 在对话的流畅度和节奏感上，均显著优于传统的半双工方案及行业主流 App 的语音通话功能；在判停表现上，模型相比半双工方案提升了 8%，展现出更接近自然对话的分寸感。

项目主页：

https://seed.bytedance.com/seeduplex

体验入口：

请将豆包 App 更新至最新版本，在对话框内选择“打电话”，进入语音通话界面体验即可。

语音交互体验全面升级，对话节奏更精准、更自然

人与人的对话，本身就是一种边听边说的“全双工”交流，过程中充满了停顿、思考、犹豫，以及背景噪音的干扰与声音重叠。一个期望实现自然交互的语音对话系统，必须具备处理这种高自由度、非结构化音频流的能力——既要在喧嚣中“听得清”，又要懂得在你整理思绪时“耐心等”。

过去，传统半双工系统往往依赖级联的模块化设计：利用独立 VAD（语音活动检测）进行机械切音，或通过传统算法进行前端降噪。由于判定依据仅限于单一的声学特征或局部的文本语义特征，系统在复杂环境中极易“被带跑偏”，或在用户停顿时触发“抢话”。

而 Seeduplex 基于自研大语言模型（LLM）底座，创新打造实时语音全双工交互框架，并引入大规模语音数据进行预训练，具备了原生的语音语义联合建模能力。它能全局理解音频中的语音语义信息，动态决策对话节奏，相比传统系统在抗干扰和对话节奏控制表现上实现跃升。

1. 精准抗干扰：喧嚣中强大的“声学专注力”

复杂的声学环境一直是语音交互的挑战。背景噪音、人声干扰常会“污染”用户的语音输入，导致系统响应迟钝、播报中断甚至误触发。过去，用户常需提高音量或寻找安静角落，才能完成一次稳妥的交互。Seeduplex 模型能持续接收并理解用户侧音频，感知用户所在的全局声学环境，从而精准判断哪些是真正和模型交互的声音，哪些是干扰声。抗干扰力的提升，使得 Seeduplex 的误回复率与误打断率大幅下降。

2. 动态判停：快慢有时，收放自如

真正的自然交互，核心在于准确判断用户何时在思考、何时已说完。Seeduplex 通过深度融合语音与语义理解，在对话节奏把控上具有更强的灵活性。

全双工语音技术实现

从演示到规模化落地

全双工能力的实现，对模型架构、算法实现和工程链路都提出了更高要求。Seeduplex 采用了原生端到端的建模方式，系统具备流式感知能力，能够对输入的音频信号进行特征提取，并由底座模型进行实时处理。

在交互逻辑上，模型通过对声学特征与对话上下文的综合建模，自主判断当前时刻的状态，决定是开始回复、继续聆听还是响应用户打断。

为支撑模型在豆包 App 上全面上线，团队在模型框架设计、算法优化、工程性能与稳定性方面进行了大量优化：

模型框架设计：构建更贴合语音实时对话原生特性的模型架构，使模型能够直接从数据中学习语音与语义的一体化表达和节奏控制，显著提升交互自然度。
算法与训练：依托海量语音数据进行大规模预训练，并通过多能力、多任务的后训练体系，实现对话智能、超低延迟、对话节奏控制、强抗干扰能力与指向性理解等多维能力的协同优化，使模型具有稳定、高效、自然的交互表现。
推理性能：通过投机采样、量化等方式极致优化性能，实现成本和延迟的平衡。
服务稳定性：重点解决了收音、播报卡顿等问题，确保模型可在大流量环境下连续稳定运行。

最终，Seeduplex 突破了数据构建、超低时延与模型效果协同优化等核心技术瓶颈。大规模 A/B 实验数据证明了全双工交互模式的价值，相比此前上线豆包的半双工模型，Seeduplex 在用户的通话时长、留存等核心指标上均实现正向提升，整体通话满意度绝对值提升了 8.34%，用户反馈中“抢话”、“响应慢”、“误打断”等问题的提及比例明显下降。

Seeduplex 评测结果，多维度较半双工模型显著提升

我们对 Seeduplex 进行了一系列主客观评测，结果显示，Seeduplex 在打断与判停表现上均显著优于半双工模型，并在多项关键指标上处于行业领先水平。

相比豆包 App 之前使用的半双工对话框架，Seeduplex 的整体交互体验进一步提升，其判停 MOS 分提高了 8%，对话流畅度 MOS 分提升了 12%。

具体来说，Seeduplex 将判停延迟降低约 250ms 的同时，复杂场景下的 AI 抢话比例相对减少 40%；针对用户的打断需求，在响应准确率更高的前提下，Seeduplex 将打断响应的延迟进一步缩短了约 300ms；在复杂声学干扰场景下，Seeduplex 将误回复率和误打断率降低了一半。

另外，通过与原半双工模型以及行业主流 App 语音通话功能的横向对比，Seeduplex 在判停、打断响应任务上展现出明显优势，并显著提升了评测用户对整体交互节奏是否合理的对话流畅度评价。

Seed 全双工语音大模型发布：懂倾听、抗干扰，走向更自然的交互 — 和行业主要对标产品在对话节奏上的主观评测结果（对比产品以字母指代）

通过组织真人对话测试，初步摸底了目前人机对话相对真实人人对话（普通人群）的水位。结果显示，以“人人对话”为基准，Seeduplex 在判停表现上相比半双工方案显著提升了 8%。而在响应打断的表现上，真实人人对话有时在响应上相对滞后，Seeduplex 则表现更稳定，略好于人人对话的平均水平。但在整体对话流畅度上，Seeduplex 和真实人人对话仍有不小差距，有待进一步提升。