OpenAI 在 Realtime API 中发布了三个实时音频模型：GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper

OpenAI 通过其 Realtime API 发布了三个全新的音频模型，分别针对实时语音应用中的不同功能：GPT-Realtime-2 用于具备推理能力的语音代理，GPT-Realtime-Translate 用于实时语音翻译，GPT-Realtime-Whisper 用于流式转录。伴随模型的发布，Realtime API 也正式结束 Beta 测试，面向所有用户开放，这对那些尚未基于该 API 构建生产系统的开发者来说是一个重要的信号。所有三个模型均可立即通过 OpenAI API 使用，并可在 Playground 中进行测试。

它们共同推动语音应用超越基本的问答循环，朝着能够在一次对话中聆听、推理、翻译、转录和行动的系统发展。

GPT-Realtime-2：具有 128K 上下文窗口的语音推理

OpenAI 在 Realtime API 中发布了三个实时音频模型：GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper — 图片来自openai

OpenAI 团队发布的旗舰版本是 GPT-Realtime-2，他们称之为首个具备 GPT-5 级别推理能力的语音模型。GPT-Realtime-2 可以处理更复杂的请求，应对语音中断，并自然地继续对话。OpenAI 将模型的上下文窗口从 32K 个词元扩展到 128K 个词元，从而支持更长的对话和更复杂的任务，而不会丢失上下文信息。

以往的语音模型经常在处理多步骤请求时卡顿，或者在长时间的对话中丢失之前的上下文信息。GPT-Realtime-2 的设计初衷就是为了在处理请求的同时保持对话流畅进行。

开发者可以启用简短的开场白，例如“让我查一下”或“稍等片刻”，以便用户知道代理正在处理请求。该模型还可以同时调用多个工具，并在执行过程中进行语音播报，这样用户在执行多步骤任务时就不会感到沉默，而是能获得实时解说。这些功能直接解决了已部署语音代理中最常见的故障模式之一：令人尴尬的沉默，这种沉默会让用户感觉系统出了问题。

对于生产环境开发者而言，一个特别有用的控制项是可调节的推理强度。开发者可以将推理强度调整为五个级别：最低、低、中、高和超高。默认值为“低”，以降低简单请求的延迟，而更复杂的任务则可以利用更多的计算资源。这意味着团队可以根据具体用例，在会话级别调整性能与延迟之间的平衡——快速的客户查询不需要像多步骤旅行预订流程那样深入的推理。

GPT-Realtime-2 还新增了语气控制功能。该模型可以根据不同情况调整说话风格，比如在解决问题时保持冷静，在用户感到沮丧时表现出同理心，并在取得成功后变得乐观积极。此外，该模型也更擅长理解行业特定术语，包括医疗保健词汇和专有名词。

在基准测试中，提升幅度显著。GPT-Realtime-2 高推理能力版本在 Big Bench Audio 测试中得分 96.6%，而 GPT-Realtime-1.5 的得分为 81.4%，提升了 15.2 个百分点。GPT-Realtime-2 xhigh 推理能力版本在 Audio MultiChallenge 指令跟踪测试中得分 48.5%，而 GPT-Realtime-1.5 的得分为 34.7%。

Big Bench Audio 评估支持音频输入的语言模型的复杂推理能力。Audio MultiChallenge 评估口语对话系统中的多轮对话智能，包括指令跟踪、上下文整合、自洽性以及处理自然语音纠错。

定价： GPT-Realtime-2 的定价为每百万个音频输入token 32 美元（缓存输入token 0.40 美元），每百万个音频输出token 64 美元。

GPT-Realtime-Translate：支持70多种语言的实时语音翻译

GPT-Realtime-Translate 是一种全新的实时翻译模型，能够将 70 多种输入语言的语音翻译成 13 种输出语言，并能与说话者的语速保持同步。与 GPT-Realtime-2 不同，该模型是一个专用的翻译管道，语音输入一种语言，输出另一种语言。它并非对话代理；其设计目的是将一个音频流实时转换为另一个音频流。

区分这两种模式对于选择合适的工具至关重要。如果您的应用程序需要双语客户支持流程或为现场活动提供实时口译服务，GPT-Realtime-Translate 是专为此类需求而设计的。如果您还需要模型进行推理、调用函数或在对话回合中保持上下文关联，GPT-Realtime-2 则能满足这些需求。

定价： GPT-Realtime-Translate 的定价为每分钟 0.034 美元。

GPT-Realtime-Whisper：实时语音转录

GPT-Realtime-Whisper 是一种新型的流式语音转文本模型，专为低延迟语音转文本而构建——在人们说话的同时转录音频，从而使实时产品感觉更快、响应更灵敏、更自然。

最初的 Whisper 模型是为完整的音频片段设计的，因此更适合会话后转录。GPT-Realtime-Whisper 是其流媒体版本，专为需要实时输出的应用而打造。对于实时转录，gpt-realtime-whisper 提供可控延迟，较低的延迟设置会生成较早的部分文本，而较高的延迟设置可以提高转录质量。

使用案例包括直播字幕、对话过程中生成的会议记录，以及需要持续理解用户而不是等待逐个输入的语音代理。

定价： GPT-Realtime-Whisper 的定价为每分钟 0.017 美元。

架构模式与新声音

开发者可以根据使用场景选择三种会话类型：当应用程序需要能够响应用户的助手时，可以选择语音代理会话；当应用程序需要口译员时，可以选择翻译会话；当需要从音频中提取文本而不需要模型生成的响应时，可以选择转录会话。

在语音输出方面，Cedar 和 Marin 这两个新语音将独家加入到 API 库中。

GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper 这三个模型现在都可以通过 OpenAI Realtime API 使用，该 API 从今天起正式上线。

要点总结

GPT-Realtime-2 将 GPT-5 级别的推理能力引入语音领域，拥有 128K 上下文窗口、五级可调推理强度、语调控制、并行工具调用和中断恢复功能。
在 Big Bench Audio 测试中，GPT-Realtime-2（高）得分 96.6%，而 GPT-Realtime-1.5 得分 81.4%；在 Audio MultiChallenge 测试中，xhigh 变体得分 48.5%，而 GPT-Realtime-1.5 得分 34.7%。
GPT-Realtime-Translate 能够以每分钟 0.034 美元的价格，将 70 多种输入语言实时翻译成 13 种输出语言。
GPT-Realtime-Whisper 提供实时转录服务，延迟可控，价格为每分钟 0.017 美元。
Realtime API 结束测试阶段，正式上线，同时新增了 Cedar 和 Marin 两个语音包。

参考资料：

https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/jishu/66569.html