2026年 OpenAI Realtime API 定价:来自 4,000 次实测会话的真实数据

作者:Semianchuk Vitalii
来源:https://hackernoon.com/openai-realtime-api-pricing-in-2026-real-world-data-from-4000-measured-sessions

在开发语音AI导游系统时,我们发现大多数已发布的成本估算与实际情况并不相符。有些文章声称每分钟成本低至 0.02 美元,而另一些则认为超过 0.40 美元。这两种说法都与我们实际收到的 OpenAI 账单数据不符。

因此,我们没有依赖这些估算,而是为应用程序配置了按轮次记录令牌的功能,并分析了 4,000 个生产环境会话。本文将详细解析我们的测量结果,阐明成本的实际来源,并提供一个实用的框架,帮助您为语音 AI 项目定价,并自信地向客户报价。

2026年 OpenAI Realtime API 定价:来自 4,000 次实测会话的真实数据

我们正在讨论的模型

gpt-realtime-mini :用于实时语音通话的 WebRTC 流媒体模型。

来自 developers.openai.com/api/docs/pricing 的官方定价:

Token 类型输入缓存输入输出
音频$10.00/1M$0.30/1M$20.00/1M
文本$0.60/1M$0.06/1M$2.40/1M
图像$0.80/1M$0.08/1M

此外,Whisper 转录服务收费为 每分钟 用户语音 0.006 美元(单独计费)。

这是 gpt-realtime-mini。完整版的 gpt-realtime-2 音频版售价 32 美元/64 美元——大约贵 3 倍。请务必确认您实际使用的是哪个版本。

首先需要了解的物理限制

在进行任何估算之前,先做一次合理性检查。

语音输出token = 每秒语音 100 个 token。按 20 美元/100 万token计算:

1 秒 AI 语音 = 100 个 token = 0.000002 美元

1 分钟连续 AI 语音 = 6,000 个 token = 0.12 美元/分钟

这就是成本上限。如果 AI 在一分钟的会话中每秒钟都进行语音输出,仅音频输出一项就要花费 0.12 美元。由于一分钟只有 60 秒,所以不可能超过这个成本上限。

这就是为什么一些博客估算(例如 gpt-realtime-mini 每分钟 0.46 美元)对于单次语音会话来说在物理上是不可能的。仅音频输出就达到每分钟 0.46 美元的成本,就需要每分钟输出 23,000 个token,也就是在 60 秒内输出 230 秒的 AI 语音。

这些数字模拟了 gpt-realtime-2(价格高出 3 倍),包含了外部基础设施,或者干脆就是错误的。

实际成本公式

每次对话的每一分钟都包含:

  1. 音频输入:用户语音(100 个token/秒)
  2. 音频输出:AI语音(100个token/秒)
  3. 文本输入 :系统提示+对话历史记录(每回合重新提交)
  4. 文本输出 :AI响应文本(简短版)
  5. Whisper:用户语音转录

关键洞察: 音频输出占据主导地位。AI 几乎总是比用户说得更多,而输出的计费标准为每百万音频 20 美元,输入的计费标准为每百万音频 10 美元。

典型的 AI 房地产导览助手,每分钟说话25-27秒:

Audio in  (900 tokens):   $0.009
Audio out (2,700 tokens): $0.054   ← this is 80% of your cost
Text in  (7,100 tokens):  $0.004
Text out   (400 tokens):  $0.001
Whisper       (~12s):     $0.001
──────────────────────────────────
Total:                   ~$0.069/min

我们实际测量了什么

我们为每个response.done事件添加了[价格方案]日志记录,捕获每回合的令牌细分数据,包括音频和文本的缓存/未缓存数据。然后,收集会话结束时的总计数据。

第一类旅游代理(2000 次会话,2026 年 3 月)

代理:纯语音房地产指南,配备 RAG 知识库。

访客提出问题,AI 会就房产情况作出回应。

会话时长平均成本范围平均每分钟
1 分钟(n=10)0.066美元0.043美元至0.087美元0.066美元
3分钟(n=20)0.189美元0.132美元至0.384美元0.063美元
5分钟(n=5)0.408美元0.329美元至0.517美元0.082美元

拟合率(OLS 回归,R²=0.978): 混合音频 11.5 美元/百万,混合文本 2.1 美元/百万。

这些“混合”费率是单一数字,根据缓存/未缓存输入和输出的总代币数量来预测实际成本——这些成本是通过经验得出的,而不是直接从定价页面得出的。

轻量级引导代理(2000 次会话,2026 年 4 月)

代理:提供脚本化的语音导览,并在访客打断时提供 AI 问答。

token 模式非常不同,大部分是文本(大量脚本内容),只有在被打断时才会出现音频。

场景时长成本$/分钟
轻量级(少量打断)8-10分钟0.116美元至0.187美元约0.015美元至0.020美元
中等(活跃问答)11–14分钟0.454美元至0.847美元约 0.040 美元至 0.065 美元
极端(上下文激增)14分钟2.05美元0.146美元

在 2.05 美元的极端交易时段中,总计有48万枚token 。随着对话历史的不断增长,每轮都会批量重新提交这些数据。如果不进行历史数据清理,成本将迅速累积。

最小、典型、最大三种情况

场景AI发言时长$/分钟原因
最低限度AI 每分钟大约说话10秒。0.02美元至0.05美元简短回复、上下文信息少、新会话
典型助手AI 每分钟大约说20秒。0.05美元至0.08美元标准问答代理
房地产导览AI 每分钟大约说 27 秒0.063美元至0.082美元节奏适中、健谈的导览
博物馆问答AI 每分钟大约说40秒。0.12美元至0.15美元长篇回复,深度上下文
极端(无剪枝最高可达0.146 美元 上下文窗口在多回合内爆炸

最低配置和最高配置之间的成本差距高达 7 倍 。同样的模型,同样的定价页面,却有着完全不同的转化模式。

哪些因素推高了成本

1. AI 的冗长程度 :这是最重要的因素。每分钟说话 35 秒的 AI 的成本大约是每分钟说话 15 秒的 AI 的两倍。请将系统提示信息调整得简洁明了。

2. 对话历史长度 :每一轮都会重新提交完整的上下文。如果不进行修剪,输入标记会随着轮数线性增长。到第 20 轮时,你每次回复都要为之前 19 次的交流付费。

3. RAG 上下文注入:当 RAG 结果在对话过程中注入时,它们会重置缓存的文本前缀。由于需要重建缓存,每次注入事件的成本约为 0.007 至 0.009 美元。

4. 缓存 :系统提示会在第一回合结束后进行缓存,文本方面每百万分钟可节省 0.54 美元,音频方面每百万分钟可节省 9.70 美元。对于 1 分钟的会话,节省的费用约为 0.003 美元(微不足道)。但对于更长时间的会话,这些节省就显得更为重要了。

真正重要的优化

按影响程度排序:

优化措施节省成本工作量
在系统提示中限制 AI 响应长度成本降低 20%–40%。
精简对话历史记录(最多 10 条)避免成本飙升 5-10 倍
请使用 gpt-realtime-mini 而不是 gpt-realtime-2价格便宜3倍,音质相同
会话在不活动后自动断开连接消除放弃会话成本
仅脚本模式(无实时AI)100% 消除脚本化导览成本
最小化 RAG 重新注入频率减少缓存未命中

给客户报价:如何收费

最常见的错误:根据理论最低价格(约 0.02-0.04 美元/分钟)报价。然后,一个健谈的访客在 10 分钟内提出了 40 个问题,讨论内容变得非常庞杂,最终费用超过 1 美元。

永远不要报最低限度。要报出合理的上限,并留出余地。

我们测算的最坏情况是每分钟 0.146 美元。我们典型的房地产导览费用是每分钟 0.070 美元。

速度利润率与典型值涵盖最坏情况吗?场景
每分钟 0.10 美元约1.5倍太低——避免
每分钟 0.15 美元约2倍仅仅最低安全限值
每分钟 0.20 美元约3倍推荐默认值
每分钟 0.25 美元约3.5倍加上服务水平协议/支持开销
每分钟 0.30 美元约4倍企业/代理/白标

按每分钟 0.20 美元计算,每月预测:

每月分钟数您的 API 费用客户付款毛利率
1,000约70美元200美元约 130 美元(65%)
5,000约350美元1000美元约 650 美元(65%)
10,000约700美元2000美元约 1300 美元(65%)
100,000约7000美元20,000 美元约 13,000 美元(65%)

你看到了什么?

这些数据来自我们的代理,由 RAG 提供的语音导览服务。你的聊天机器人、客服人员或销售助理可能会提供不同的服务。

如果你已经通过Realtime  API 发布了服务,请在评论区分享你的实际每分钟费用($/min)。不是计算结果,而是你账单控制面板上的实际数字。即使是“一个平均运行 4 分钟的客服机器人,每分钟大约 0.08 美元”这样的粗略估算,也比任何理论分析都更有用。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/webrtc/67921.html

(0)

相关推荐