作者:Semianchuk Vitalii
来源:https://hackernoon.com/openai-realtime-api-pricing-in-2026-real-world-data-from-4000-measured-sessions
在开发语音AI导游系统时,我们发现大多数已发布的成本估算与实际情况并不相符。有些文章声称每分钟成本低至 0.02 美元,而另一些则认为超过 0.40 美元。这两种说法都与我们实际收到的 OpenAI 账单数据不符。
因此,我们没有依赖这些估算,而是为应用程序配置了按轮次记录令牌的功能,并分析了 4,000 个生产环境会话。本文将详细解析我们的测量结果,阐明成本的实际来源,并提供一个实用的框架,帮助您为语音 AI 项目定价,并自信地向客户报价。

我们正在讨论的模型
gpt-realtime-mini :用于实时语音通话的 WebRTC 流媒体模型。
来自 developers.openai.com/api/docs/pricing 的官方定价:
| Token 类型 | 输入 | 缓存输入 | 输出 |
|---|---|---|---|
| 音频 | $10.00/1M | $0.30/1M | $20.00/1M |
| 文本 | $0.60/1M | $0.06/1M | $2.40/1M |
| 图像 | $0.80/1M | $0.08/1M | — |
此外,Whisper 转录服务收费为 每分钟 用户语音 0.006 美元(单独计费)。
这是 gpt-realtime-mini。完整版的 gpt-realtime-2 音频版售价 32 美元/64 美元——大约贵 3 倍。请务必确认您实际使用的是哪个版本。
首先需要了解的物理限制
在进行任何估算之前,先做一次合理性检查。
语音输出token = 每秒语音 100 个 token。按 20 美元/100 万token计算:
1 秒 AI 语音 = 100 个 token = 0.000002 美元
1 分钟连续 AI 语音 = 6,000 个 token = 0.12 美元/分钟
这就是成本上限。如果 AI 在一分钟的会话中每秒钟都进行语音输出,仅音频输出一项就要花费 0.12 美元。由于一分钟只有 60 秒,所以不可能超过这个成本上限。
这就是为什么一些博客估算(例如 gpt-realtime-mini 每分钟 0.46 美元)对于单次语音会话来说在物理上是不可能的。仅音频输出就达到每分钟 0.46 美元的成本,就需要每分钟输出 23,000 个token,也就是在 60 秒内输出 230 秒的 AI 语音。
这些数字模拟了 gpt-realtime-2(价格高出 3 倍),包含了外部基础设施,或者干脆就是错误的。
实际成本公式
每次对话的每一分钟都包含:
- 音频输入:用户语音(100 个token/秒)
- 音频输出:AI语音(100个token/秒)
- 文本输入 :系统提示+对话历史记录(每回合重新提交)
- 文本输出 :AI响应文本(简短版)
- Whisper:用户语音转录
关键洞察: 音频输出占据主导地位。AI 几乎总是比用户说得更多,而输出的计费标准为每百万音频 20 美元,输入的计费标准为每百万音频 10 美元。
典型的 AI 房地产导览助手,每分钟说话25-27秒:
Audio in (900 tokens): $0.009
Audio out (2,700 tokens): $0.054 ← this is 80% of your cost
Text in (7,100 tokens): $0.004
Text out (400 tokens): $0.001
Whisper (~12s): $0.001
──────────────────────────────────
Total: ~$0.069/min
我们实际测量了什么
我们为每个response.done事件添加了[价格方案]日志记录,捕获每回合的令牌细分数据,包括音频和文本的缓存/未缓存数据。然后,收集会话结束时的总计数据。
第一类旅游代理(2000 次会话,2026 年 3 月)
代理:纯语音房地产指南,配备 RAG 知识库。
访客提出问题,AI 会就房产情况作出回应。
| 会话时长 | 平均成本 | 范围 | 平均每分钟 |
|---|---|---|---|
| 1 分钟(n=10) | 0.066美元 | 0.043美元至0.087美元 | 0.066美元 |
| 3分钟(n=20) | 0.189美元 | 0.132美元至0.384美元 | 0.063美元 |
| 5分钟(n=5) | 0.408美元 | 0.329美元至0.517美元 | 0.082美元 |
拟合率(OLS 回归,R²=0.978): 混合音频 11.5 美元/百万,混合文本 2.1 美元/百万。
这些“混合”费率是单一数字,根据缓存/未缓存输入和输出的总代币数量来预测实际成本——这些成本是通过经验得出的,而不是直接从定价页面得出的。
轻量级引导代理(2000 次会话,2026 年 4 月)
代理:提供脚本化的语音导览,并在访客打断时提供 AI 问答。
token 模式非常不同,大部分是文本(大量脚本内容),只有在被打断时才会出现音频。
| 场景 | 时长 | 成本 | $/分钟 |
|---|---|---|---|
| 轻量级(少量打断) | 8-10分钟 | 0.116美元至0.187美元 | 约0.015美元至0.020美元 |
| 中等(活跃问答) | 11–14分钟 | 0.454美元至0.847美元 | 约 0.040 美元至 0.065 美元 |
| 极端(上下文激增) | 14分钟 | 2.05美元 | 0.146美元 |
在 2.05 美元的极端交易时段中,总计有48万枚token 。随着对话历史的不断增长,每轮都会批量重新提交这些数据。如果不进行历史数据清理,成本将迅速累积。
最小、典型、最大三种情况
| 场景 | AI发言时长 | $/分钟 | 原因 |
|---|---|---|---|
| 最低限度 | AI 每分钟大约说话10秒。 | 0.02美元至0.05美元 | 简短回复、上下文信息少、新会话 |
| 典型助手 | AI 每分钟大约说20秒。 | 0.05美元至0.08美元 | 标准问答代理 |
| 房地产导览 | AI 每分钟大约说 27 秒 | 0.063美元至0.082美元 | 节奏适中、健谈的导览 |
| 博物馆问答 | AI 每分钟大约说40秒。 | 0.12美元至0.15美元 | 长篇回复,深度上下文 |
| 极端(无剪枝) | — | 最高可达0.146 美元 | 上下文窗口在多回合内爆炸 |
最低配置和最高配置之间的成本差距高达 7 倍 。同样的模型,同样的定价页面,却有着完全不同的转化模式。
哪些因素推高了成本
1. AI 的冗长程度 :这是最重要的因素。每分钟说话 35 秒的 AI 的成本大约是每分钟说话 15 秒的 AI 的两倍。请将系统提示信息调整得简洁明了。
2. 对话历史长度 :每一轮都会重新提交完整的上下文。如果不进行修剪,输入标记会随着轮数线性增长。到第 20 轮时,你每次回复都要为之前 19 次的交流付费。
3. RAG 上下文注入:当 RAG 结果在对话过程中注入时,它们会重置缓存的文本前缀。由于需要重建缓存,每次注入事件的成本约为 0.007 至 0.009 美元。
4. 缓存 :系统提示会在第一回合结束后进行缓存,文本方面每百万分钟可节省 0.54 美元,音频方面每百万分钟可节省 9.70 美元。对于 1 分钟的会话,节省的费用约为 0.003 美元(微不足道)。但对于更长时间的会话,这些节省就显得更为重要了。
真正重要的优化
按影响程度排序:
| 优化措施 | 节省成本 | 工作量 |
|---|---|---|
| 在系统提示中限制 AI 响应长度 | 成本降低 20%–40%。 | 低 |
| 精简对话历史记录(最多 10 条) | 避免成本飙升 5-10 倍 | 低 |
| 请使用 gpt-realtime-mini 而不是 gpt-realtime-2 | 价格便宜3倍,音质相同 | 低 |
| 会话在不活动后自动断开连接 | 消除放弃会话成本 | 中 |
| 仅脚本模式(无实时AI) | 100% 消除脚本化导览成本 | 中 |
| 最小化 RAG 重新注入频率 | 减少缓存未命中 | 中 |
给客户报价:如何收费
最常见的错误:根据理论最低价格(约 0.02-0.04 美元/分钟)报价。然后,一个健谈的访客在 10 分钟内提出了 40 个问题,讨论内容变得非常庞杂,最终费用超过 1 美元。
永远不要报最低限度。要报出合理的上限,并留出余地。
我们测算的最坏情况是每分钟 0.146 美元。我们典型的房地产导览费用是每分钟 0.070 美元。
| 速度 | 利润率与典型值 | 涵盖最坏情况吗? | 场景 |
|---|---|---|---|
| 每分钟 0.10 美元 | 约1.5倍 | 不 | 太低——避免 |
| 每分钟 0.15 美元 | 约2倍 | 仅仅 | 最低安全限值 |
| 每分钟 0.20 美元 | 约3倍 | 是 | 推荐默认值 |
| 每分钟 0.25 美元 | 约3.5倍 | 是 | 加上服务水平协议/支持开销 |
| 每分钟 0.30 美元 | 约4倍 | 是 | 企业/代理/白标 |
按每分钟 0.20 美元计算,每月预测:
| 每月分钟数 | 您的 API 费用 | 客户付款 | 毛利率 |
|---|---|---|---|
| 1,000 | 约70美元 | 200美元 | 约 130 美元(65%) |
| 5,000 | 约350美元 | 1000美元 | 约 650 美元(65%) |
| 10,000 | 约700美元 | 2000美元 | 约 1300 美元(65%) |
| 100,000 | 约7000美元 | 20,000 美元 | 约 13,000 美元(65%) |
你看到了什么?
这些数据来自我们的代理,由 RAG 提供的语音导览服务。你的聊天机器人、客服人员或销售助理可能会提供不同的服务。
如果你已经通过Realtime API 发布了服务,请在评论区分享你的实际每分钟费用($/min)。不是计算结果,而是你账单控制面板上的实际数字。即使是“一个平均运行 4 分钟的客服机器人,每分钟大约 0.08 美元”这样的粗略估算,也比任何理论分析都更有用。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/webrtc/67921.html