2026年 OpenAI Realtime API 定价：来自 4,000 次实测会话的真实数据

作者：Semianchuk Vitalii
来源：https://hackernoon.com/openai-realtime-api-pricing-in-2026-real-world-data-from-4000-measured-sessions

在开发语音AI导游系统时，我们发现大多数已发布的成本估算与实际情况并不相符。有些文章声称每分钟成本低至 0.02 美元，而另一些则认为超过 0.40 美元。这两种说法都与我们实际收到的 OpenAI 账单数据不符。

因此，我们没有依赖这些估算，而是为应用程序配置了按轮次记录令牌的功能，并分析了 4,000 个生产环境会话。本文将详细解析我们的测量结果，阐明成本的实际来源，并提供一个实用的框架，帮助您为语音 AI 项目定价，并自信地向客户报价。

2026年 OpenAI Realtime API 定价：来自 4,000 次实测会话的真实数据

我们正在讨论的模型

gpt-realtime-mini ：用于实时语音通话的 WebRTC 流媒体模型。

来自 developers.openai.com/api/docs/pricing 的官方定价：

Token 类型	输入	缓存输入	输出
音频	$10.00/1M	$0.30/1M	$20.00/1M
文本	$0.60/1M	$0.06/1M	$2.40/1M
图像	$0.80/1M	$0.08/1M	—

此外，Whisper 转录服务收费为 每分钟 用户语音 0.006 美元（单独计费）。

这是 gpt-realtime-mini。完整版的 gpt-realtime-2 音频版售价 32 美元/64 美元——大约贵 3 倍。请务必确认您实际使用的是哪个版本。

首先需要了解的物理限制

在进行任何估算之前，先做一次合理性检查。

语音输出token = 每秒语音 100 个 token。按 20 美元/100 万token计算：

1 秒 AI 语音 = 100 个 token = 0.000002 美元

1 分钟连续 AI 语音 = 6,000 个 token = 0.12 美元/分钟

这就是成本上限。如果 AI 在一分钟的会话中每秒钟都进行语音输出，仅音频输出一项就要花费 0.12 美元。由于一分钟只有 60 秒，所以不可能超过这个成本上限。

这就是为什么一些博客估算（例如 gpt-realtime-mini 每分钟 0.46 美元）对于单次语音会话来说在物理上是不可能的。仅音频输出就达到每分钟 0.46 美元的成本，就需要每分钟输出 23,000 个token，也就是在 60 秒内输出 230 秒的 AI 语音。

这些数字模拟了 gpt-realtime-2（价格高出 3 倍），包含了外部基础设施，或者干脆就是错误的。

实际成本公式

每次对话的每一分钟都包含：

音频输入：用户语音（100 个token/秒）
音频输出：AI语音（100个token/秒）
文本输入 ：系统提示+对话历史记录（每回合重新提交）
文本输出 ：AI响应文本（简短版）
Whisper：用户语音转录

关键洞察： 音频输出占据主导地位。AI 几乎总是比用户说得更多，而输出的计费标准为每百万音频 20 美元，输入的计费标准为每百万音频 10 美元。

典型的 AI 房地产导览助手，每分钟说话25-27秒：

Audio in  (900 tokens):   $0.009
Audio out (2,700 tokens): $0.054   ← this is 80% of your cost
Text in  (7,100 tokens):  $0.004
Text out   (400 tokens):  $0.001
Whisper       (~12s):     $0.001
──────────────────────────────────
Total:                   ~$0.069/min

我们实际测量了什么

我们为每个response.done事件添加了[价格方案]日志记录，捕获每回合的令牌细分数据，包括音频和文本的缓存/未缓存数据。然后，收集会话结束时的总计数据。

第一类旅游代理（2000 次会话，2026 年 3 月）

代理：纯语音房地产指南，配备 RAG 知识库。

访客提出问题，AI 会就房产情况作出回应。

会话时长	平均成本	范围	平均每分钟
1 分钟（n=10）	0.066美元	0.043美元至0.087美元	0.066美元
3分钟（n=20）	0.189美元	0.132美元至0.384美元	0.063美元
5分钟（n=5）	0.408美元	0.329美元至0.517美元	0.082美元

拟合率（OLS 回归，R²=0.978）： 混合音频 11.5 美元/百万，混合文本 2.1 美元/百万。

这些“混合”费率是单一数字，根据缓存/未缓存输入和输出的总代币数量来预测实际成本——这些成本是通过经验得出的，而不是直接从定价页面得出的。

轻量级引导代理（2000 次会话，2026 年 4 月）

代理：提供脚本化的语音导览，并在访客打断时提供 AI 问答。

token 模式非常不同，大部分是文本（大量脚本内容），只有在被打断时才会出现音频。

场景	时长	成本	$/分钟
轻量级（少量打断）	8-10分钟	0.116美元至0.187美元	约0.015美元至0.020美元
中等（活跃问答）	11–14分钟	0.454美元至0.847美元	约 0.040 美元至 0.065 美元
极端（上下文激增）	14分钟	2.05美元	0.146美元

在 2.05 美元的极端交易时段中，总计有48万枚token 。随着对话历史的不断增长，每轮都会批量重新提交这些数据。如果不进行历史数据清理，成本将迅速累积。

最小、典型、最大三种情况

场景	AI发言时长	$/分钟	原因
最低限度	AI 每分钟大约说话10秒。	0.02美元至0.05美元	简短回复、上下文信息少、新会话
典型助手	AI 每分钟大约说20秒。	0.05美元至0.08美元	标准问答代理
房地产导览	AI 每分钟大约说 27 秒	0.063美元至0.082美元	节奏适中、健谈的导览
博物馆问答	AI 每分钟大约说40秒。	0.12美元至0.15美元	长篇回复，深度上下文
极端（无剪枝）	—	最高可达0.146 美元	上下文窗口在多回合内爆炸

最低配置和最高配置之间的成本差距高达 7 倍 。同样的模型，同样的定价页面，却有着完全不同的转化模式。

哪些因素推高了成本

1. AI 的冗长程度 ：这是最重要的因素。每分钟说话 35 秒的 AI 的成本大约是每分钟说话 15 秒的 AI 的两倍。请将系统提示信息调整得简洁明了。

2. 对话历史长度 ：每一轮都会重新提交完整的上下文。如果不进行修剪，输入标记会随着轮数线性增长。到第 20 轮时，你每次回复都要为之前 19 次的交流付费。

3. RAG 上下文注入：当 RAG 结果在对话过程中注入时，它们会重置缓存的文本前缀。由于需要重建缓存，每次注入事件的成本约为 0.007 至 0.009 美元。

4. 缓存 ：系统提示会在第一回合结束后进行缓存，文本方面每百万分钟可节省 0.54 美元，音频方面每百万分钟可节省 9.70 美元。对于 1 分钟的会话，节省的费用约为 0.003 美元（微不足道）。但对于更长时间的会话，这些节省就显得更为重要了。

真正重要的优化

按影响程度排序：

优化措施	节省成本	工作量
在系统提示中限制 AI 响应长度	成本降低 20%–40%。	低
精简对话历史记录（最多 10 条）	避免成本飙升 5-10 倍	低
请使用 gpt-realtime-mini 而不是 gpt-realtime-2	价格便宜3倍，音质相同	低
会话在不活动后自动断开连接	消除放弃会话成本	中
仅脚本模式（无实时AI）	100% 消除脚本化导览成本	中
最小化 RAG 重新注入频率	减少缓存未命中	中

给客户报价：如何收费

最常见的错误：根据理论最低价格（约 0.02-0.04 美元/分钟）报价。然后，一个健谈的访客在 10 分钟内提出了 40 个问题，讨论内容变得非常庞杂，最终费用超过 1 美元。

永远不要报最低限度。要报出合理的上限，并留出余地。

我们测算的最坏情况是每分钟 0.146 美元。我们典型的房地产导览费用是每分钟 0.070 美元。

速度	利润率与典型值	涵盖最坏情况吗？	场景
每分钟 0.10 美元	约1.5倍	不	太低——避免
每分钟 0.15 美元	约2倍	仅仅	最低安全限值
每分钟 0.20 美元	约3倍	是	推荐默认值
每分钟 0.25 美元	约3.5倍	是	加上服务水平协议/支持开销
每分钟 0.30 美元	约4倍	是	企业/代理/白标

按每分钟 0.20 美元计算，每月预测：

每月分钟数	您的 API 费用	客户付款	毛利率
1,000	约70美元	200美元	约 130 美元（65%）
5,000	约350美元	1000美元	约 650 美元（65%）
10,000	约700美元	2000美元	约 1300 美元（65%）
100,000	约7000美元	20,000 美元	约 13,000 美元（65%）