埃隆·马斯克的 AI 公司 xAI 发布了两款独立的音频API:语音转文本(STT)API和文本转语音(TTS)API。这两款 API 均基于与移动应用、特斯拉汽车和 Starlink 客户支持系统所使用的 Grok Voice 相同的底层架构。此次发布标志着 xAI 正式进军竞争激烈的语音 API 市场,该市场目前由 ElevenLabs、Deepgram 和 AssemblyAI 等公司占据。
什么是 Grok 语音转文本 API?
语音转文本(STT)技术可以将语音转换为文本。对于构建会议转录工具、语音代理、呼叫中心分析或辅助功能等的开发者而言,STT API 是一个核心构建模块。开发者无需从零开始开发,只需调用一个接口,发送音频,即可接收结构化的转录文本。
Grok STT API 现已正式发布,支持 25 种语言的转录,并提供批量和流式两种模式。批量模式专为处理预录制的音频文件而设计,而流式模式则可在音频采集的同时进行实时转录。定价简单明了:批量模式每小时 0.10 美元,流式模式每小时 0.20 美元。
该API包含词级时间戳、说话人分割和多声道支持,以及智能反向文本规范化功能,可正确处理数字、日期、货币等。它还支持12种音频格式——9种容器格式(WAV、MP3、OGG、Opus、FLAC、AAC、MP4、M4A、MKV)和3种原始格式(PCM、µ-law、A-law),每次请求最大文件大小为500MB。
说话人分割是将音频按说话人分离的过程,回答“谁说了什么”的问题。这对于多人录音(例如会议、采访或客户电话)至关重要。词级时间戳为转录文本中的每个单词分配精确的开始和结束时间,从而支持字幕生成、可搜索录音和法律文档等应用场景。反向文本规范化将口语形式(例如“一百六万七千九百八十三美元一十五美分”)转换为可读的结构化输出:“$167,983.15”。
基准性能
xAI 研究团队对其准确性做出了强有力的声明。在电话通话实体识别(姓名、账号、日期)方面,Grok STT 的错误率仅为 5.0%,而 ElevenLabs 的错误率为 12.0%,Deepgram 为 13.5%,AssemblyAI 则高达 21.3%。如果这一数据在实际生产环境中也能保持,那么这将是一个巨大的优势。在视频和播客转录方面,Grok 和 ElevenLabs 的错误率均为 2.4%,Deepgram 和 AssemblyAI 的错误率分别为 3.0% 和 3.2%。xAI 团队还报告称,在一般音频基准测试中,Grok 的单词错误率为 6.9%。


什么是 Grok 文本转语音 API?
文本转语音技术将书面文本转换为语音。开发者使用 TTS API 来支持语音助手、朗读功能、播客生成、IVR(交互式语音应答)系统和辅助功能工具。
Grok TTS API 提供快速、自然的语音合成功能,并可通过语音标签进行精细控制,定价为每百万字符 4.20 美元。该 API 每个 REST 请求最多可接受 15,000 个字符;对于更长的内容,可以使用 WebSocket 流式传输端点,该端点没有文本长度限制,并且在处理完所有输入之前就开始返回音频。该 API 支持20 种语言和五种不同的语音:Ara、Eve、Leo、Rex 和 Sal,其中 Eve 设置为默认语音。
除了语音选择外,开发者还可以插入内联和包裹式语音标签来控制语音表达。这些标签包括 [laugh]、[sigh] 和 [breath] 等行内标签,以及 <whisper>文本 </whisper> 和 <emphasis>文本 </emphasis>等包裹标签,让开发者无需复杂的标记即可创建引人入胜、栩栩如生的语音表达。这种表现力解决了传统 TTS 系统的一个核心局限,这些系统通常能生成技术上正确但情感平淡的输出。
要点总结
- xAI 推出了两个独立的音频 API 。Grok 语音转文本 (STT) 和文本转语音 (TTS),它们基于相同的生产堆栈构建,该堆栈已为 Grok 移动应用程序、特斯拉汽车和 Starlink 客户支持中的数百万用户提供服务。
- Grok STT API 提供 25 种语言的实时和批量转录,支持说话人分割、单词级时间戳、反向文本规范化,并支持 12 种音频格式。批量转录价格为每小时 0.10 美元,流媒体转录价格为每小时 0.20 美元。
- 在电话呼叫实体识别基准测试中,Grok STT 的错误率为 5.0%,明显优于 ElevenLabs (12.0%)、Deepgram (13.5%) 和 AssemblyAI (21.3%),尤其在医疗、法律和金融用例中表现强劲。
- Grok TTS API 支持20 种语言的五种富有表现力的声音(Ara、Eve、Leo、Rex、Sal),以及内联和包装语音标签,如
[laugh]、[sigh]和<whisper>,并允许开发人员对语音输出进行精细控制。定价为每百万个字符 4.20 美元。
查看技术详情:https://x.ai/news/grok-stt-and-tts-apis
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/66269.html