LiveKit 完成 1 亿美元融资后估值达到 10 亿美元

开源基础设施提供商 LiveKit 为实时语音和视频 AI 体验提供支持,该公司已完成 1 亿美元融资,估值达到 10 亿美元,巩固了其在快速发展的语音 AI 技术栈中的核心地位。本轮融资由 Index Ventures 领投,Altimeter Capital Management、Hanabi Capital 和 Redpoint Ventures 等现有投资者也参与了投资。

LiveKit 最为人熟知的是它作为OpenAI ChatGPT 语音模式背后的引擎,如今已成为构建低延迟对话式应用程序的公司的首选。其客户涵盖 xAI、Salesforce 和 Tesla 等公司,同时也应用于 911 紧急服务中心和心理健康服务提供商等高风险领域,在这些领域,可靠性和实时性能至关重要。

LiveKit 完成 1 亿美元融资后估值达到 10 亿美元

为什么实时语音 AI 需要新的基础设施

人类对话容不得丝毫延迟。研究人员早已注意到,自然的轮流发言通常只会导致说话者之间只有几百毫秒的延迟,而诸如ITU-T G.114之类的电信指南历来建议将单向语音延迟保持在150毫秒左右或以下,以确保高质量的用户体验。如果语音助手要等到听完一句话才做出回应,就会显得机械生硬;它们需要实时音频输入、实时音频输出,以及一个能够在聆听的同时进行推理的逻辑层模型(LLM)。大规模实现这种协调并非易事。

LiveKit 的架构依赖于 WebRTC 式的媒体传输和选择性转发单元 (SFU) 拓扑结构,以最小的抖动传输音频和视频,然后协调自动语音识别、LLM 和文本转语音等实时流程。该公司的技术与 OpenAI 进军实时语音领域的战略完美契合——OpenAI 在 2024 年展示的对话模型演示中,实现了亚秒级、可中断的对话,而这正是依赖于这种低延迟、易于中断的基础设施。

从开源到企业需求

LiveKit由Russ d’Sa和David Zhao于2021年创立,最初是一个开源工具包,用于构建可靠的实时音频和视频应用——诞生于视频通话盛行的时代。这个最初以开发者为中心的项目,随着企业对具备服务级别协议(SLA)、可观测性和全球扩展性的托管云服务的需求日益增长,迅速获得了企业用户的青睐。语音人工智能的蓬勃发展,最终将这种需求转化为一种商业模式。

如今,该公司横跨开源生态系统和托管服务,为团队提供两种选择:既可选择自行托管以确保控制和合规性,也可选择完全托管的环境以获得速度优势。这种灵活性对于受监管行业至关重要。据美国国家协会统计,美国紧急服务部门每年处理约 2.4 亿个 911 报警电话,而心理健康服务提供者则面临着严格的隐私义务——这两者都需要确定性的性能、区域数据控制和故障转移选项,而典型的应用程序框架通常无法提供这些功能。

LiveKit 在语音 AI 技术栈中的位置

语音 AI 由三层组成:语音层(自动语音识别和文本转语音)、推理层(逻辑层模型)和实时路由/协调层。LiveKit 专注于第三层,确保媒体传输、会话控制和事件计时足够精确,从而实现自然对话。在实践中,这意味着可中断性、快速轮流对话、自适应比特率和丢包恢复能力——此外,它还与 OpenAI 等模型提供商无缝集成,用于逻辑层模型推理。

该公司的客户利用这一基础架构完成各种任务:无需云端往返即可理解驾驶员的 copilots、能够进行流畅对话的销售和服务代理,以及融合人工操作员和人工智能的安全关键型紧急呼叫系统。对于已经投资于客户关系管理 (CRM) 和分析平台的企业而言,LiveKit 的作用在于提供可靠的实时 I/O,而语音和模型供应商的选择则可以在底层逐步扩展。

实时语音 AI 的竞争与投资者逻辑

这个领域竞争激烈,但也十分分散。Twilio、Agora、ZEGO 和 Daily 等通信基础设施提供商拥有对开发者友好的媒体工具;Deepgram、AssemblyAI 和 ElevenLabs 等语音识别专家专注于准确性和语音保真度;而 OpenAI 等人工智能平台则致力于开发多模态实时模型。LiveKit 认为,一个中立的、可编程的实时层——专为人工智能交互而精心调校,将在所有这些生态系统中发挥不可或缺的作用。

随着实时人工智能从演示阶段走向生产阶段,投资者们也开始支持这一论点。Index Ventures 的领跑地位凸显了人工智能支出正从纯粹的模型训练转向推理基础设施和编排。NVIDIA 推出的 Riva 和其他实时语音产品进一步验证了对超低延迟管道的需求,但企业仍然需要一个统一的媒体和会话层才能使所有组件协同工作。

LiveKit 和实时人工智能的未来发展趋势值得关注

预计 LiveKit 将加大对边缘加速、设备端回退机制以及更丰富的多模态功能(例如实时翻译、情感感知文本转语音和视频头像同步手势)的投入。对于买家而言,关键指标将包括端到端延迟、网络压力下的质量、可观测性以及合规性选项(例如区域隔离或私有云部署)。

凭借新的资金、为 ChatGPT 的语音模式提供支持的旗舰合作伙伴关系,以及不断增长的高价值用户名单,LiveKit 的独角兽融资表明,人工智能的战场不再仅仅是更大的模型——而是要在关键的几毫秒内让对话感觉像人一样。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/64491.html

(0)

相关推荐

发表回复

登录后才能评论