适用于 ESP32 的 LiveKit SDK:将语音 AI 引入嵌入式设备

在过去的几个月,LiveKit 团队与乐鑫科技(Espressif Systems)紧密合作,为 ESP32 平台带来了功能齐全的 LiveKit SDK。该 SDK 基于乐鑫科技的硬件优化型 WebRTC 和媒体组件构建,确保了与其他平台的完全兼容性和可靠的性能。通过 LiveKit 最新的版本,ESP32 开发者可以使用与 LiveKit 其他客户端 SDK相同的功能和特性,构建语音 AI 交互。

适用于 ESP32 的 LiveKit SDK:将语音 AI 引入嵌入式设备

WebRTC 在嵌入式设备中的挑战

正如其名,WebRTC 最初是为 Web 设计的,目标设备是拥有充足内存和处理能力的设备。然而,在嵌入式平台上,由于内存限制以及缺乏媒体处理的硬件加速,WebRTC 的部署并不实际。乐鑫科技 在过去一年中发布了多个即用型组件,例如 esp_catureesp_peer,使用户能够轻松地将媒体捕获和发布到 WebRTC 服务器的功能添加到嵌入式 ESP32 项目中。

基于这些进展,LiveKit 对 ESP32 WebRTC 实现进行了精心优化,以最大限度地减少建立和维护房间连接所需的内存。在协议层面,LiveKit 对 Protobuf 的编码和解码进行了严格的管理,以降低开销:部分解码会跳过未使用的字段,而动态大小的字段(例如字符串和重复字段)则尽可能使用栈分配。

为什么选择 ESP32?

全球已有超过十亿台设备搭载了 ESP32 平台,该平台已拥有蓬勃发展的开发者和项目生态系统。乐鑫科技投入巨资开发了强大且支持完善的库,涵盖从 WebRTC 媒体流和音频处理算法到音视频编码等各个方面。而最新一代的 ESP32-P4 芯片,使得在售价不到十美元的设备上实现实时物联网语音 AI 成为可能。

ESP32 + LiveKit 应用案例

  • 智能语音助手设备:低成本便携式语音助手硬件,可将用户与云端的 AI 代理连接起来。
  • 带有 AI 虚拟形象的视频界面:带有摄像头和显示屏的设备,可将 AI 视频虚拟形象与呼叫亭、免下车点餐、虚拟门卫等设备连接起来。
  • 智能安防摄像头:能够将视频流传输到云端 AI 代理进行处理,以实现实时场景理解和语义元数据的设备。

适用于 ESP32-S3 和 ESP32-P4 的 LiveKit SDK 功能

通过此次发布的 ESP32 LiveKit SDK,LiveKit 启用了语音代理所需的核心功能集,包括:

  • 支持流行的 ESP32-S3 和 ESP32-P4 开发套件
    • 支持多种摄像头、音频编解码器和显示器
  • 采用 Opus 编码的双向音频流
  • 在 ESP32-P4 开发板上使用硬件 H.264 编码进行视频流传输
  • 支持所有提供商和模型,作为 LiveKit 的标准 SDK
  • 数据消息发布和接收
  • RPC 方法注册和调用

即将推出

  • 双向视频流
  • 视频头像支持

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/yinshipin/63970.html

(0)

相关推荐

发表回复

登录后才能评论