技术文章
-
FlexiCodec:3-12.5Hz超低帧率动态音频编解码器
FlexiCodec是一个支持推理时动态调整平均帧率至3Hz到12.5Hz之间的Codec。
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第三章 并行化
本文是对《智能体设计模式》一书第三章节的翻译,此章节主要介绍了并行化(Parallelization)模式。
-
优化 OTT 体验:提供更佳 QoE 的五种流媒体策略
据 Mordor Intelligence 预测,全球 OTT 视频市场规模到2025年将达到 3471.1 亿美元,观众注意力争夺战正空前激烈。在这个饱和的市场环境中,仅提供更多…
-
libavfilter 音视频处理
本文全面介绍 FFmpeg 中 libavfilter 库的使用方法与核心原理。libavfilter 提供了一套强大的音视频滤镜框架,支持从简单的裁剪、缩放到复杂的音频混合、视频…
-
微信小程序如何实现呼叫邀请功能
即构微信小程序即时通讯SDK(ZIM SDK) 提供了呼叫邀请功能,支持主叫向被叫(可为离线状态)发送呼叫邀请、被叫(可为离线状态)接受或拒绝邀请等完整的业务流程控制能力。呼叫邀请…
-
B站多模态精细画质分析模型在 ICCV2025 大赛获得佳绩
暑期,B站多媒体实验室带队参与了 ICCV MIPI (Mobile Intelligent Photography and Imaging) Workshop 的细粒度图像质量定…
-
【音视频】libavformat 容器格式处理
libavformat 是 FFmpeg 框架中的核心库之一,专门负责处理各种媒体容器格式的解复用(demuxing)和复用(muxing)操作。它为音视频数据的读取和写入提供了统…
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第二章 路由
本文是对《智能体设计模式》一书第二章节的翻译,此章节主要介绍了路由(Routing)模式。
-
WebRTC 和 HLS 有什么区别?
流媒体技术在实现实时通信方面发挥着至关重要的作用,了解它们的差异至关重要。如今,有很多视频会议平台利用不同的流媒体传输协议来实现实时通信和高质量的视频流,选择最好的平台可能具有挑战…
-
《Agentic Design Patterns:构建智能系统的实战指南》- 第一章 提示链
书籍名称:Agentic Design Patterns: A Hands-On Guide to Building Intelligent Systems本书作者:Antonio…
-
WebRTC 实时通信解析
WebRTC(Web实时通信)是一套开放的实时通信标准,能够在浏览器和移动应用中实现点对点(P2P)的音频、视频和数据传输,无需安装插件或第三方软件。 1、WebRTC概述 Web…
-
《Agentic Design Patterns:构建智能系统的实战指南》- 前言
本文是对《智能体设计模式》一书前言部分的翻译,此章节介绍了本书的目录、引言等内容。
-
Flutter如何实现即时通讯功能(Flutter接入IM SDK示例)
Flutter是一个跨平台的移动应用开发框架,本教程适用于开发以下平台的应用:iOS、Android、macOS、Windows、Web。下面介绍如何在Flutter接入中接入 Z…
-
为何 WebRTC 是实时语音 AI 架构的最佳传输方案
语音 AI 应用需要实时可靠的音频通信,才能实现与 AI 客服机器人、虚拟助手、交互式语音应答平台及其他语音系统之间的自然对话。选择合适的传输协议至关重要,错误的协议可能导致音频卡…
-
告别 Linux 音频困扰:PipeWire 如何让一切变得简单
Linux 音频系统出了名的混乱,往好了说是令人困惑,往坏了说是彻底崩溃。面对 PulseAudio、ALSA和 JACK 这三种音频框架,用户往往只能通过反复试错和大量调试来获得…
-
AI 视频生成器详解:Sora, Grok 等平台背后的技术
你是否曾好奇,为何有些人只需点击几下,就能用文字、图片甚至简单提示生成流畅的视频? 这正是 AI 视频生成器的用武之地。从学生到内容创作者,这些工具让任何人都能将创意转化为视频,无…
-
谷歌推出语音到检索(S2R)技术,无需先将语音转为文本即可检索信息
谷歌人工智能研究团队通过引入语音转检索(S2R)技术,实现了语音搜索的重大突破。该技术将语音查询直接映射为嵌入向量,无需先将语音转为文本即可检索信息。谷歌团队将S2R定位为架构与理…
-
libpeer:适用于物联网/嵌入式设备的便携式 WebRTC 库
libpeer是一个用C语言编写的WebRTC实现,基于BSD socket开发。该库旨在将物联网/嵌入式设备的视频/音频流与WebRTC集成,例如ESP32和树莓派。 然后在用户…
-
ZEGO AI 数字人伴学互动方案
ZEGO AI 数字人伴学互动方案,通过 AI Agent + 数字人 + RTC 三位一体的技术架构,用AI 数字人教师代替真人老师,实现学生个性化的口语互动,并给出个性化的反馈,提升学习效果。
-
EMQX 6.0 新特性:融合 MQTT 与消息队列,开启消息传输新纪元
EMQX 6.0 是继 5.x 系列之后,首个具有里程碑意义的重大更新。该版本首次将 MQTT 消息通信与消息队列能力结合,重新定义了物联网数据流处理。这一里程碑版本引入…