技术文章
-
音视频 Android 面试题 | 音视频面试题集锦 51 期
来自”关键帧Keyframe”整理的音视频面试题集锦第 51 期之音视频 Android 面试题。 1、【渲染架构篇】SurfaceView 和 Texture…
-
RTCPilot: 一个 C++ 实现的支持跨平台和集群的开源 WebRTC SFU
RTCPilot 是一个使用现代 C++ 实现的开源 WebRTC SFU(Selective Forwarding Unit,选择性转发单元)。 RTCPilot主要特点 RTC…
-
展望:2026 年音频和虚拟制作的发展趋势
本文是 TVBEurope 展望来年媒体技术系列报道的最后一篇,行业领袖们预测了 2026 年内容将如何通过声音和视觉效果变得更有沉浸式。 作者:Matthew Corrigan原…
-
如何靠音视频体验突围增长?即构推出AI音视频能力矩阵
近日,即构整合沉淀多年的音视频处理算法,推出AI音视频能力矩阵,用硬核算法破解音视频痛点,更精准适配多元场景,让音视频算法落地到实际业务中。 实测客户接入后用户数量显著增长,效益增…
-
如何在 iOS 中将多张 WebP 图像转换为视频
在 iOS 中将多张 WebP 图像(通常是动图或序列帧)转换为视频,核心逻辑是利用 AVAssetWriter 将解码后的像素数据(CVPixelBuffer…
-
Pipecat和Asterisk集成实现WebSocket传输
2025是AI元年,AI业务风生水起,但是语音人工智能充满了各种挑战,构建响应迅速的语音人工智能应用程序需要在实时环境中协调多个 AI 服务: 如何优雅地将各种平台和AI实现集成,…
-
NVIDIA AI 发布 Nemotron Speech ASR:全新的开源实时转录模型
NVIDIA 近日发布了其全新的英语实时转录模型(Nemotron Speech ASR),该模型专为低延迟语音助手和实时字幕生成而设计。Hugging Face平台上的测试版本 …
-
什么是 WebRTC 中的供应商锁定?
供应商锁定是指企业从一家供应商转向另一家供应商时面临高昂转换成本的现象,这些成本可能涉及时间、资源或风险。WebRTC 生态系统也存在其独特的供应商锁定机制。 作者:Tsahi L…
-
Liquid AI发布LFM2.5:专为真实设备端智能体打造的紧凑型 AI 模型系列
Liquid AI 推出了 LFM2.5,这是基于 LFM2 架构构建的新一代小型基础模型,专注于设备和边缘部署。该模型系列包括 LFM2.5-1.2B-Base 和 LFM2.5…
-
音视频 iOS 面试题 | 音视频面试题集锦 49 期
来自”关键帧Keyframe”整理的音视频面试题集锦第 49 期之音视频 iOS 面试题。 1、【原理篇】请详述音视频同步(AVSync)的策略。如果视频播…
-
EMQX 6.1.0 新特性:可回放的 MQTT 消息流、增强的多租户能力与更多数据集成
EMQX 6.1.0 现已正式发布! 该版本通过引入 MQTT 消息流,将持久化与可回放的消息流特性原生植入 MQTT 生态;同时,通过优化命名空间配置、强化隔离机制以及提供命名空…
-
WebRTC 在线检测工具,测试浏览器是否支持WebRTC
为帮助开发者自动检测设备浏览器能否正常运行 WebRTC 应用,ZEGO 提供了一个WebRTC 在线检测工具。 该工具支持检测以下项目: 在线检测工具是通过调用 zg.check…
-
Streaming Media 2025 Highlights 系列报道 5:关于编解码和游戏化真人秀
本文为Streaming Media 2025 Highlights的总结报道的第五篇,包括2段访谈。 分别是《诺基亚的Ville-Veikko Mattila谈Ericsson-…
-
Zenoh:一种发布/订阅/查询协议,统一了动态数据、静态数据和计算
Zenoh 是一种发布/订阅/查询协议,它统一了动态数据、静态数据和计算。可以将 Zenoh 理解为一种数据解放协议。Zenoh 从多个维度解放数据。
-
IEEE TASLP | FPO: 细粒度偏好优化提升零样本TTS鲁棒性
近年来,基于大语言模型(LLM)的零样本文本转语音(Zero-shot TTS)系统发展迅速,已经能够在仅提供几秒参考音频的情况下,合成自然、清晰、且具有说话人风格的语音。然而,即…
-
音视频实际问题解决方案 | 音视频面试题集锦 48 期
这个系列文章我们来介绍一位海外工程师如何探索安卓音视频基础技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,本篇介绍音视频实际问题解决方案。 ——来自公众号“关键…
-
rvoip:一个完全用 Rust 实现的、功能齐全的 SIP/VoIP 协议栈
rvoip 是一个功能全面的纯 Rust 实现的 SIP/VoIP 协议栈,旨在大规模处理、路由和管理电话呼叫。它从底层开始采用现代 Rust 实践构建,为从简单的软电话到企业呼叫…
-
Meta如何大规模部署超分辨率技术以提升视频质量
在 Meta 的各个平台上,视频消费呈爆炸式增长,从根本上改变了数十亿用户与数字内容互动的方式。根据 Meta 2024 年第一季度财报,视频在 Facebook 和 Instag…
-
构建用于监控和远程监测的 WebRTC 架构
在公共领域监控、远程操作和医疗保健领域,延迟是致命缺陷。当交通管理中心需要调整信号灯时序为救护车开道,或远程操作员驾驶无人机进行基础设施巡检时,操作人员需要近乎实时的性能表现。低延…
-
通过用一系列JPEG屏幕截图替代H.264视频流传输,解决低带宽屏幕共享问题
HelixML 是一款在云沙箱中运行自主编码代理的企业级 AI 平台,其内置远程屏幕共享机制可实时监控AI 助手的操作。虽然屏幕共享通常通过流式传输 H.264 编码视频实现,但其…