技术文章
-
FFmpeg + OpenCV:quink_oc_plugin 插件架构设计与实践
OpenCV 自身就集成了 FFmpeg 作为后端,通过 cv::VideoCapture 和 cv::VideoWriter 可以直接读写视频文件。那么,在 FFmpeg 里加 OpenCV 插件,和 OpenCV 自己调用 FFmpeg 有什么不同?
-
如何利用QoS、SBC和SD-WAN改善云端UC通话质量
本文将探讨导致云部署中 VoIP 和 UC 通信质量差的问题,以及如何使用特定技术和设备来确保始终如一的高质量服务。
-
Globo、Starz 和 Paramount 如何保障传统设备上的流媒体体验
与其他高端流媒体平台类似,Starz 秉持“让所有人畅享”的理念,致力于为平台上的所有观众提供优质流媒体体验。但在支持流媒体早期遗留的庞杂设备与格式时,挑战层出不穷,尤其在关键的中…
-
ZEGO即时通讯SDK发布2.27版本,新增查询用户共同群组列表等功能
2026 年 2 月 6 日,ZEGO即时通讯SDK(ZIM SDK)2.27.0 版本发布,新增本地会话支持按照会话名称过滤查询、查询用户共同群组列表等功能。 新增功能 查询用户…
-
WebRTC 中的客户端 CPU 管理
在 WebRTC 中,客户端 CPU 管理并不常见。你会在“高端”应用中看到它,但在其他地方却很少见。为什么?因为我们都专注于网络问题,试图通过优化来解决。人们认为,一旦 CPU …
-
SpecTokenizer:压缩频谱域的轻量级流式编解码器
本文提出了一种轻量化、支持流式推理的神经音频编解码器SpecTokenizer。该方法在 压缩谱域(compressed spectral domain 中进行建模。
-
Mistral 发布 Voxtral Transcribe 2,一款成本极低的开源语音模型
总部位于巴黎的初创公司 Mistral AI 自诩为欧洲的 OpenAI,该公司于周三发布了两款语音转文本模型。该公司表示,这两款模型能够比市场上任何其他产品更快、更准确、更便宜地…
-
为何移动数据网络上的WebRTC通话会失败(以及如何快速解决)
如果你的浏览器软电话在 Wi-Fi 环境下运行完美,但在移动数据网络下却出现问题,这并非“随机WebRTC故障”所致。你实际遭遇的是可预见的网络限制:运营商级NAT(CGNAT)、…
-
Kamailio NAT 和 FreeSWITCH NAT 对比
本文将从NAT检查、注册请求Contact重写、呼叫请求(及应答)Contact重写三个核心场景,对比 Kamailio NAT 和 FreeSWITCH NAT 的实现逻辑与操作方式。
-
WebRTC服务器的带宽管理
在当今的数字世界中,WebRTC 技术已成为开发者创建实时应用(例如视频会议和直播)的基础解决方案。这些应用的成功取决于 WebRTC 媒体服务器能否在保持成本可控的同时,实现最佳…
-
Persona Vectors:语言模型中角色特征的监控与调控
本文介绍了一种名为“人格向量”(Persona Vectors)的创新方法。通过提取和利用大语言模型(LLM)内部激活空间中与特定人格特质(如谄媚、幻觉、邪恶)相对应的向量,该方法…
-
如何向全球观众提供低延迟多视角体育赛事直播
在实现大规模低延迟直播面临诸多固有困难,且观众对尖端多视角体育观赛体验需求日益增长的背景下,多视角传输技术在流媒体传输中段这一关键环节带来了哪些额外挑战?像 Globo 这样的全球…
-
基于 ZEGO SDK 实现 Web 画中画音视频通话功能
画中画(Picture-in-Picture)功能允许您在浏览其他网页或使用其他应用时,继续观看视频通话内容。启用画中画后,通话界面将以独立的小窗口形式悬浮显示在屏幕最顶层。即使您…
-
音视频面试题集锦 54 期:WebRTC 相关面试题
分享来自“关键帧Keyframe”公众号的音视频面试题集锦 54 期之 WebRTC 面试题。 1、【连接与网络篇】当用户从 Wi-Fi 切换到 4G 网络时,WebRTC 的连接…
-
视频生成推理加速实践:基于 torch.compile 的整图编译优化
一、引言:从算子级优化到计算图级优化 视频生成模型的推理优化是一个多层次、系统性的工程挑战。在模型推理的早期阶段,优化重点通常集中在算子层面,例如通过优化卷积、注意力等核心算子的计…
-
网易、蚂蚁图形面试:Vulkan 动态渲染机制
恢复更新了,最近知识星球小伙伴分享了一些网易、蚂蚁图形岗位的面试问题,我总结了几个比较有代表性的分享一下。 Vulkan 动态渲染机制 Vulkan 1.3.0 引入动态…
-
为什么AI 语音技术正在成为媒体平台的核心基础设施
多年来,语音技术一直处于数字产品的边缘,主要局限于屏幕阅读器、交互式语音应答系统或一些新奇的语音助手。但这种现状正在迅速改变。随着媒体平台扩展到各种格式、语言和设备,语音技术正日益…
-
FFmpegKit 跨平台抽象层
FFmpegKit 中的跨平台抽象层代表了一种复杂的架构模式,它在保持平台特定优化的同时,实现了跨多个平台的一致 FFmpeg 功能。该抽象层作为统一 API 的基础,无论目标平台…
-
微软发布 VibeVoice-ASR:一种统一的语音转文本模型,旨在一次性处理长达 60 分钟的音频
微软发布了 VibeVoice-ASR,它是 VibeVoice 系列开源前沿语音 AI 模型的一部分。VibeVoice-ASR 被描述为一个统一的语音转文本模型,可以一次性处理…
-
Mon3tr: 基于单目相机的3D远程全息通信系统
沉浸式远程全息交互旨在通过高保真的全身全息表现,彻底改变AR/VR应用中的人类交互体验。然而,现有的系统往往依赖昂贵的多摄像头设置,且对传输带宽要求极高,极大地限制了其在移动设备上…