技术文章
-
基于 ZEGO SDK 实现 Web 画中画音视频通话功能
画中画(Picture-in-Picture)功能允许您在浏览其他网页或使用其他应用时,继续观看视频通话内容。启用画中画后,通话界面将以独立的小窗口形式悬浮显示在屏幕最顶层。即使您…
-
音视频面试题集锦 54 期:WebRTC 相关面试题
分享来自“关键帧Keyframe”公众号的音视频面试题集锦 54 期之 WebRTC 面试题。 1、【连接与网络篇】当用户从 Wi-Fi 切换到 4G 网络时,WebRTC 的连接…
-
视频生成推理加速实践:基于 torch.compile 的整图编译优化
一、引言:从算子级优化到计算图级优化 视频生成模型的推理优化是一个多层次、系统性的工程挑战。在模型推理的早期阶段,优化重点通常集中在算子层面,例如通过优化卷积、注意力等核心算子的计…
-
网易、蚂蚁图形面试:Vulkan 动态渲染机制
恢复更新了,最近知识星球小伙伴分享了一些网易、蚂蚁图形岗位的面试问题,我总结了几个比较有代表性的分享一下。 Vulkan 动态渲染机制 Vulkan 1.3.0 引入动态…
-
为什么AI 语音技术正在成为媒体平台的核心基础设施
多年来,语音技术一直处于数字产品的边缘,主要局限于屏幕阅读器、交互式语音应答系统或一些新奇的语音助手。但这种现状正在迅速改变。随着媒体平台扩展到各种格式、语言和设备,语音技术正日益…
-
FFmpegKit 跨平台抽象层
FFmpegKit 中的跨平台抽象层代表了一种复杂的架构模式,它在保持平台特定优化的同时,实现了跨多个平台的一致 FFmpeg 功能。该抽象层作为统一 API 的基础,无论目标平台…
-
微软发布 VibeVoice-ASR:一种统一的语音转文本模型,旨在一次性处理长达 60 分钟的音频
微软发布了 VibeVoice-ASR,它是 VibeVoice 系列开源前沿语音 AI 模型的一部分。VibeVoice-ASR 被描述为一个统一的语音转文本模型,可以一次性处理…
-
Mon3tr: 基于单目相机的3D远程全息通信系统
沉浸式远程全息交互旨在通过高保真的全身全息表现,彻底改变AR/VR应用中的人类交互体验。然而,现有的系统往往依赖昂贵的多摄像头设置,且对传输带宽要求极高,极大地限制了其在移动设备上…
-
摩尔线程开源TorchCodec-MUSA,全功能GPU加速PyTorch多模态训练
近日,摩尔线程开源了TorchCodec-MUSA,率先完成了对PyTorch官方媒体编解码库TorchCodec的第三方硬件后端适配。该项目是专为AI训练场景设计的硬件加速方案,…
-
音视频 WebRTC 面试题 | 音视频面试题集锦 53 期
分享来自“关键帧Keyframe”的音视频面试题集锦第 53 期,本期内容主要是 WebRTC 音视频方面常见的 5 个面试题。 1、【架构与扩展篇】在多人视频会议场景中,SFU …
-
早期网络时代的聊天室(海外版)
互联网曾经是一个简单得多的世界,人们聚集在虚拟聊天室里,与素不相识的陌生人打字交流。在社交媒体个人主页和视频通话出现之前,这些基于文字的聊天室是人们在线社交的主要方式。 每天有数百…
-
FFmpegKit 库设计
FFmpegKit 库架构为 FFmpeg/FFprobe 命令提供了全面的封装,能够在保持一致功能和行为的同时实现多平台无缝集成。该设计以基于会话的执行模型为核心,具备强大的回调…
-
NVIDIA发布PersonaPlex-7B-v1:专为自然全双工对话设计的实时语音到语音模型
NVIDIA 研究人员发布了 PersonaPlex-7B-v1,这是一个全双工语音到语音(Speech-to-Speech)对话模型,旨在实现具有精确角色控制的自然语音交互。 从…
-
Firefox WebRTC 2025 总结:全面提升了 WebRTC 技术栈的 Web 兼容性
2026年1月13日,Advancing WebRTC 博客发布了一篇《Firefox WebRTC 2025》的文章,总结了 Firefox 在 2025 年对 WebRTC 的…
-
为什么 BGP 多宿主对始终在线的统一通信和 VoIP 至关重要
当 ISP 链路故障导致统一通信(UC)或 VoIP 系统中断时,再精细的通话质量调优也无法挽救用户体验。真正的可用性始于路由层。本文将解释 BGP 多宿主如何通过赋予企业控制流量…
-
ZEGO即时通讯SDK发布2.26.0版本,uniapp x SDK 可支持开发鸿蒙应用
2026 年 1 月 13 日,ZEGO即时通讯SDK(ZIM)2.26.0 版本发布, 已同步更新到Native 、flutter 、web、小程序和 uniapp-x 等平台。…
-
Telos Alliance 探讨下一代音频技术如何重塑体育制作格局
2025 年的体育广播格局整合了过去五年的诸多技术实验成果:流媒体版权争夺战愈演愈烈,个性化与多视角功能成为主流,IP/云工作流程从试点项目迈入日常运营。这些转变为以音频为核心、兼…
-
2026 年 MQTT over QUIC 如何从 5 个关键维度重塑车联网通信
现代汽车已成为一个高度复杂、持续产生数据的移动智能终端。从高级驾驶辅助系统到云端软件升级,各项服务都依赖稳定、高效的网络连接。其背后支撑的关键,正是底层的通信协议。 虽然 MQTT…
-
AI视频是如何生成的?
本文分享了 AI 生成的视频背后的技术原理。文章隶属于《麻省理工科技评论》技术解读专题。让我们的作者为您梳理复杂纷繁的技术世界,助您洞察未来趋势。
-
2026 流媒体预测:基础设施成为战略之年
2026 年的流媒体的 6 大趋势。视频已不再仅仅是媒介载体,而是构筑人类生存环境的基础设施。机构通过监控、分析关键视频数据并采取行动,这从根本上重塑了视频系统的构建与扩展模式。