技术文章
-
WebRTC 在线检测工具,测试浏览器是否支持WebRTC
为帮助开发者自动检测设备浏览器能否正常运行 WebRTC 应用,ZEGO 提供了一个WebRTC 在线检测工具。 该工具支持检测以下项目: 在线检测工具是通过调用 zg.check…
-
Streaming Media 2025 Highlights 系列报道 5:关于编解码和游戏化真人秀
本文为Streaming Media 2025 Highlights的总结报道的第五篇,包括2段访谈。 分别是《诺基亚的Ville-Veikko Mattila谈Ericsson-…
-
Zenoh:一种发布/订阅/查询协议,统一了动态数据、静态数据和计算
Zenoh 是一种发布/订阅/查询协议,它统一了动态数据、静态数据和计算。可以将 Zenoh 理解为一种数据解放协议。Zenoh 从多个维度解放数据。
-
IEEE TASLP | FPO: 细粒度偏好优化提升零样本TTS鲁棒性
近年来,基于大语言模型(LLM)的零样本文本转语音(Zero-shot TTS)系统发展迅速,已经能够在仅提供几秒参考音频的情况下,合成自然、清晰、且具有说话人风格的语音。然而,即…
-
音视频实际问题解决方案 | 音视频面试题集锦 48 期
这个系列文章我们来介绍一位海外工程师如何探索安卓音视频基础技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,本篇介绍音视频实际问题解决方案。 ——来自公众号“关键…
-
rvoip:一个完全用 Rust 实现的、功能齐全的 SIP/VoIP 协议栈
rvoip 是一个功能全面的纯 Rust 实现的 SIP/VoIP 协议栈,旨在大规模处理、路由和管理电话呼叫。它从底层开始采用现代 Rust 实践构建,为从简单的软电话到企业呼叫…
-
Meta如何大规模部署超分辨率技术以提升视频质量
在 Meta 的各个平台上,视频消费呈爆炸式增长,从根本上改变了数十亿用户与数字内容互动的方式。根据 Meta 2024 年第一季度财报,视频在 Facebook 和 Instag…
-
构建用于监控和远程监测的 WebRTC 架构
在公共领域监控、远程操作和医疗保健领域,延迟是致命缺陷。当交通管理中心需要调整信号灯时序为救护车开道,或远程操作员驾驶无人机进行基础设施巡检时,操作人员需要近乎实时的性能表现。低延…
-
通过用一系列JPEG屏幕截图替代H.264视频流传输,解决低带宽屏幕共享问题
HelixML 是一款在云沙箱中运行自主编码代理的企业级 AI 平台,其内置远程屏幕共享机制可实时监控AI 助手的操作。虽然屏幕共享通常通过流式传输 H.264 编码视频实现,但其…
-
开源一个 Web 端 h264/h265 播放器
介绍基于 MSE+fMp4+Websocket 的开源 WEB 播放器,包含关键特性、WEB视频播放相关技术以及一些浏览器的音视频技术等内容。
-
基于FFmpeg的跨平台图形用户界面LosslessCut
LosslessCut 是一款跨平台 FFmpeg 图形用户界面,用于对视频、音频、字幕和其他相关媒体文件进行极速且无损的操作。LosslessCut 抓住命令行方式不够直观的用户…
-
适用于 ESP32 的 LiveKit SDK:将语音 AI 引入嵌入式设备
在过去的几个月,LiveKit 团队与乐鑫科技(Espressif Systems)紧密合作,为 ESP32 平台带来了功能齐全的 LiveKit SDK。该 SDK 基于乐鑫科技…
-
Streaming Media 2025 Highlights 报道 3:流媒体下半场
本文为Streaming Media 2025 Highlights的总结报道的第三篇,包括2段访谈:Rebecca Avery 谈“流媒体网络扩展和元数据转换“和 Bhavesh…
-
【音视频】内存管理系统
这个系列文章我们来介绍一位海外工程师如何探索安卓音视频基础技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,本篇介绍内存管理系统。 ——来自公众号“关键帧Keyf…
-
边缘计算如何改善游戏玩家和主播的延迟
边缘计算对于依赖快速响应连接的游戏玩家和主播来说至关重要。随着在线游戏和直播平台日益复杂化和普及,哪怕是轻微的延迟都会影响性能和用户体验。 传统的数据处理模型通常基于远程数据中心,…
-
ZEGO Express SDK 3.23.0 版本发布,新增直播虚化画面边缘等功能
上周,ZEGO Express SDK(ZEGO实时音视频SDK) 3.23.0 版本发布,新增视频编码前处理、移动端支持视频采集后、美颜前、美颜后、编码后的实时转储、PK 混流场…
-
Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器
Meta 研究人员推出了感知编码器视听模型(PE-AV),作为用于联合音频和视频理解的新型编码器系列。该模型利用对约 1 亿个带有文本字幕的音视频对进行大规模对比训练,在单一嵌入空…
-
空间音频如何优化价值链,创造消费者价值
多年来,科技与娱乐产业不断向我们描绘这样一个未来:声音将自然环绕于我们周身——我们不仅在聆听,更将沉浸于声音之中。如今所有主流平台均支持杜比全景声、DTS:X、索尼360 Real…
-
腾讯云媒体处理(MPS)视频编码内核再升级,研发神经网络压缩技术TNC
本文经 VCIP2025 和 PCS2025 两项关于图像压缩方面的大赛,重点介绍了腾讯香农实验室的codecTester团队研发的TNC图像编码。
-
Streaming Media 2025 Highlights 系列报道 Part 2:AI+流媒体
本文为Streaming Media 2025 Highlights的总结报道的第二篇,包括AI 重塑流媒体创作者工作流态与行业生态、AI 时代流媒体基础架构向混合与自主可控演进等主题访谈。