技术文章
-
开源一个 Web 端 h264/h265 播放器
介绍基于 MSE+fMp4+Websocket 的开源 WEB 播放器,包含关键特性、WEB视频播放相关技术以及一些浏览器的音视频技术等内容。
-
基于FFmpeg的跨平台图形用户界面LosslessCut
LosslessCut 是一款跨平台 FFmpeg 图形用户界面,用于对视频、音频、字幕和其他相关媒体文件进行极速且无损的操作。LosslessCut 抓住命令行方式不够直观的用户…
-
适用于 ESP32 的 LiveKit SDK:将语音 AI 引入嵌入式设备
在过去的几个月,LiveKit 团队与乐鑫科技(Espressif Systems)紧密合作,为 ESP32 平台带来了功能齐全的 LiveKit SDK。该 SDK 基于乐鑫科技…
-
Streaming Media 2025 Highlights 报道 3:流媒体下半场
本文为Streaming Media 2025 Highlights的总结报道的第三篇,包括2段访谈:Rebecca Avery 谈“流媒体网络扩展和元数据转换“和 Bhavesh…
-
【音视频】内存管理系统
这个系列文章我们来介绍一位海外工程师如何探索安卓音视频基础技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,本篇介绍内存管理系统。 ——来自公众号“关键帧Keyf…
-
边缘计算如何改善游戏玩家和主播的延迟
边缘计算对于依赖快速响应连接的游戏玩家和主播来说至关重要。随着在线游戏和直播平台日益复杂化和普及,哪怕是轻微的延迟都会影响性能和用户体验。 传统的数据处理模型通常基于远程数据中心,…
-
ZEGO Express SDK 3.23.0 版本发布,新增直播虚化画面边缘等功能
上周,ZEGO Express SDK(ZEGO实时音视频SDK) 3.23.0 版本发布,新增视频编码前处理、移动端支持视频采集后、美颜前、美颜后、编码后的实时转储、PK 混流场…
-
Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器
Meta 研究人员推出了感知编码器视听模型(PE-AV),作为用于联合音频和视频理解的新型编码器系列。该模型利用对约 1 亿个带有文本字幕的音视频对进行大规模对比训练,在单一嵌入空…
-
空间音频如何优化价值链,创造消费者价值
多年来,科技与娱乐产业不断向我们描绘这样一个未来:声音将自然环绕于我们周身——我们不仅在聆听,更将沉浸于声音之中。如今所有主流平台均支持杜比全景声、DTS:X、索尼360 Real…
-
腾讯云媒体处理(MPS)视频编码内核再升级,研发神经网络压缩技术TNC
本文经 VCIP2025 和 PCS2025 两项关于图像压缩方面的大赛,重点介绍了腾讯香农实验室的codecTester团队研发的TNC图像编码。
-
Streaming Media 2025 Highlights 系列报道 Part 2:AI+流媒体
本文为Streaming Media 2025 Highlights的总结报道的第二篇,包括AI 重塑流媒体创作者工作流态与行业生态、AI 时代流媒体基础架构向混合与自主可控演进等主题访谈。
-
美团 LongCat-Video-Avatar 发布,实现开源SOTA级拟真表现
今年 8 月,美团开源的 InfiniteTalk 项目凭借无限长度生成能力与精准的唇形、头部、表情及姿态同步表现,迅速成为语音驱动虚拟人领域的主流工具,吸引全球数十万名开发者的使…
-
Android 集成 ZIM SDK 实现聊天消息置顶的功能
ZEGO 即时通讯 SDK(ZIM SDK)2.25.0 版本新增“消息置顶”功能,用户可以将会话中的消息固定在会话顶部,方便会话中的所有用户快速查看重要消息。 本文将简单介绍如何…
-
数字人动画云端渲染方案
为解决拟我形象在多场景展示中依赖 3D 渲染导致的性能与接入问题,本文提出将形象预先导出为视频或动图资源。对比三种技术路径后,最终选择 Puppeteer + H5 渲染帧 + F…
-
TOMM | 针对人脸视频的混合编码方案
本文提出一种融合传统编码与生成式压缩的人脸视频混合压缩方案,该方案结合了传统编码的像素级还原能力与深度生成模型的细节生成能力,能够在低码率条件下实时实现高保真人脸视频压缩。
-
【音视频】滤镜使用与处理
这个系列文章我们来介绍一位海外工程师如何探索安卓音视频基础技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,本篇介绍滤镜使用与处理。 ——来自公众号“关键帧Key…
-
主流第三方直播SDK对比,第三方直播sdk收费标准
直播业务概述 大家所熟知的直播平台虎牙、斗鱼、快手、抖音、B站,直播功能看似普遍,但从零到一开发却不简单。直播中运用到的技术难点非常之多,音频视频处理/编解码,前后处理,直播分发,…
-
2026 年 WebRTC 五大预测:Tsahi Levent-Levi 谈 AV1、MOQ 以及可能出现的问题
本文分享内容来自 webrtc.ventures 首席执行官 Arin Sime 和 WebRTC 行业资深权威人士、 BlogGeek.me 的 Tsahi Levent-Lev…
-
诺基亚:基于 V-DMC 的高效 3D 网格压缩技术
实时 3D 一直存在扩展性问题。每次捕捉的瞬间都会生成一个包含成千上万甚至数百万个顶点的网格,这些顶点在帧与帧之间会不可预测地移动。虽然跟踪网格压缩对于可预测的、类似动画的序列效果…
-
基于音视频分流技术的呼叫中心视频能力升级方案
摘要:随着通信技术的发展和客户需求的提高,传统呼叫中心升级为视频呼叫中心成为必然趋势。探讨了基于音视频分流技术的呼叫中心视频能力升级的有效方案及优势。视频呼叫中心升级能提升客户体验…