技术文章

实时音视频

探索 GPUImage 音视频技术（15）：性能优化

GPUImage 的帧缓冲系统负责分配、复用和管理 OpenGL 资源，针对移动设备和实时处理做了专门优化。本文将深入 GPUImage 的帧缓冲管理机制及其重要性。

RTC观主
2025年9月11日
WebRTC

基于 WebRTC 的大规模直播: 助推直播渗透率与观播时长显著增长 | ACM SIGCOMM’25

本文介绍一项基于实时通信引擎 WebRTC 的大规模极低延时直播技术 RTM，并阐述如何对 RTM进行高效优化，从而实现用户参与度指标（直播渗透率、平均观播时长）的显著增长。

大厂Animal
2025年9月10日
实时音视频

探索 GPUImage 音视频技术（14）：创建自定义过滤器

GPUImage 最强大的特性之一，就是能够使用 OpenGL ES 2.0 着色器程序创建你自己的图像处理滤镜。本文将带你从零开始，逐步完成从简单颜色调整到复杂多输入特效的全部流程。

RTC观主
2025年9月10日
技术文章

利用 ARM NEON 指令集加速：端侧 FFT 的高效实现

本文介绍下工程方法的内容，在移动设备和嵌入式系统中，高效的数字信号处理（DSP）算法至关重要。快速傅里叶变换（FFT）作为核心算法之一，其性能直接影响到音频处理、图像分析、通信等多…

音频技术
2025年9月9日
技术文章

更快 AI 的秘诀不是更多的 GPU，而是更智能的网络

AI 正在重塑医疗、金融、制造和零售等行业的可能性边界。但伴随巨大潜力而来的，是海量基础设施需求。全球企业正以史无前例的规模投资 GPU，以加速 AI 训练与推理。Gartner…

RTE基础设施
2025年9月8日
技术文章

ERVQ: 基于内外码本优化的增强残差矢量量化神经音频编解码器 | TASLP2025

本文提出了一种新的量化方法（ERVQ），其通过码本内和码本间优化来减轻码本崩溃并提高编解码器性能。实验表明，融入到多种神经音频后均能起到较好的性能提升效果。文章来源：TASLP …

编解码
2025年9月8日
即时通讯

ZEGO即时通讯SDK 2.22.0 版本发布，新增取消媒体消息发送和获取回执已读时间等功能

上周五，ZEGO 即时通讯 SDK（ZIM） 2.22.0 版本发布，新增取消媒体消息发送、获取回执已读时间和获取房间用户扩展字段等功能。 ZIM 新增功能取消媒体消息发送用户…

ZEGO即构科技
2025年9月8日
实时音视频

探索 GPUImage 音视频技术（13）：滤镜链

本文将介绍 GPUImage 中滤镜链的工作原理，并示范如何创建并管理高效的滤镜链。

RTC观主
2025年9月8日
技术文章

Hugging Face 开源 FineVision：一个包含 2400 万个样本的全新多模态数据集，用于训练视觉语言模型

Hugging Face 刚刚发布了FineVision，这是一个开放的多模态数据集，旨在为视觉语言模型 (VLM) 树立新标准。FineVision 拥有1730 万张图片、24…

AIGC
2025年9月8日
技术文章

Tilde AI 发布 TildeOpen LLM：一个拥有超过 300 亿个参数并支持大多数欧洲语言的开源大语言模型

拉脱维亚语言科技公司 Tilde 发布了 TildeOpen LLM ，这是一款专为欧洲语言构建的开源基础大型语言模型 (LLM) ，重点关注代表性不足且规模较小的国家和地区语言。…

AIGC
2025年9月8日
即时通讯

Node.js：在不耗尽 CPU 的情况下扩展 WebSocket

了解如何在 Node.js 中高效扩展WebSockets，通过集群、负载均衡、Redis 发布/订阅（pub/sub）及实战模式实现，避免 CPU 飙升。若你曾启动 Node….

IM开发老王
2025年9月5日
实时音视频

探索 GPUImage 音视频技术（12）：帧缓冲区管理

GPUImage 的帧缓冲系统负责分配、复用和管理 OpenGL 资源，针对移动设备和实时处理做了专门优化。本文将深入 GPUImage 的帧缓冲管理机制及其重要性。

RTC观主
2025年9月5日
技术文章

OLMoASR 是什么？它与 OpenAI 的语音识别 Whisper 相比如何？

艾伦人工智能研究所 (AI2) 发布了OLMoASR，这是一套开放的自动语音识别 (ASR)模型，可与 OpenAI 的 Whisper 等闭源系统相媲美。除了发布模型权重外，AI…

AIGC
2025年9月5日
实时音视频

快手与清华大学联合提出灵犀系统，重新定义个性化视频体验 | SIGCOMM 2025

本文介绍了一种创新的视频流优化系统：灵犀系统。这是业界首个成功部署在大规模生产环境中、面向用户个性化体验的自适应视频流优化系统。

大厂Animal
2025年9月4日
技术文章

听见空间：ASAudio 空间音频表示、理解与生成的全景综述

近几年，空间音频从“更高质量到音频”走向“可被理解与生成的三维声场”。它不只是把声音变“立体”，而是让系统理解声源的方位、距离、运动，并能按需生成。在 AR/VR、影视、…

音频技术
2025年9月4日
WebRTC

面向 DevOps 的可扩展 WebRTC VoIP 架构的六大核心组件

WebRTC VoIP 系统支持通过网页浏览器和移动应用直接进行语音通话，无需下载任何软件或插件。这使其成为客户支持平台、远程医疗咨询、销售通话以及任何需要添加语音通信功能却不要求…

webrtc学习和实践
2025年9月4日
实时音视频

探索 GPUImage 音视频技术（11）：渲染管线

GPUImage 通过精心设计的渲染管线，利用 GPU（图形处理单元）的强大算力解决了这一难题。本文阐述 GPUImage 如何编排 GPU 渲染管线，以实现高性能的图像与视频处理。

RTC观主
2025年9月4日
即时通讯

DataChannel、WebTransport 与 WebSockets 的区别：何时使用哪种方案

实时应用程序现在有三种强大的浏览器选项可用于数据传输：WebRTC DataChannel、WebTransport 和 WebSockets。它们之间功能有重叠，但不可互换。选择…

mazhu
2025年9月2日
实时音视频

语音聊天接口(API)有哪些? ZEGO 语音聊天接口常用功能

什么是语音聊天接口？本文所讲的语音聊天接口，也就是语音聊天 API，是用于实现语音聊天功能的应用程序编程接口。借助它开发者能够在APP、小程序、Web、物联网设备等应用上实现一对…

ZEGO即构科技
2025年9月2日
实时音视频

探索 GPUImage 音视频技术（9）：视觉特效滤镜

GPUImage 的视觉特效滤镜让你能以 GPU 实时渲染的方式，对图片或视频施加从“轻微修饰”到“戏剧性艺术化”的丰富效果。它们不仅适用于照片编辑 App，也能在相机或视频处理系统中大显身手。

RTC观主
2025年9月2日