技术文章
-
Jitsi Meet 推出 Receiver Audio 订阅服务
Jitsi Meet 长期支持视频 ReceiverConstraints 功能。接收方可指定希望接收的视频流及其分辨率,后端将在可用带宽范围内尽力满足这些约束。但音频方面此前缺乏…
-
构建和运行 WebRTC 应用程序到底需要多少钱?
本文将剖析构建 WebRTC 基础设施及运行生产级 WebRTC 应用的实际成本。我们将通过详细计算对比三种承载相同工作负载的方案,助您确定最适合自身场景的实施路径。
-
OpenVidu Meet:一款基于 OpenVidu 构建的虚拟会议自托管解决方案
OpenVidu Meet 是一款基于 OpenVidu 构建的完整视频通话服务,旨在为虚拟会议提供易于使用的自主托管解决方案。
-
如何通过更智能的 SD-WAN 策略提升 UCaaS 质量
混合办公与远程工作重新定义了现代职场。如今团队成员可从总部、分支机构、家庭网络、咖啡馆乃至旅途中协同工作,过程中常需在Wi-Fi、宽带、5G或卫星网络间切换。面对如此复杂的网络环境…
-
探索 Vulkan 音视频技术(11):平台特定实现
在开发跨平台 Vulkan 应用程序时,处理平台特定差异对于确保代码在不同操作系统上无缝运行至关重要。SaschaWillems/Vulkan 仓库展示了一种优雅的平台抽象方法,使相同的 Vulkan 示例能够在不同平台上运行。
-
探索 Vulkan 音视频技术(10):GLSL着色器指南
着色器是任何 Vulkan 应用程序的核心,定义了图形和计算操作如何在 GPU 上执行。本文将带你了解着色器结构、编译工作流以及整个示例中使用的集成模式。
-
AnimeColor:基于DiT的动漫视频上色 | ACM MM 2025
动画上色是动画制作中的关键环节,然而现有动画线稿着色模型在保持颜色一致性和稳定性方面仍存在一定挑战。基于此我们提出了一种新颖的线稿视频动画上色模型-ColorAnime。Color…
-
探索 Vulkan 音视频技术(9):性能优化示例
性能优化对于创建能够充分利用现代 GPU 硬件的高性能 Vulkan 应用程序至关重要。本文将探讨SaschaWillems/Vulkan 仓库中可用的关键性能优化示例,并解释如何在自己的应用程序中利用这些技术。
-
如何在 Ubuntu 25.04 中为 Android 构建 WebRTC
Google 曾提供 libWebRTC 库的预编译 Android 镜像,事实上,其官方文档至今仍推荐这种使用方式。但自 WebRTC M80 版本(2020年1月)起,他们决定…
-
实时语音活动检测:兼顾精度与计算量的平衡之道
本文介绍一种实时基于统计模型的VAD算法,与WebRTC VAD流程解析中不同,这里可以复用ANR噪声估计的结果进行判决,在算力受限的端侧设备上是一个不错的选择。
-
探索 Vulkan 音视频技术(8):计算着色器应用
本文探索 SaschaWillems/Vulkan 仓库中的计算着色器示例,展示如何实现从图像处理到粒子模拟的各种计算密集型应用。
-
苹果新获专利,通过人体工学感知滤波技术提升空间音频
苹果公司已获得一项美国专利,该专利涉及一项创新音频系统,该系统可根据可穿戴音频设备相对于用户身体结构的物理位置,动态地确定并应用音频滤波器。这项改进旨在增强空间音频渲染和麦克风拾音…
-
探索 Vulkan 音视频技术(7):光线追踪示例
光线追踪代表了渲染技术的范式转变,超越了传统的光栅化,转而模拟光的物理行为。SaschaWillems/Vulkan 仓库提供了全面的光线追踪示例集合。
-
VoXtream:一款开源的全流式零样本文本转语音模型,支持实时应用
实时语音代理、现场配音和同声传译都因千分之一秒的延迟而受阻。大多数“流式”文本转语音(TTS)系统仍需等待整段文本处理完毕才开始发声,导致听者在语音启动前会听到短暂的停顿。由KTH…
-
zlmediakit 新增支持 webrtc 客户端模式
zlmediakit可以作为webrtc播放器主动拉流,也可以作为webrtc推流器主动推流,还可以作为P2P客户端双向视频会话。
-
B 帧对视频清晰度 / 码率的影响
在 H.264/AVC 视频编码标准的 Extended Profile(扩展档次)中,B 帧(Bidirectional Predictive Frame)作为帧间压缩的核心技术…
-
探索 Vulkan 音视频技术(6):高级渲染技术
本文探讨了 SaschaWillems/Vulkan 仓库中实现的几种高级渲染技术,展示了如何利用 Vulkan 的功能创建令人惊叹的视觉效果。
-
在线娃娃机客户端功能实现流程(H5/Web端)
本文分享如何在H5/Web端实现在线抓娃娃机功能,Android和iOS端整体流程类似,具体可参考即构开发者相关文档。 娃娃机 web 端场景的主要结构及流程如下图所示: 请注意:…
-
如何让你的网络满足人工智能的需求
大多数网络并非为人工智能而建。关键在于:您的网络能否跟上带宽、计算能力和安全需求的激增,还是会落后于时代?人工智能工作负载对基础设施的挑战远超传统数据中心设计的预期,而适应最快的企…
-
做一个基于ffmpeg的AI Agent智能体
FFmpeg AI Agent:一条自然语言指令,实现一个简单音视频处理。让用户说一句:音视频的处理要求,AI Agent帮你把活给做了。