技术文章
-
实时语音活动检测:兼顾精度与计算量的平衡之道
本文介绍一种实时基于统计模型的VAD算法,与WebRTC VAD流程解析中不同,这里可以复用ANR噪声估计的结果进行判决,在算力受限的端侧设备上是一个不错的选择。
-
探索 Vulkan 音视频技术(8):计算着色器应用
本文探索 SaschaWillems/Vulkan 仓库中的计算着色器示例,展示如何实现从图像处理到粒子模拟的各种计算密集型应用。
-
苹果新获专利,通过人体工学感知滤波技术提升空间音频
苹果公司已获得一项美国专利,该专利涉及一项创新音频系统,该系统可根据可穿戴音频设备相对于用户身体结构的物理位置,动态地确定并应用音频滤波器。这项改进旨在增强空间音频渲染和麦克风拾音…
-
探索 Vulkan 音视频技术(7):光线追踪示例
光线追踪代表了渲染技术的范式转变,超越了传统的光栅化,转而模拟光的物理行为。SaschaWillems/Vulkan 仓库提供了全面的光线追踪示例集合。
-
VoXtream:一款开源的全流式零样本文本转语音模型,支持实时应用
实时语音代理、现场配音和同声传译都因千分之一秒的延迟而受阻。大多数“流式”文本转语音(TTS)系统仍需等待整段文本处理完毕才开始发声,导致听者在语音启动前会听到短暂的停顿。由KTH…
-
zlmediakit 新增支持 webrtc 客户端模式
zlmediakit可以作为webrtc播放器主动拉流,也可以作为webrtc推流器主动推流,还可以作为P2P客户端双向视频会话。
-
B 帧对视频清晰度 / 码率的影响
在 H.264/AVC 视频编码标准的 Extended Profile(扩展档次)中,B 帧(Bidirectional Predictive Frame)作为帧间压缩的核心技术…
-
探索 Vulkan 音视频技术(6):高级渲染技术
本文探讨了 SaschaWillems/Vulkan 仓库中实现的几种高级渲染技术,展示了如何利用 Vulkan 的功能创建令人惊叹的视觉效果。
-
在线娃娃机客户端功能实现流程(H5/Web端)
本文分享如何在H5/Web端实现在线抓娃娃机功能,Android和iOS端整体流程类似,具体可参考即构开发者相关文档。 娃娃机 web 端场景的主要结构及流程如下图所示: 请注意:…
-
如何让你的网络满足人工智能的需求
大多数网络并非为人工智能而建。关键在于:您的网络能否跟上带宽、计算能力和安全需求的激增,还是会落后于时代?人工智能工作负载对基础设施的挑战远超传统数据中心设计的预期,而适应最快的企…
-
做一个基于ffmpeg的AI Agent智能体
FFmpeg AI Agent:一条自然语言指令,实现一个简单音视频处理。让用户说一句:音视频的处理要求,AI Agent帮你把活给做了。
-
探索 Vulkan 音视频技术(5):基础渲染示例
在 SaschaWillems/Vulkan 仓库中,基础渲染示例展示了 Vulkan 图形编程的基本概念。本文将带你了解关键的基础渲染示例,并解释它们展示的核心概念。
-
一文了解通用工具调用协议 (UTCP)
通用工具调用协议 (UTCP,Universal Tool Calling Protocol) 是一种轻量级、安全且可扩展的方式,可供 AI 代理和应用程序直接查找和调用工具,而无…
-
探索 Vulkan 音视频技术(4):交换链与呈现
本文探讨 SaschaWillems/Vulkan 仓库如何实现交换链管理和呈现,为你提供将这些概念集成到自己的 Vulkan 应用程序中的知识。
-
视频聊天如何改变现代通信
过去十年间,人们的互动方式经历了巨大的变化。电话曾占据主导地位,电子邮件似乎不可撼动。然而,视频聊天悄然崛起。它悄然渗透进职场、家庭聚餐、在线课堂,甚至医疗咨询。这不仅是又一种工具…
-
为何需要在设备端收集 WebRTC 统计数据?
了解服务器端监控为何无法满足 WebRTC 需求,以及设备端统计数据收集如何彻底改变用户体验。
-
探索 Vulkan 音视频技术(3):设备管理
在 Vulkan 中,设备管理是一个基础概念,它架起了应用程序与物理 GPU 之间的桥梁。SaschaWillems/Vulkan 仓库通过其 VulkanDevice 类提供了一种健壮且结构良好的方法来处理物理和逻辑设备。
-
IBM AI 发布 Granite-Docling-258M:一个开源、企业级文档 AI 模型
IBM 发布了Granite-Docling-258M,这是一个专为端到端文档转换而设计的开源 (Apache-2.0) 视觉语言模型。该模型旨在忠实布局地提取表格、代码、公式、列…
-
WebRTC 如何改变网络游戏的互动方式
过去几年,网络游戏行业已将 WebRTC 技术视为创新的基石。WebRTC 通过 Web 浏览器和移动应用程序实现实时音频、视频和数据交换,提供了完美的解决方案。本文将深入探讨We…
-
探索 Vulkan 音视频技术(2):基础库组件
SaschaWillems/Vulkan 仓库提供了一套全面的基础库组件,作为所有 Vulkan 示例的基石。在本文中,我们将探讨该基础库的关键组件,并了解它们如何协同工作以简化 Vulkan 编程。