技术文章
-
探索 Vulkan 音视频技术(10):GLSL着色器指南
着色器是任何 Vulkan 应用程序的核心,定义了图形和计算操作如何在 GPU 上执行。本文将带你了解着色器结构、编译工作流以及整个示例中使用的集成模式。
-
AnimeColor:基于DiT的动漫视频上色 | ACM MM 2025
动画上色是动画制作中的关键环节,然而现有动画线稿着色模型在保持颜色一致性和稳定性方面仍存在一定挑战。基于此我们提出了一种新颖的线稿视频动画上色模型-ColorAnime。Color…
-
探索 Vulkan 音视频技术(9):性能优化示例
性能优化对于创建能够充分利用现代 GPU 硬件的高性能 Vulkan 应用程序至关重要。本文将探讨SaschaWillems/Vulkan 仓库中可用的关键性能优化示例,并解释如何在自己的应用程序中利用这些技术。
-
如何在 Ubuntu 25.04 中为 Android 构建 WebRTC
Google 曾提供 libWebRTC 库的预编译 Android 镜像,事实上,其官方文档至今仍推荐这种使用方式。但自 WebRTC M80 版本(2020年1月)起,他们决定…
-
实时语音活动检测:兼顾精度与计算量的平衡之道
本文介绍一种实时基于统计模型的VAD算法,与WebRTC VAD流程解析中不同,这里可以复用ANR噪声估计的结果进行判决,在算力受限的端侧设备上是一个不错的选择。
-
探索 Vulkan 音视频技术(8):计算着色器应用
本文探索 SaschaWillems/Vulkan 仓库中的计算着色器示例,展示如何实现从图像处理到粒子模拟的各种计算密集型应用。
-
苹果新获专利,通过人体工学感知滤波技术提升空间音频
苹果公司已获得一项美国专利,该专利涉及一项创新音频系统,该系统可根据可穿戴音频设备相对于用户身体结构的物理位置,动态地确定并应用音频滤波器。这项改进旨在增强空间音频渲染和麦克风拾音…
-
探索 Vulkan 音视频技术(7):光线追踪示例
光线追踪代表了渲染技术的范式转变,超越了传统的光栅化,转而模拟光的物理行为。SaschaWillems/Vulkan 仓库提供了全面的光线追踪示例集合。
-
VoXtream:一款开源的全流式零样本文本转语音模型,支持实时应用
实时语音代理、现场配音和同声传译都因千分之一秒的延迟而受阻。大多数“流式”文本转语音(TTS)系统仍需等待整段文本处理完毕才开始发声,导致听者在语音启动前会听到短暂的停顿。由KTH…
-
zlmediakit 新增支持 webrtc 客户端模式
zlmediakit可以作为webrtc播放器主动拉流,也可以作为webrtc推流器主动推流,还可以作为P2P客户端双向视频会话。
-
B 帧对视频清晰度 / 码率的影响
在 H.264/AVC 视频编码标准的 Extended Profile(扩展档次)中,B 帧(Bidirectional Predictive Frame)作为帧间压缩的核心技术…
-
探索 Vulkan 音视频技术(6):高级渲染技术
本文探讨了 SaschaWillems/Vulkan 仓库中实现的几种高级渲染技术,展示了如何利用 Vulkan 的功能创建令人惊叹的视觉效果。
-
在线娃娃机客户端功能实现流程(H5/Web端)
本文分享如何在H5/Web端实现在线抓娃娃机功能,Android和iOS端整体流程类似,具体可参考即构开发者相关文档。 娃娃机 web 端场景的主要结构及流程如下图所示: 请注意:…
-
如何让你的网络满足人工智能的需求
大多数网络并非为人工智能而建。关键在于:您的网络能否跟上带宽、计算能力和安全需求的激增,还是会落后于时代?人工智能工作负载对基础设施的挑战远超传统数据中心设计的预期,而适应最快的企…
-
做一个基于ffmpeg的AI Agent智能体
FFmpeg AI Agent:一条自然语言指令,实现一个简单音视频处理。让用户说一句:音视频的处理要求,AI Agent帮你把活给做了。
-
探索 Vulkan 音视频技术(5):基础渲染示例
在 SaschaWillems/Vulkan 仓库中,基础渲染示例展示了 Vulkan 图形编程的基本概念。本文将带你了解关键的基础渲染示例,并解释它们展示的核心概念。
-
一文了解通用工具调用协议 (UTCP)
通用工具调用协议 (UTCP,Universal Tool Calling Protocol) 是一种轻量级、安全且可扩展的方式,可供 AI 代理和应用程序直接查找和调用工具,而无…
-
探索 Vulkan 音视频技术(4):交换链与呈现
本文探讨 SaschaWillems/Vulkan 仓库如何实现交换链管理和呈现,为你提供将这些概念集成到自己的 Vulkan 应用程序中的知识。
-
视频聊天如何改变现代通信
过去十年间,人们的互动方式经历了巨大的变化。电话曾占据主导地位,电子邮件似乎不可撼动。然而,视频聊天悄然崛起。它悄然渗透进职场、家庭聚餐、在线课堂,甚至医疗咨询。这不仅是又一种工具…
-
为何需要在设备端收集 WebRTC 统计数据?
了解服务器端监控为何无法满足 WebRTC 需求,以及设备端统计数据收集如何彻底改变用户体验。