技术文章
-
NVIDIA AI 推出 Audio-SDS:基于扩散的统一框架,无需专门数据集即可实现提示引导音频合成和源分离
音频扩散模型已经实现了高质量的语音、音乐和拟音合成,但它们主要擅长样本生成而非参数优化。诸如基于物理信息的撞击声生成或提示驱动的声源分离等任务,需要能够在结构约束下调整明确、可解释…
-
边缘连接架构:设计覆盖全球企业网络的分布式低延迟路由层
随着企业将其数字化运营扩展到全球基础设施,对低延迟、分布式连接的需求也空前高涨。随着云计算、物联网和人工智能驱动型应用的兴起,企业需要无缝、可靠且可扩展的网络架构来确保高效的数据流…
-
如何使用 Expo 和 WebRTC 构建视频通话应用(最简单的方法)
由于兼容性问题和缺乏明确的指导,许多开发人员在将 WebRTC 集成到 Expo 应用程序时面临挑战。本文将探讨使用 Expo 和 WebRTC 构建视频通话应用程序的最简单方法。…
-
浏览器如何处理音频流:MediaRecorder 与 Web Audio API
有没有想过,网站是如何让您录制语音笔记、玩带有动态音效的互动游戏,甚至将音乐可视化的?这些神奇的事情就发生在浏览器中,由专门用于处理音频流的复杂 JavaScript API 驱动…
-
探索 CameraX 音视频相机技术(6):视频捕获架构
这个系列文章我们来介绍一位海外工程师如何探索 CameraX 音视频相机技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 6 篇:CameraX 视频捕获…
-
一个线程是否可以有多个 OpenGL 上下文?
OpenGL 上下文(OpenGL Context)是一个包含了 OpenGL 所有状态信息的环境,是你与 GPU 进行任何 OpenGL 调用之前必须建立的基础。 简单…
-
探索 CameraX 音视频相机技术(5):图像分析
这个系列文章我们来介绍一位海外工程师如何探索 CameraX 音视频相机技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 5 篇:CameraX 图像分析…
-
技术焦点:利用 AR 和虚拟制作提升体育广播的沉浸感
沉浸式技术正在重塑体育广播,其解决方案使制作更具活力、更具吸引力。从AR图形到实时虚拟制作演播室,这些技术的进步正在提升效率并增强叙事效果。 “广播公司越来越倾向于沉浸式体育体验,…
-
WebRTC 视频调试:如何使用 video_replay 重现和修复问题
调试 WebRTC 应用程序中的视频问题是一项极具挑战性的任务。由于底层存在众多可变部件,要准确找出问题的原因无异于大海捞针。最有效的策略之一就是在受控环境中持续重现问题。 在本篇…
-
探索 CameraX 音视频相机技术(4):捕获图像
这个系列文章我们来介绍一位海外工程师如何探索 CameraX 音视频相机技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 4 篇:CameraX 捕获图像…
-
一文了解 Kurento:开源WebRTC流媒体服务器
Kurento 是一个开源 WebRTC 流媒体服务器,内置许多视频会议模块,以 Apache 许可发布。Kurento 于 2010 年在马德里开发,Kurento 使用的主要语言是 C++,这有助于优化系统资源。
-
5 个经典音视频开发入门项目
推荐 5 个经典音视频开发入门项目,包括FFmpeg、ijkplayer、GPUImage For Android、Grafika 和 AudioVideoRecordingSam…
-
Flutter 中使用 Pusher Channels 实现实时通信
实时通信是现代应用程序的基石,它支持即时聊天、通知和协作工具等功能。在这篇文章中,我们将探讨如何使用 pusher_channels_flutter 包将 Pusher Chann…
-
中科院发布可扩展模块化语音语言模型 LLaMA-Omni2,以最小的延迟进行实时对话
中国科学院计算技术研究所的研究人员推出了LLaMA-Omni2,这是一系列支持语音的大型语言模型(SpeechLM),现已在Hugging Face上可用。这项研究引入了一个模块化…
-
NVIDIA 开源 Parakeet TDT 0.6B:打造自动语音识别 ASR 全新标准,一秒转录一小时音频
NVIDIA 发布了Parakeet TDT 0.6B,这是一款先进的自动语音识别 (ASR) 模型,现已在Hugging Face上完全开源。该模型拥有6 亿个参数、商业许可的 …
-
即构 AI Agent 2.0 上线!快速与AI实现图文消息、实时通话等场景
上周,即构科技(ZEGO)实时互动 AI Agent 全新升级并发布 2.0,ZEGO 为 AI 智能体实时互动打造的全新一代实时互动 AI: 产品简介 ZEGO 实时互动 AI …
-
Xbox 如何悄然解决 Xbox 云游戏延迟问题
在 GDC 2025 大会上,微软详细介绍了 Xbox 云游戏的发展历程。其中最重要的一点就是性能,特别是延迟。虽然视觉效果和功能经常成为焦点,但延迟一直是 Xbox 关注的重点。…
-
基于WebRTC 视频会议协同平台40个核心功能分析
基于开源Jitsi和MiroTalk 文档,以下对基于WebRTC 视频会议协同平台的 40 个主要功能进行深入分析,涵盖技术概念和典型使用场景。
-
探索 CameraX 音视频相机技术(3):实现预览
这个系列文章我们来介绍一位海外工程师如何探索 CameraX 音视频相机技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 3 篇:CameraX 实现预览…
-
释放新的可能性:压缩和高密度工作流程如何影响体育直播制作
随着对直播内容需求的增长,广播公司必须在提高效率和成本效益的同时提供高质量的制作。压缩和高密度解决方案是现代现场直播制作技术实现这些目标的核心,使广播公司能够处理复杂的工作流程、报…