技术文章
-
Meta 如何在云端转码视频
说到像 Meta 这样的视频转码业务,考虑到规模以及不同目标和场景的复杂阵列,Meta 如何进行云转码并没有简单的答案。但 Meta 技术项目经理 Hassene Tmar 在最新…
-
VLM2Vec-V2:用于跨图像、视频和视觉文档进行多模态嵌入学习的统一计算机视觉框架
嵌入模型通过将多样化的多模态信息编码到共享的稠密表示空间中,充当不同数据模态之间的桥梁。近年来,在大型基础模型的推动下,嵌入模型取得了长足进步。然而,现有的多模态嵌入模型大多基于 …
-
【音视频】计算真实的端到端往返时间(RTT)
这个系列文章我们来介绍一位海外工程师如何探索 WebRTC 音视频技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,本篇介绍计算真实的端到端往返时间 (RTT)。…
-
如何使用 WebRTC 和 Spring Boot 构建实时音视频通话
了解如何使用 WebRTC、信令和 STUN/TURN 服务器在 Spring Boot 应用程序中启用点对点实时通信。 为什么选择 WebRTC + Spring Boot? W…
-
SRT 和 SST 视频传输协议有什么区别?
SRT 和 SST 协议之间有什么区别?SST 和 SRT 都是实时视频传输协议,旨在通过非托管网络传输高质量、低延迟的视频。两者之间的根本区别在于,SRT 最初是为包括互联网在内…
-
实时视频处理与 WebCodecs 和流:处理管道
探讨 WebCodecs 和流在实时视频处理中未来的两篇文章系列的第一篇。本文第一部分回顾了使用现有和最新的网络 API 构建多步骤视频处理管道的步骤和可能遇到的坑。
-
DualDub:同时生成和谐的语音与背景音频,构建完整的视频音轨 | ACM MM 2025
当前视频到音频(Video-to-Audio, V2A)模型可以从视觉输入中生成逼真的背景音频,但它们大多忽略了语音在视频音轨中的关键组成部分。近期,西工大音频语音与语言处理研究组…
-
使用 Kubernetes 编排边缘计算:架构、挑战和新兴解决方案
边缘计算已成为一种变革性方法,它使数据处理更接近数据源,不再依赖于集中式云基础设施。这对于要求低延迟、更高带宽效率和更高操作自主性的实时应用尤为重要。 Kubernetes 是一个…
-
200 万连接测试:EMQX WebSocket 性能深度解析
本文将带您深入探索 200 万连接背后的技术征程。我们将详细解读测试环境设置、各阶段结果以及实现这一卓越性能的 EMQX 架构原理。
-
Kamailio 中使用 nats 做路由分发
Kamailio 中如何使用 nats 做路由分发?Kamailio 作为一个开源的 SIP 服务器,NATS 作为一个性能极高的消息传递系统,两者的结合实现了高效的消息传递和事件处理。
-
从被动到主动:利用机器学习和 INT 预测网络拥塞
了解机器学习如何在网络拥塞发生之前进行预测。
-
现在搞 ffmpeg 有钱途吗?
从技术发展、行业需求和资金支持等角度来看,FFmpeg 作为音视频处理领域的核心开源项目,仍然具有较高的商业价值和职业发展潜力。 以下从多个维度详细分析: 1. 行业需求旺盛,音视…
-
udp连通性质量压测工具
基于 Rust 的异步运行时 Tokio 开发的一款高性能 UDP 网络压测工具,专注于精准探测两台主机之间的网络状况,为 UDP 应用提供可靠的数据支撑。
-
OpenGL 面试:上下文、线程、指令队列有什么联系?
OpenGL 上下文、线程、指令队列有什么联系? 不是每个线程天然拥有指令队列,而是必须和某个 OpenGL 上下文绑定才行。一个线程在激活一个上下文时,该线程会有对应的 Open…
-
探索 FFmpeg Basics 音视频技术(26): 词汇表 / 关于作者
这个系列文章我们来介绍一位海外工程师如何探索 FFmpeg Basics 音视频技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 26 篇:FFmpeg …
-
NVIDIA AI 发布 Canary-Qwen-2.5B:一款先进的 ASR-LLM 混合模型,在 OpenASR 排行榜上拥有 SoTA 性能
NVIDIA 刚刚发布了Canary-Qwen-2.5B,这是一款突破性的自动语音识别 (ASR) 和语言模型 (LLM) 混合模型,目前以创纪录的 5.63% 的词错率 (WER…
-
使用 AVPlayer 播放 FairPlay DRM 视频的最佳实践
本文介绍使用 AVPlayer 播放 FairPlay DRM 视频的最佳实践。DRM 是指使用加密技术保护视频内容、通过专业技术安全地存储和传输密钥、并允许内容生产商设置商业规则,限制内容观看者的一种系统。
-
英特尔发布衡量游戏图像质量的 AI 工具,为客观量化现代渲染技术的图像质量开辟新途径
英特尔有可能使客观评估现代游戏的图像质量变得更容易。一种新的 AI 驱动的视频质量指标,名为计算机图形视觉质量指标(Computer Graphics Visual Quality…
-
通过预训练的生成音频编码器和声码器实现高效且适应性强的语音增强
语音增强 (SE) 领域的最新进展已经超越了传统的掩码或信号预测方法,转而采用预训练音频模型来获取更丰富、更可迁移的特征。这些模型(例如 WavLM)可以提取有意义的音频嵌入,从而…
-
NVIDIA 发布 Audio Flamingo 3:推动音频通用智能发展的开源模型
听说过通用人工智能 (AGI) 吗?来认识一下它在听觉领域的对手,通用音频智能 (Audio General Intelligence )。NVIDIA 凭借Audio Flami…