技术文章
-
主动降噪:音频系统中的静音工程
在音频世界里,静音往往与声音同样珍贵。无论是机舱内的低沉轰鸣、交通的持续嗡嗡声,还是录音中背景噪声的嘶嘶作响,这些不受欢迎的声音都会损害清晰度和舒适感。 主动降噪 (ANC) 提供…
-
Salesforce AI 研究院发布 VoiceAgentRAG:一款双代理内存路由器,可将语音 RAG 检索延迟降低 316 倍
在语音 AI 领域,有效助手和尴尬交互之间的差别往往以毫秒计。基于文本的检索增强生成(RAG)系统可以容忍几秒钟的“思考”时间,而语音代理必须在200毫秒的预算内做出响应,才能保持…
-
如何监控正确的 VoIP 和 UC 的 KPI?
本文详细解析对 VoIP 和统一通信(UC)至关重要的关键绩效指标(KPI),并介绍如何利用这些指标来确保始终如一的高质量体验。
-
RTC成语音AI基础设施:AWS和ElevenLabs相继跟进,ZEGO已跑三年
2026 年 3 月,语音 AI 领域迎来一个值得关注的技术信号:AWS(亚马逊云科技)与 ElevenLabs 在同一个月内相继宣布支持 WebRTC 协议。这一时间上的高度吻合…
-
谷歌发布 Gemini 3.1 Flash Live:面向AI代理的实时多模态语音模型
谷歌已通过 Google AI Studio 中的 Gemini Live API 向开发者发布了 Gemini 3.1 Flash Live 预览版。该模型旨在实现低延迟、更自然…
-
美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语
物理世界的信息由图像、声音、文字交织而成。今天的大模型,本质上仍然是以语言为中心的建模系统,语言作为人类智慧符号化表述,在“压缩即智能”的范式下表现出强大的能力。但通往真正的物理世…
-
Agent 语音交互如何更稳、更快?一次高并发消息链路优化实践
本文结合一个典型的高并发智能语音交互场景,介绍如何基于阿里云 RocketMQ LiteTopic 构建一套更稳定、更可靠、更高效的实时语音消息链路架构。
-
在体育赛事直播领域,弹性是否已取代规模成为首要关注点?
在应对流量激增及其他对直播构成压力测试的因素时,“基础设施的强度取决于链条中最薄弱的环节,”DAZN 执行副总裁 James Pearce 在 2026 年 Streaming M…
-
【音视频】iOS 播放器秒开(零延迟)深度优化方案
本文介绍 iOS 播放器秒开(零延迟)深度优化方案。 1、核心链路耗时拆解 要优化秒开,首先要理解从“点击”到“首帧渲染”的四个关键阶段: 2、客户端优化策略 2.1、预加载与预热…
-
为什么体积3D技术终于可以用于广播领域了?
诺基亚首席标准化专家 Patrice Rondao Alface 阐述了 V-DMC 如何为在广播、流媒体和 XR 平台上部署直播及点播体积媒体提供了一条切实可行的途径。 动态 …
-
Luma Labs推出Uni-1:一种在生成图像前能够推理意图的自回归Transformer模型
在生成式 AI 媒体领域,行业正从纯粹的概率像素合成转向能够进行结构推理的模型。Luma Labs 近日发布了Uni-1,这是一款基础图像模型,旨在解决标准扩散流程中固有的“意图鸿…
-
使用 FFmpeg 中的 Vulkan 计算着色器进行视频编码与解码
对于普通用户而言,互联网上的视频编解码问题已基本得到解决。如今,大多数消费类设备都配备了专用的硬件加速芯片,Vulkan® 视频扩展等 API 可直接调用这些芯片。与此同时,新一代…
-
如何在服务器集群发生故障时 WebRTC 架构仍能正常运行?
在过去的五年中,AWS 的北弗吉尼亚集群(即US-EAST-1)至少发生了三次引发重大互联网瘫痪的事件。 每项服务各不相同,而如今系统间存在如此多的依赖关系和耦合,很难不受此类事件…
-
ICASSP 2026|迈向构建低资源语种的多任务语音理解模型
为解决低资源语言 SLLMs 多任务理解的核心难题,本文以泰语为典型研究对象,提出一套集专用语音编码器、高效通用对齐方法、规模化数据生成方案于一体的综合性解决方案。
-
语聊房SDK如何选型?国内主流RTC SDK服务商对比
语音社交赛道正在持续升温。从早期的语音聊天室到如今的多元语音场景、AI Agent 结合语音场景等,语聊房这个熟悉的互联网社交娱乐场景正在涌现新玩法,成为深受Z世代欢迎的泛娱乐方式…
-
中间里程网络弹性与大规模直播传输
CacheFly 首席技术官兼创始人Matt Levine 指出,随着流媒体传输的“最后一英里”变得越来越可预测,致力于提升直播活动传输可靠性的流媒体专业人士的关注点正转向“中间一…
-
ICLR2026 | Ada-RefSR: 自适应隐式相关建模,开启“信而有证”的参考超分新范式
本文针对于单步SD的超分模型容易出现幻觉问题,提出了信而有证参考超分新范式,基于单步扩散模型构建,首先通过注意力机制引入参考信息,随后通过隐式相关性建模进行过滤与验证,对应的论文已…
-
Google AI 发布 WAXAL:用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集
语音技术仍然面临数据分布问题。自动语音识别 (ASR) 和文本转语音 (TTS) 系统在高资源语言方面取得了快速发展,但许多非洲语言在开放语料库中的代表性仍然不足。谷歌及其合作者组…
-
生成式 AI 如何变革体育直播优化
体育赛事直播会将视频传输链中的每个环节都推向极限,在短短几秒内暴露所有潜在弱点。当超级碗、奥运会或世界杯比赛直播时,流量会迅速激增,容错空间瞬间消失,测试阶段被掩盖的质量问题会在数…
-
Camera实战案例分析-拍照图像较预览画面上移
第三方相机 App 打开相机进行拍照,发现保存下来的照片和预览画面比较,拍照照片有上移。本文针对这一现象的原因和解决方式进行分析。