技术文章
-
Miso Labs发布MisoTTS:一款拥有开放权重的80亿情感文本转语音模型
Miso Labs 发布了 MisoTTS,这是一款开放权重、拥有 80 亿参数的文本转语音模型。它能够根据文本和音频上下文生成富有表现力的语音。该模型采用残差矢量量化 (RVQ)…
-
机器视觉压缩的三种途径:VCM、FCM 和 V-Nova 通配符
视频内容正越来越多地被专门或主要用于机器分析,典型应用场景包括监控摄像、自动驾驶、工业检测及无人机航拍等。H.264 与 HEVC 等传统编解码标准以人类视觉感知为优化目标,而非机…
-
规模化架构:如何将视频会议从单服务器扩展到高可用系统
扩展视频会议是一个真正困难问题。本文拟将学习如何构建一个在饱和发生前就能做出反应的自适应扩展循环,以及如何通过准入规则在流量突增时保护通话质量。
-
在服务端用 Pion + FFmpeg + RNN 做 WebRTC 通话降噪
WebRTC 服务端音频降噪实验应该先从一个很小的验证目标开始。Go 媒体服务能不能用 Pion 收到 Opus 音频,解码成 PCM,再交给 FFmpeg 的 RNN 降噪滤镜处理,并生成可验证的输出。
-
直播间/语聊房AI互动助手如何助力新人主播熬过”开播前3分钟”
晚8黄金档,新人主播晴儿准时开播。开播10分钟,直播间只有3个观众。面对空空如也的弹幕区,她只好默默下播; 另一边,头部主播峰哥的直播间人气爆棚,弹幕快速刷屏中:“主包在玩什么游戏…
-
语音增强中的自监督学习:从无配对训练到基础模型先验
语音增强中的 SSL 已经不再只是“监督数据不够时的权宜之计”,SE 的研究范式已经发生明显变化。对于 SE 而言,自监督学习真正带来的,不只是更少标签,而是更强先验与更宽系统设计空间。
-
从任意视角探索场景:3D体积视频技术突破意味着3D流媒体可能很快成为现实
布朗大学的研究人员公布了一种名为 PackUV 的全新视频处理方法,他们将其描述为实现逼真、可存储的3D 体积视频的“关键一步”,这种视频可以从各个角度观看,并且与目前互联网上大多…
-
实时音视频技术在“一起看电影”场景中的应用和实现
异地的人同步看同一部电影、边看边聊,看似简单,工程上要同时解决两件难事:播放进度毫秒级对齐 + 实时语音/视频陪看。本文拆解两套同步方案并给出基于 ZEGO RTC 的示例代码。 …
-
从 1v1 速配到「1 主持 + 多嘉宾」相亲房,拆解视频相亲背后的实时音视频架构
从 1v1 速配到「1 主持 + 多嘉宾」相亲房,拆解视频相亲背后的实时音视频架构:低延迟连麦、美颜滤镜、礼物打赏、内容审核与弱网优化,并附基于 ZEGO SDK 的示例代码。 一…
-
从 0 到 1 拆解一个在线 pia 戏(语音配音戏)应用的 RTC 技术架构
从 0 到 1 拆解一个在线 pia 戏(语音配音戏)应用的技术架构:多人麦位、200ms 低延迟语音、BGM 混音、变声混响与房间信令,并给出可落地的基于 ZEGO RTC SD…
-
NDI协议是什么?NDI协议如何在直播中工作
本文涵盖广播公司需要了解的关于NDI协议的一切:它的技术原理、与其他流媒体协议的区别,以及如何在直播制作环境中实施。
-
RTSP 拒绝消亡,因为它依然运行良好
每隔几年,就会有人发表一篇”RTSP已死”的文章。他们会指出,这个协议诞生于1998年,无法在浏览器中运行,不能接入CDN,也不支持自适应码率。结论是:直接…
-
2026 年国内外主流直播 SDK 的功能、价格和生态横向对比
直播 SDK 是直播平台的技术底座。选错 SDK,意味着延迟高、卡顿多、成本失控、扩展受限。这篇文章基于 2026 年的市场现状,从性能、功能、价格、生态等维度,对国内外主流直播 …
-
实时音视频技术在“一起听音乐”场景中的应用和实现
“一起听”是 Z 世代社交里非常治愈的一种玩法:朋友、情侣、陌生人,分隔两地,在网易云、QQ 音乐、Spotify 里同步收听同一首歌,边听边语聊或文字交流…
-
【音视频】播放卡顿通过模型深度优化
在 iOS 音视频开发中,传统的卡顿优化往往依赖于硬编码的阈值(例如:当 AVPlayer 缓存低于 2 秒时触发 Loading)。然而,面对移动端复杂的网络…
-
一个生产级语聊房怎么做?从架构、信令、音频处理、礼物互动等维度拆解
从 Clubhouse 到 TT 语音、Yalla、SoulChat,语聊房一直是泛娱乐社交里最稳的赛道之一。它本质上是一个”多人实时音频房间 + 上下麦 + 礼物 +…
-
怎么实现语音电台功能?聊聊实时音视频技术在语音电台场景中的应用
语音电台和”互动播客”是亲戚但不一样:电台更强调1 主播 → 万级听众的单向广播,互动相对克制,以 IM 弹幕、点歌、打赏为主,连麦上麦不是主路径。荔枝、猫…
-
Chrome 浏览器将发布周期改为两周,你的 WebRTC 应用进展如何?
Chrome 将转为两周一次的发布周期。这一变化将于今年 9 月开始实施。此前,其发布周期为四周。一切都在加速推进,如果你正在使用 WebRTC 进行开发,请务必留意并做好准备。 …
-
物理感知 AI 可从视频估算物体质量与速度,让视频音效更真实
在电影《侏罗纪公园》中,当观众看到巨型恐龙朝自己走来时,会自然而然联想到低沉、轰鸣的脚步声,仿佛大地都在震颤。这是因为人类对声音的预判,不仅依据物体外形,还会结合尺寸、质量、运动速…
-
2026 年主流 AI 对话式 API 的性能和价格评测对比
2026 年,AI 对话式 API 已成为构建智能应用的基础能力。从智能客服到 AI 伴侣,从语音助手到数字人直播,开发者面临的核心问题是:如何在众多 AI 对话 API 中选出性…