技术文章
-
NAB展会展望:直播媒体的未来在于可预测的系统
直播媒体正步入一个新阶段。整个行业,广播公司、服务提供商和体育组织都在围绕 IP 网络、云端制作和分布式工作流程重建其直播基础设施。曾经单一的广播链已演变为一个涵盖场馆、网络、云平…
-
详细总结EddyStone BLE广播包协议规范
Eddystone 是专门针对蓝牙低功耗(BLE)广播包定义的数据格式。本文详细总结EddyStone BLE广播包协议规范。
-
摆脱 Fork :Meta 如何通过 50 多个用例实现 WebRTC 的现代化
本文详细介绍了Meta如何设计解决方案来解决“fork 陷阱”,从而允许在单个库中同时构建两个版本的 WebRTC 以进行 A/B 测试,同时在 monorepo 环境中运行,并对正在测试的库进行持续升级。
-
IQ-LUT:高效图像超分的插值与量化查找表方法 | ICASSP 2026
“计算”和“存储”在资源受限设备中始终存在权衡。查找表(LUT)方法通过用存储换计算,实现了极快的推理速度。然而,随着感受野和量化精度的提升,LUT 的存储规模呈指数增长,严重限制…
-
流媒体的下一阶段需要一种新型基础设施
流媒体视频已成为全球观众观看内容的默认方式。无论是令人欲罢不能的剧集更新,还是全球性的体育赛事直播,观众如今都期望无论使用何种设备、身处何地、何时观看,都能获得流畅无瑕的播放体验。…
-
OpenSIPS 4.0 中的 TCP/TLS 重构
OpenSIPS在4.0做了大的框架改变。OpenSIPS 4.0 中基于线程的新模型在 TLS 性能上的主要改进,是将所有 I/O 操作集中到单一专用进程中,从而实现与 OpenSSL 更高效、更稳定的集成。
-
Meta AI发布EUPE:一款参数量低于1亿的紧凑型视觉编码器,可同时处理各种视觉任务
在智能手机上运行强大的 AI 不仅仅是硬件问题,更是模型架构问题。大多数最先进的视觉编码器体积庞大,当为了适应边缘设备而将其精简时,它们会失去原本使其发挥作用的功能。更糟糕的是,专…
-
2026年为何要投资降低体育赛事直播延迟
人们一直对体育赛事直播的批评在于,其延迟比传统电视转播更高,而且当邻居通过有线电视看到进球并欢呼时,而你的屏幕上却还没显示出来,这种体验实在令人煎熬。有人可能会认为,在这种情况下,…
-
DVRTC:一个用于学习 VoIP 和 WebRTC 安全的实践型漏洞实验室环境
安全研究团队 Enablesecurity 开发了 DVRTC(Damn Vulnerable Real-Time Communications),这是一个用于学习 VoIP 和 …
-
ZEGO即时通讯SDK 2.28 版本发布,更新Native、小程序和uniapp-x多个平台
2026 年 4 月 2 日,ZEGO 即时通讯 SDK(ZIM SDK)2.28.0 版本发布,Native、Flutter、React Native 新增消息表态支持重复表态和…
-
DeepHQ:学习型层次化量化器用于渐进式深度图像编码 | TOMM 2026
本文提出了一种基于学习图像压缩(LIC)的渐进编码(PIC)方案框架。DeepHQ 的核心创新在于其“学习型分层量化器”以及与之配套的“扩展选择性压缩”机制。
-
降噪技术的真正含义(以及谁真正从中受益)
耳机、电话设备和协作系统的供应商通常会在产品规格书中重点介绍一系列与降噪相关的功能。你经常会看到“声学屏蔽”、“主动降噪”、“AI降噪”等术语,这些术语都旨在强调设备提供清晰易懂音…
-
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术
音频生成技术正在经历一场全新的范式迁移——从传统级联架构,逐步向端到端生成范式演进。长期以来,主流的做法是“曲线救国”:合成系统先将音频压缩成梅尔频谱图等中间表征,再依赖神经声码器…
-
揭开体育赛事直播运营和技术的神秘面纱
现代体育赛事直播最重要的部分,并不是球迷所看到的,而是他们从未见过的。在屏幕上的每一个瞬间背后,都隐藏着一层庞大的技术与运营体系,它们共同运作,让观众的观赛体验显得行云流水。
-
微软 发布全新的多语言嵌入模型 Harrier-OSS-v1,为多种语言提供高质量的语义表示
微软宣布推出Harrier-OSS-v1,这是一套包含三种多语言文本嵌入模型的系列产品,旨在为多种语言提供高质量的语义表示。该版本包含三种不同规模的模型:2.7 亿参数模型、6 亿…
-
主动降噪:音频系统中的静音工程
在音频世界里,静音往往与声音同样珍贵。无论是机舱内的低沉轰鸣、交通的持续嗡嗡声,还是录音中背景噪声的嘶嘶作响,这些不受欢迎的声音都会损害清晰度和舒适感。 主动降噪 (ANC) 提供…
-
Salesforce AI 研究院发布 VoiceAgentRAG:一款双代理内存路由器,可将语音 RAG 检索延迟降低 316 倍
在语音 AI 领域,有效助手和尴尬交互之间的差别往往以毫秒计。基于文本的检索增强生成(RAG)系统可以容忍几秒钟的“思考”时间,而语音代理必须在200毫秒的预算内做出响应,才能保持…
-
如何监控正确的 VoIP 和 UC 的 KPI?
本文详细解析对 VoIP 和统一通信(UC)至关重要的关键绩效指标(KPI),并介绍如何利用这些指标来确保始终如一的高质量体验。
-
RTC成语音AI基础设施:AWS和ElevenLabs相继跟进,ZEGO已跑三年
2026 年 3 月,语音 AI 领域迎来一个值得关注的技术信号:AWS(亚马逊云科技)与 ElevenLabs 在同一个月内相继宣布支持 WebRTC 协议。这一时间上的高度吻合…
-
谷歌发布 Gemini 3.1 Flash Live:面向AI代理的实时多模态语音模型
谷歌已通过 Google AI Studio 中的 Gemini Live API 向开发者发布了 Gemini 3.1 Flash Live 预览版。该模型旨在实现低延迟、更自然…