技术文章
-
如何打造低延迟、高可用的全球化实时音视频落地方案?ZEGO RTC全球化架构技术解析
本文介绍即构科技(ZEGO)通过全新的「RTC全球化架构」,依托四大核心技术能力,为出海企业提供低延迟、高可用的全球化实时音视频落地方案。
-
新的 OpenVX 扩展简化了异构 SoC 上的计算工作负载
Khronos® 的 OpenVX™ 工作组发布了两个专门针对现代异构系统上计算机视觉和人工智能应用开发而开发的扩展,旨在解决长期以来制约开发者构建此类应用的瓶颈。这两个新扩展分别…
-
NVIDIA 和马里兰大学发布 Audio Flamingo Next (AF-Next):一个功能强大且开放的大型音频语言模型
理解音频一直是多模态领域中落后于视觉的前沿阵地。虽然图像语言模型已经迅速扩展到实际应用,但构建能够稳健地推理语音、环境声音和音乐(尤其是长音频)的开放模型仍然非常困难。NVIDIA…
-
流媒体平台如何计算许可费:Access Advance vs Avanci Video
本文旨在帮助流媒体服务商了解这Access Advance 和 Avanci Video如何计算版税,并直接对比潜在的版税成本。
-
AI 与新一代编解码器正在重塑编码创新
随着超高清(UHD)、高动态范围(HDR)、体育赛事直播、沉浸式音频乃至 8K 技术的应用日益普及,编码已成为一项核心业务战略。广播公司和流媒体服务提供商必须在提升观众体验的同时,…
-
NAB展会展望:直播媒体的未来在于可预测的系统
直播媒体正步入一个新阶段。整个行业,广播公司、服务提供商和体育组织都在围绕 IP 网络、云端制作和分布式工作流程重建其直播基础设施。曾经单一的广播链已演变为一个涵盖场馆、网络、云平…
-
详细总结EddyStone BLE广播包协议规范
Eddystone 是专门针对蓝牙低功耗(BLE)广播包定义的数据格式。本文详细总结EddyStone BLE广播包协议规范。
-
摆脱 Fork :Meta 如何通过 50 多个用例实现 WebRTC 的现代化
本文详细介绍了Meta如何设计解决方案来解决“fork 陷阱”,从而允许在单个库中同时构建两个版本的 WebRTC 以进行 A/B 测试,同时在 monorepo 环境中运行,并对正在测试的库进行持续升级。
-
IQ-LUT:高效图像超分的插值与量化查找表方法 | ICASSP 2026
“计算”和“存储”在资源受限设备中始终存在权衡。查找表(LUT)方法通过用存储换计算,实现了极快的推理速度。然而,随着感受野和量化精度的提升,LUT 的存储规模呈指数增长,严重限制…
-
流媒体的下一阶段需要一种新型基础设施
流媒体视频已成为全球观众观看内容的默认方式。无论是令人欲罢不能的剧集更新,还是全球性的体育赛事直播,观众如今都期望无论使用何种设备、身处何地、何时观看,都能获得流畅无瑕的播放体验。…
-
OpenSIPS 4.0 中的 TCP/TLS 重构
OpenSIPS在4.0做了大的框架改变。OpenSIPS 4.0 中基于线程的新模型在 TLS 性能上的主要改进,是将所有 I/O 操作集中到单一专用进程中,从而实现与 OpenSSL 更高效、更稳定的集成。
-
Meta AI发布EUPE:一款参数量低于1亿的紧凑型视觉编码器,可同时处理各种视觉任务
在智能手机上运行强大的 AI 不仅仅是硬件问题,更是模型架构问题。大多数最先进的视觉编码器体积庞大,当为了适应边缘设备而将其精简时,它们会失去原本使其发挥作用的功能。更糟糕的是,专…
-
2026年为何要投资降低体育赛事直播延迟
人们一直对体育赛事直播的批评在于,其延迟比传统电视转播更高,而且当邻居通过有线电视看到进球并欢呼时,而你的屏幕上却还没显示出来,这种体验实在令人煎熬。有人可能会认为,在这种情况下,…
-
DVRTC:一个用于学习 VoIP 和 WebRTC 安全的实践型漏洞实验室环境
安全研究团队 Enablesecurity 开发了 DVRTC(Damn Vulnerable Real-Time Communications),这是一个用于学习 VoIP 和 …
-
ZEGO即时通讯SDK 2.28 版本发布,更新Native、小程序和uniapp-x多个平台
2026 年 4 月 2 日,ZEGO 即时通讯 SDK(ZIM SDK)2.28.0 版本发布,Native、Flutter、React Native 新增消息表态支持重复表态和…
-
DeepHQ:学习型层次化量化器用于渐进式深度图像编码 | TOMM 2026
本文提出了一种基于学习图像压缩(LIC)的渐进编码(PIC)方案框架。DeepHQ 的核心创新在于其“学习型分层量化器”以及与之配套的“扩展选择性压缩”机制。
-
降噪技术的真正含义(以及谁真正从中受益)
耳机、电话设备和协作系统的供应商通常会在产品规格书中重点介绍一系列与降噪相关的功能。你经常会看到“声学屏蔽”、“主动降噪”、“AI降噪”等术语,这些术语都旨在强调设备提供清晰易懂音…
-
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术
音频生成技术正在经历一场全新的范式迁移——从传统级联架构,逐步向端到端生成范式演进。长期以来,主流的做法是“曲线救国”:合成系统先将音频压缩成梅尔频谱图等中间表征,再依赖神经声码器…
-
揭开体育赛事直播运营和技术的神秘面纱
现代体育赛事直播最重要的部分,并不是球迷所看到的,而是他们从未见过的。在屏幕上的每一个瞬间背后,都隐藏着一层庞大的技术与运营体系,它们共同运作,让观众的观赛体验显得行云流水。
-
微软 发布全新的多语言嵌入模型 Harrier-OSS-v1,为多种语言提供高质量的语义表示
微软宣布推出Harrier-OSS-v1,这是一套包含三种多语言文本嵌入模型的系列产品,旨在为多种语言提供高质量的语义表示。该版本包含三种不同规模的模型:2.7 亿参数模型、6 亿…