技术文章
-
华为起诉迪士尼和 Meta,那这个GTLA具体是什么?本文起底一下
华为和迪士尼,meta等公司在打官司。涉案专利为EP3471419,技术名称是视频压缩中的渐进时间层存取图像。这一专利属于HEVC标准必要专利,是高清、4K视频流畅播放的核心支撑。
-
MWC 2026:移动视频的未来愿景
Tvbeurope 的 Joe O’Halloran 回顾了 2026 年世界移动通信大会,会上讨论的话题包括 AI 如何提升视频质量,以根据最终用户需求创建内容,以及…
-
比赛直播视角粉丝说了算!F1毫秒级同步的“私人导播”是如何实现的?
在很长一段时间里,体育直播的逻辑是单向的:导播切什么,你就得看什么;导播觉得汉密尔顿重要,你就看不到后排缠斗的角田裕毅。但在时速300公里的F1赛场上,F1与亚马逊云科技联手做了一…
-
GenRTC:基于联合自适应编码与带宽估计实现的生成式实时视频会议系统 | TBC 2026
实时视频通信系统广泛发展,深入大众的日常生活。然而,现实世界的网络状况不总能令人满意,特别是在地铁或拥挤的公共场所等带宽受限的环境中,现有的实时通信(RTC)系统均难以维持最优性能…
-
为什么自动扩缩容可能会导致 RTC 通话中断(以及如何修复它)
自动扩缩容常被视为云效率的黄金标准。只需几行配置,即可实时调整基础设施以匹配流量,在节省成本的同时确保应用在高负载下稳定运行。但对于实时通信(RTC)应用,规则截然不同。 无论采用…
-
语聊房中的声浪效果是怎么实现的
在语聊房、K 歌房等实时音频场景中,我们经常能看到随着用户说话或唱歌,界面上会出现动态的声浪波形或音量柱状图。这种视觉反馈不仅让用户感知到音频正在传输,还能增强互动体验。那么,这种…
-
OpenSIPS 4.0 中的绑定套接字(bond socket)
在实际场景中,SIP 路由是通过多个 IP 接口(例如公网或私网、不同的 VPN、IPv4 与 IPv6 或不同的协议)实现的。通常,OpenSIPS 会通过为待处理的呼叫选择/设…
-
半岛电视台和 YouTube 的实时直播规模化解决方案
大型流媒体平台如何在重大新闻事件和突发新闻期间预判、配置并规划实时流量突发?半岛电视台高级流媒体架构师 Dilip Bharadwaj 与 YouTube 直播 OTT 工程主管 …
-
FFmpeg 在 Meta 的应用:大规模媒体处理
本文介绍了 FFmpeg 在 Meta 的应用,主要是实现的两个重要功能缺口:线程化多通道转码和实时质量指标。
-
ICLR 2026 | 对抗扩散压缩算法在真实世界视频重建任务中的应用
现有扩散模型凭借强大的生成能力,在真实世界视频超分辨率(Real-VSR)任务中取得了显著进展。然而,由于依赖多步采样的重建过程,这类方法的推理速度较慢。单步生成网络,如 Seed…
-
PyMKUI:ZLMediakit的现代化前端管理界面
PyMKUI是一个为ZLMediakit设计的现代化前端管理界面,提供了直观、美观的视频流管理功能。作为ZLMediakit的官方前端管理工具,PyMKUI为流媒体服务器的管理和监…
-
【音视频】客户端音视频超分
在移动端音视频领域,超分技术(Super Resolution, SR)已成为提升用户视觉体验、降低传输带宽成本的核心手段。对于 iOS 开发者而言,实现高效的超分方案不仅是算法的…
-
摩尔线程MTVSR实时视频超分技术:让经典影像获高清“重生”
随着高分辨率桌面显示器价格不断下探,4K及以上分辨率的显示器已逐渐成为市场主流。然而,与超高清显示设备的普及形成反差的是,当前海量视频内容仍主要停留在720p和1080p的高清标准…
-
【音视频】C++ 实现视频编码与解码
在 Android NDK 开发中,直接使用 C++ 调用 MediaCodec 通常是为了追求极致性能或与现有的 FFmpeg/OpenGL 管道集成。自 A…
-
如何为高密度语音场景设计Wi-Fi 6与Wi-Fi 7
当几十甚至几百个用户共享同一个无线网络时,语音通话往往首当其冲受到影响。通话会中断,音频会断断续续。用户通常会责怪电话系统,但实际上,问题往往出在 Wi-Fi 设计上。 如果您计划…
-
ICLR 2026 | 基于概念蒸馏的生成式视频复原算法Vivid-VR
本文介绍了由淘天音视频技术团队提出的一种名为Vivid-VR的生成式视频复原算法,该成果已被顶级会议ICLR 2026收录。针对现有基于扩散模型的视频复原方法在微调过程中容易出现的…
-
消息平台演进之路:为什么融合是必然趋势
云原生架构的成熟、存储技术的演进、以及行业对平台化治理的共识,让统一消息平台从愿景变为现实。消息基础设施正在迎来一次范式跃迁:从「多套工具各司其职」走向「一个平台统一承载」。
-
小红书:实时交互系统如何打造极致沉浸的语音拜年体验
2026年春节期间,面对亿级 DAU 流量洪峰,社交业务成功落地了「语音拜年」与「表情烟花」两大重磅活动。本文阐述了如何通过融合自适应调度引擎、实时 ASR 语音识别及高性能粒子渲…
-
CVPR 2026 | 多模态通用的轻量化无损压缩方法
本文为上海交通大学与蚂蚁集团的合作工作,主要关注多模态数据的统一高效无损压缩。无损压缩是数据存储与传输的基石,但在多模态协同的大数据时代,现有压缩器要么仅针对单模态设计导致部署冗余…
-
ICLR 2026 | 火山引擎多媒体实验室提出GenDR, 探索扩散模型超分落地难题
由于扩散模型在图像生成任务取得质的突破,越来越多的底层视觉任务受益于其强大的生成式先验——从图像超分辨率、去噪,到图像修复、扩散模型正以细节生成和语义理解的双重优势,重构底层视觉任…