技术文章
-
MAUD 提供高效途径满足大众对直播内容的需求,而不会影响 QoE
对于英国的足球爱好者来说,亚马逊 Prime Video 在本赛季特定时段(尤其是圣诞节前后的窗口期)播放英超比赛的时间似乎突然终止,这或许是个遗憾。至于英国的在线网络运营商是否也…
-
B站:流媒体技术助力直播体验提升与玩法创新
本文介绍了B站流媒体技术在春晚直播中的一些应用,包括用户体验提升和玩法创新。详细介绍B站多媒体团队是如何实现这些功能,遇到了哪些问题,都是如何解决的。
-
探索 CameraX 音视频相机技术(2):配置选项
本文介绍如何配置 CameraX 的各个用例,从而控制用例操作的不同方面。例如,在图像捕获用例中,可以设置目标纵横比和闪光灯模式。并提供代码示例。
-
使用 WebRTC、React 和 NestJS 构建视频聊天应用程序
在当今万物互联的世界里,实时通信应用已成为个人和专业应用的必需品。尤其是视频聊天应用程序,其受欢迎程度呈指数级增长,而全球性事件导致远程互动的需求也加速了这一趋势。 在本综合指南中…
-
体育直播如何发展,为什么无缝传输比以往任何时候都更重要
短短几年间,我们观看体育直播的方式发生了翻天覆地的变化。过去,观众只需收看一家广播公司的节目,而现在则有多种平台可供选择,从传统的线性频道到 OTT 服务和虚拟的多频道视频节目分销…
-
探索 CameraX 音视频相机技术(1):CameraX 架构
本篇文章涵盖了 CameraX 的架构,包括其结构、如何使用 API、如何处理生命周期以及如何组合用例。
-
微软发布 Agentic AI 系统故障模式综合指南
随着 Agentic AI 系统的发展,确保其可靠性、安全性和保障性的复杂性也相应增加。认识到这一点后,微软 AI Red Team(AIRT)发布了一份详细的分类报告,阐述了代理…
-
字节跳动推出 QuaDMix:用于 LLM 预训练的数据质量和多样性的统一 AI 框架
大型语言模型 (LLM) 的预训练效率和泛化能力受到底层训练语料库质量和多样性的显著影响。传统的数据管理流程通常将质量和多样性视为独立的目标,先进行质量过滤,然后再进行领域平衡。这…
-
SIPSorcery 简介、整体架构、核心功能及应用场景
SIPSorcery是一个支持SIP和WebRTC的跨平台库,使用户能够进行音视频通信。该库的主体设计为平台无关,可在任何支持.NET Standard 2.0的平台上运行。它能处…
-
通过简单的 JPEG 压缩实现图像的自我验证
在过去几年中,有关篡改图像所带来风险的担忧经常出现在研究中,尤其是在基于人工智能的图像编辑框架不断涌现的情况下,这些框架能够修改现有图像,而不是直接创建图像。 针对此类内容提出的检…
-
人工智能如何改变配音、翻译和本地化的游戏规则
人工智能配音是 NAB 2025 展会上最具活力的创新领域之一,但人工智能也在开辟令人兴奋的新领域,尤其是在音频翻译领域。为了找到人工智能能带来真正投资回报的具体应用案例,SVG …
-
Zee5 如何使用内部开发的转码器对垂直视频进行转码
介绍视频流媒体平台 Zee5 内部构建的转码解决方案,以相同的速度生成质量更高(比现有解决方案生成的内容更好)且成本更低的替代方案。
-
探索 ExoPlayer 音视频播放技术(12):播放分析
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 12 篇:ExoPlayer…
-
Meta AI 发布 Web-SSL:一种可扩展且无需语言的视觉表征学习方法
近年来,诸如 CLIP 之类的对比语言-图像模型已成为学习视觉表征的默认选择,尤其是在视觉问答 (VQA) 和文档理解等多模态应用中。这些模型利用大规模图像-文本对,通过语言监督来…
-
什么是视频转码?为什么视频转码对视频流至关重要
一个普遍的事实是,几乎 80% 的互联网流量由视频组成,因此,视频内容提供商有责任以更高效、更环保的方式进行流式传输。提高流媒体效率的很大一部分努力归结为更好地压缩或转码视频,并在…
-
基于SSE的信息推送实践
作者:Tono,信也科技后端研发专家来源:拍码场链接:https://mp.weixin.qq.com/s/jy8Q8plgJQLiueHF2k5OVA 什么是 SSE SSE(S…
-
探索 ExoPlayer 音视频播放技术(11):网络栈
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 11 篇:ExoPlayer…
-
NVIDIA AI 发布 Describe Anything 3B:用于细粒度图像和视频字幕的多模态 LLM
视觉语言模型本地化字幕面临的挑战 描述图像或视频中的特定区域一直是视觉语言建模领域的一项挑战。虽然通用视觉语言模型 (VLM) 在生成全局描述方面表现良好,但它们往往无法生成详细的…
-
FFmpeg H.265解码WASM SIMD优化进展
WASM simd128是从常见CPU架构指令集里抽取出来的交集,相比ARM少了很多操作,相比x86不光操作少,寄存器还只有128bit,发挥空间小。WASM的simd指令还在扩充中,用更新的指令集也是后续的一个优化方向。
-
CVPRW 2025 | 高效图像超分辨率中的蒸馏监督下的卷积低秩适应
本项工作是上海交通大学图像所MediaLab和传音多媒体团队的合作成果,获得CVPR NTIRE 2025高效超分辨率挑战赛道的第一名。卷积神经网络(CNN)在高效图像超分辨率领域…