技术文章
-
探索 ExoPlayer 音视频播放技术(12):播放分析
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 12 篇:ExoPlayer…
-
Meta AI 发布 Web-SSL:一种可扩展且无需语言的视觉表征学习方法
近年来,诸如 CLIP 之类的对比语言-图像模型已成为学习视觉表征的默认选择,尤其是在视觉问答 (VQA) 和文档理解等多模态应用中。这些模型利用大规模图像-文本对,通过语言监督来…
-
什么是视频转码?为什么视频转码对视频流至关重要
一个普遍的事实是,几乎 80% 的互联网流量由视频组成,因此,视频内容提供商有责任以更高效、更环保的方式进行流式传输。提高流媒体效率的很大一部分努力归结为更好地压缩或转码视频,并在…
-
基于SSE的信息推送实践
作者:Tono,信也科技后端研发专家来源:拍码场链接:https://mp.weixin.qq.com/s/jy8Q8plgJQLiueHF2k5OVA 什么是 SSE SSE(S…
-
探索 ExoPlayer 音视频播放技术(11):网络栈
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 11 篇:ExoPlayer…
-
NVIDIA AI 发布 Describe Anything 3B:用于细粒度图像和视频字幕的多模态 LLM
视觉语言模型本地化字幕面临的挑战 描述图像或视频中的特定区域一直是视觉语言建模领域的一项挑战。虽然通用视觉语言模型 (VLM) 在生成全局描述方面表现良好,但它们往往无法生成详细的…
-
FFmpeg H.265解码WASM SIMD优化进展
WASM simd128是从常见CPU架构指令集里抽取出来的交集,相比ARM少了很多操作,相比x86不光操作少,寄存器还只有128bit,发挥空间小。WASM的simd指令还在扩充中,用更新的指令集也是后续的一个优化方向。
-
CVPRW 2025 | 高效图像超分辨率中的蒸馏监督下的卷积低秩适应
本项工作是上海交通大学图像所MediaLab和传音多媒体团队的合作成果,获得CVPR NTIRE 2025高效超分辨率挑战赛道的第一名。卷积神经网络(CNN)在高效图像超分辨率领域…
-
NVIDIA AI 推出通用视觉语言模型 Eagle 2.5,仅用 8B 参数就能在视频任务中与 GPT-4o 匹配
近年来,视觉语言模型 (VLM) 在连接图像、视频和文本模态方面取得了显著进展。然而,一个持续存在的限制依然存在:无法有效处理长上下文多模态数据,例如高分辨率图像或扩展视频序列。许…
-
探索 ExoPlayer 音视频播放技术(10):直播流
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 10 篇:ExoPlayer…
-
2D存量视频变3D金矿,来看京东3D空间视频生成技术探索与应用 | ICME 2025
近年来,随着社交媒体、流媒体平台以及XR设备的快速发展,沉浸式3D空间视频的需求迅猛增长,尤其是在短视频、直播和电影领域,正在重新定义观众的观看体验。2023年,苹果公司发布的空间…
-
RTMP 流媒体协议的完整历史
Real-Time Messaging Protocol(RTMP,实时消息传输协议)对实时流媒体技术产生了重大影响。虽然后面出现了许多新的协议,但 RTMP 为今天的流媒体技术奠…
-
探索 ExoPlayer 音视频播放技术(9):获取元数据
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 9 篇:ExoPlayer …
-
Meta AI 推出感知编码器:一款大规模视觉编码器,在图像和视频的多项视觉任务中表现出色
设计通用视觉编码器的挑战 随着人工智能系统日益多模态化,视觉感知模型的作用也愈发复杂。视觉编码器不仅需要识别物体和场景,还需要支持诸如字幕制作、问答、细粒度识别、文档解析以及跨图像…
-
2025 年的 7 大视频通信趋势
随着远程办公、在线学习和实时互动的不断发展,视频通信正变得更加沉浸式、智能化,并由人工智能驱动。在本文中,我们将探讨 2025 年的 7 大视频通信趋势,从生成式人工智能和空间音频…
-
如何为 Flutter(Android 和 iOS)本地编译 FFmpeg 二进制文件
FFmpeg Flutter Kit 软件包已停用,预编译的二进制文件也已移除。这意味着开发者现在需要在本地编译 FFmpeg 二进制文件才能在 Flutter 应用中使用它们。在…
-
Google Store 如何利用 glTF 3D 模型改变产品教育
本文研究探讨了 Google 如何利用 glTF 改进产品教育、降低成本、简化工作流程,同时提升 3D 内容创作的水平。
-
开源SIP-WebRTC终端/服务器端/维护端项目多维度对比分析
这是一个开源的时代,开源共享是一种理想国。事实上,因为开源软件种类太多,大部分用户出现了选择困难。选型失败,结果也必然失败,最终产品也必然失败。做正确的事情,用正确的方法做事情。为…
-
探索 ExoPlayer 音视频播放技术(8):插入广告
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 8 篇:ExoPlayer …
-
Meta AI 发布感知语言模型 (PLM): 用于解决视觉识别难题的开放式可复制视觉语言模型
尽管视觉语言建模取得了快速发展,但该领域的大部分进展都源于基于专有数据集训练的模型,这些模型通常依赖于闭源系统的提炼。这种依赖阻碍了科学的透明度和可重复性,尤其是在涉及细粒度图像和…