技术文章
-
NVIDIA AI 推出通用视觉语言模型 Eagle 2.5,仅用 8B 参数就能在视频任务中与 GPT-4o 匹配
近年来,视觉语言模型 (VLM) 在连接图像、视频和文本模态方面取得了显著进展。然而,一个持续存在的限制依然存在:无法有效处理长上下文多模态数据,例如高分辨率图像或扩展视频序列。许…
-
探索 ExoPlayer 音视频播放技术(10):直播流
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 10 篇:ExoPlayer…
-
2D存量视频变3D金矿,来看京东3D空间视频生成技术探索与应用 | ICME 2025
近年来,随着社交媒体、流媒体平台以及XR设备的快速发展,沉浸式3D空间视频的需求迅猛增长,尤其是在短视频、直播和电影领域,正在重新定义观众的观看体验。2023年,苹果公司发布的空间…
-
RTMP 流媒体协议的完整历史
Real-Time Messaging Protocol(RTMP,实时消息传输协议)对实时流媒体技术产生了重大影响。虽然后面出现了许多新的协议,但 RTMP 为今天的流媒体技术奠…
-
探索 ExoPlayer 音视频播放技术(9):获取元数据
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 9 篇:ExoPlayer …
-
Meta AI 推出感知编码器:一款大规模视觉编码器,在图像和视频的多项视觉任务中表现出色
设计通用视觉编码器的挑战 随着人工智能系统日益多模态化,视觉感知模型的作用也愈发复杂。视觉编码器不仅需要识别物体和场景,还需要支持诸如字幕制作、问答、细粒度识别、文档解析以及跨图像…
-
2025 年的 7 大视频通信趋势
随着远程办公、在线学习和实时互动的不断发展,视频通信正变得更加沉浸式、智能化,并由人工智能驱动。在本文中,我们将探讨 2025 年的 7 大视频通信趋势,从生成式人工智能和空间音频…
-
如何为 Flutter(Android 和 iOS)本地编译 FFmpeg 二进制文件
FFmpeg Flutter Kit 软件包已停用,预编译的二进制文件也已移除。这意味着开发者现在需要在本地编译 FFmpeg 二进制文件才能在 Flutter 应用中使用它们。在…
-
Google Store 如何利用 glTF 3D 模型改变产品教育
本文研究探讨了 Google 如何利用 glTF 改进产品教育、降低成本、简化工作流程,同时提升 3D 内容创作的水平。
-
开源SIP-WebRTC终端/服务器端/维护端项目多维度对比分析
这是一个开源的时代,开源共享是一种理想国。事实上,因为开源软件种类太多,大部分用户出现了选择困难。选型失败,结果也必然失败,最终产品也必然失败。做正确的事情,用正确的方法做事情。为…
-
探索 ExoPlayer 音视频播放技术(8):插入广告
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 8 篇:ExoPlayer …
-
Meta AI 发布感知语言模型 (PLM): 用于解决视觉识别难题的开放式可复制视觉语言模型
尽管视觉语言建模取得了快速发展,但该领域的大部分进展都源于基于专有数据集训练的模型,这些模型通常依赖于闭源系统的提炼。这种依赖阻碍了科学的透明度和可重复性,尤其是在涉及细粒度图像和…
-
2025 年实施新编解码器需要考虑的关键因素
在流媒体行业向新编解码器过渡绝不是一件轻而易举的事情,必须仔细考虑带宽节省、编码效率和质量提升等问题,并在确保为使用各种传统设备的最广泛观众提供播放能力的挑战之间取得平衡。Radi…
-
探索 ExoPlayer 音视频播放技术(7):下载媒体
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 7 篇:ExoPlayer …
-
MV-HEVC 会为扩展现实和元宇宙加速发展吗?
娱乐的下一个前沿在于互动式沉浸式体验,传统的电视和设备屏幕将让位于环绕观众的丰富3D环境。虽然视频压缩技术可能不会成为头条新闻,但它是3D视频内容创作和交付的支柱,能够实现扩展现实…
-
探索 ExoPlayer 音视频播放技术(6):轨道选择
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 6 篇:ExoPlayer …
-
利用迭代细化,Loop-Residual 神经网络显示出与更大的 GPT-2 变体相当的结果
Transformer 架构彻底改变了自然语言处理,使 GPT 等模型能够高效地预测序列中的下一个 token。然而,这些模型存在一个根本性的局限性,即需要对所有之前的 token…
-
腾讯蝉联2025 MSU 4K 视频编码器大赛第一名,领跑 4K 编码赛道
编解码技术是音视频领域不可或缺的核心,它既是数据流通的“翻译官”,也是体验优化的“守门人”。 2025年4月14日,由莫斯科国立大学举办的 MSU 4K 视频编码器大赛结果揭晓。在…
-
Seedream 3.0 文生图模型技术报告发布
字节跳动 Seed 团队正式发布 Seedream 3.0 技术报告。Seedream 3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型,对比 Seedream 2.0,…
-
Deepgram 推出 Aura-2:专业且具备成本效益的企业级文本转语音模型
面向企业用例的语音 AI 平台 Deepgram 昨天发布了下一代文本到语音(TTS)模型Aura-2,该模型专为关键任务业务环境中的实时语音应用而设计。 Aura-2专为实现清晰…