技术文章
-
2025 年实施新编解码器需要考虑的关键因素
在流媒体行业向新编解码器过渡绝不是一件轻而易举的事情,必须仔细考虑带宽节省、编码效率和质量提升等问题,并在确保为使用各种传统设备的最广泛观众提供播放能力的挑战之间取得平衡。Radi…
-
探索 ExoPlayer 音视频播放技术(7):下载媒体
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 7 篇:ExoPlayer …
-
MV-HEVC 会为扩展现实和元宇宙加速发展吗?
娱乐的下一个前沿在于互动式沉浸式体验,传统的电视和设备屏幕将让位于环绕观众的丰富3D环境。虽然视频压缩技术可能不会成为头条新闻,但它是3D视频内容创作和交付的支柱,能够实现扩展现实…
-
探索 ExoPlayer 音视频播放技术(6):轨道选择
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 6 篇:ExoPlayer …
-
利用迭代细化,Loop-Residual 神经网络显示出与更大的 GPT-2 变体相当的结果
Transformer 架构彻底改变了自然语言处理,使 GPT 等模型能够高效地预测序列中的下一个 token。然而,这些模型存在一个根本性的局限性,即需要对所有之前的 token…
-
腾讯蝉联2025 MSU 4K 视频编码器大赛第一名,领跑 4K 编码赛道
编解码技术是音视频领域不可或缺的核心,它既是数据流通的“翻译官”,也是体验优化的“守门人”。 2025年4月14日,由莫斯科国立大学举办的 MSU 4K 视频编码器大赛结果揭晓。在…
-
Seedream 3.0 文生图模型技术报告发布
字节跳动 Seed 团队正式发布 Seedream 3.0 技术报告。Seedream 3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型,对比 Seedream 2.0,…
-
Deepgram 推出 Aura-2:专业且具备成本效益的企业级文本转语音模型
面向企业用例的语音 AI 平台 Deepgram 昨天发布了下一代文本到语音(TTS)模型Aura-2,该模型专为关键任务业务环境中的实时语音应用而设计。 Aura-2专为实现清晰…
-
探索 ExoPlayer 音视频播放技术(5):媒体源
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 5 篇:ExoPlayer …
-
探索 ExoPlayer 音视频播放技术(4):媒体项
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 4 篇:ExoPlayer …
-
ServiceNow AI 发布 Aprilel-5B,以更少的资源超越更大的 LLM
随着语言模型的规模和复杂性不断增长,训练和部署它们所需的资源需求也随之增长。虽然大规模模型可以在各种基准测试中取得卓越的性能,但由于基础设施的限制和高昂的运营成本,许多组织往往无法…
-
探索 ExoPlayer 音视频播放技术(3):播放列表
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 3 篇:ExoPlayer …
-
NVIDIA AI 发布 UltraLong-8B:超长上下文语言模型,旨在处理大量文本序列
大型语言模型 LLM 在各种文本和多模态任务中展现出卓越的性能。然而,许多应用,例如文档和视频理解、上下文学习以及推理时间扩展,都需要能够处理和推理长序列的标记。LLM 有限的上下…
-
JPEG AI 模糊了真实与合成之间的界限
今年 2 月,JPEG AI 国际标准发布,经过数年的研究,该标准旨在利用机器学习技术,在不降低感知质量的前提下,生成更小、更易于传输和存储的图像编解码器。 这一事件很少成为头条新…
-
探索 ExoPlayer 音视频播放技术(2):播放器事件监听
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 2 篇:ExoPlayer …
-
Boson AI 推出 Higgs 音频理解和 Higgs 音频生成:具有实时音频推理和富有表现力的语音合成功能
在当今的企业环境中,尤其是在保险和客户支持领域,语音和音频数据不仅仅是简单的录音;它们是宝贵的触点,能够改变运营和客户体验。借助 AI 音频处理,企业可以以惊人的准确度自动转录,从…
-
优化实时语音 AI 提示
分享 WebRTC.ventures 团队在开发语音 AI 应用上结合基础知识和实际指导的简明见解。 解决延迟问题 优先考虑简短回复而不是简短提示,以加快对话速度 在实时 WebR…
-
探索 ExoPlayer 音视频播放技术(1):入门指南
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 1 篇:ExoPlayer …
-
谷歌推出 Agent2Agent (A2A):一种新的开放协议,允许 AI 代理跨生态系统安全协作,不受框架或供应商的限制
Google AI 近期宣布推出Agent2Agent (A2A),这是一种开放协议,旨在促进基于不同平台和框架构建的 AI 代理之间安全、可互操作的通信。A2A 旨在通过提供标准…
-
AVI 与 MOV 哪种视频格式更好?
了解 AVI 和 MOV 视频格式的优缺点,找到最符合您需求的选择。探索哪种格式最适合高质量内容、兼容性和文件大小。