技术文章
-
Omni-R1:利用文本驱动的强化学习和自动生成的数据推进音频问答
近期进展表明,强化学习可以显著提升 LLM 的推理能力。基于此,本研究旨在改进音频 LLM ——一种处理音频和文本以执行问答等任务的模型。MMAU 基准是一个广泛使用的数据集,旨在…
-
探索 CameraX 音视频相机技术(11):Camera1 迁移到 CameraX
这个系列文章我们来介绍一位海外工程师如何探索 CameraX 音视频相机技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 11 篇:Camera1 迁移到…
-
AWS 开源 Strands Agents SDK,简化 AI 代理开发
亚马逊网络服务 (AWS) 已开源其Strands Agents SDK,旨在使 AI 代理的开发更易于访问,并使其在各个领域具有更强的适应性。通过采用模型驱动的方法,Strand…
-
基于多模态大模型的细粒度视频质量评估方法 | CVPR 2025 Highlight
bilibili公司联合上海交通大学发布全球首个大规模细粒度视频质量评估数据库FineVD,并创新提出FineVQ模型,为UGC视频提供多维度细粒度质量评估。
-
超越广播:流媒体如何重塑体育直播体验
被动观看体育比赛的时代已经过去。如今的球迷需要的不仅仅是直播,他们还需要即时访问、个性化以及在每台设备上的互动控制。对于流媒体平台来说,目标不是模仿旧的广播模式,而是超越它,提供更…
-
探索 CameraX 音视频相机技术(10):转换输出
CameraX 用例的输出包括缓冲区和转换信息两部分。缓冲区是一个字节数组,而转换信息是指在将缓冲区显示给最终用户之前应如何进行裁剪和旋转。如何应用转换取决于缓冲区的格式。
-
Stability AI 推出 ARC 后期训练和 Stable Audio Open Small:无蒸馏实现跨设备文本转音频生成的突破
文本转音频生成已成为一种革命性的方法,可以直接从文本提示合成声音,在音乐制作、游戏和虚拟体验中都有实际应用。这些模型的底层通常采用基于高斯流的技术,例如扩散或整流流。这些方法模拟了…
-
探索 CameraX 音视频相机技术(9):用例旋转
这个系列文章我们来介绍一位海外工程师如何探索 CameraX 音视频相机技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 9 篇:CameraX 用例旋转…
-
乐鑫 ESP WebRTC 解决方案 v1.0 发布,专为轻量级嵌入式设备打造
ESP WebRTC 解决方案 v1.0 是乐鑫科技专为轻量级嵌入式设备设计的 WebRTC 实现的首个稳定版本。此版本提供了全面的协议栈,用于在ESP32 系列芯片上构建实时通信…
-
Rime 推出 Arcana 和 Rimecaster(开源):基于真实世界语音构建的实用语音 AI 工具
语音 AI 领域正朝着更具代表性和适应性系统的方向发展。虽然许多现有模型都是基于精心挑选的录音室录音进行训练的,但 Rime 却另辟蹊径:构建能够反映人类真实说话方式的基础语音模型…
-
AVCHD 与 MP4 格式有什么区别?
在 AVCHD 和 MP4 视频格式之间犹豫不决?本文分析了这两种流行格式的主要区别,包括视频质量、文件大小、兼容性和编辑难易程度。了解哪种格式最适合您的需求! 什么是 AVCHD…
-
探索 CameraX 音视频相机技术(8):MLKit 分析器
这个系列文章我们来介绍一位海外工程师如何探索 CameraX 音视频相机技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 8 篇:CameraX MLKi…
-
OpenSIPS 3.6 引入 SIP 套接字管理,实现SBC和SIP中继连接性动态支持
对于像 OpenSIPS 这样的高性能 SIP 平台来说,灵活性和正常运行时间至关重要,尤其是在涉及会话边界控制器 (SBC) 和中继服务的场景中。传统上,OpenSIPS 仅支持…
-
B站:直播生态治理体系建设
1. 背景 随着直播行业蓬勃发展,行业规模持续扩大,平台正在积极构建更加规范、健康的直播环境。在这一进程中,通过完善内容审核机制、提升主播职业素养、完善直播规范等举措,不断净化网络…
-
探索 CameraX 音视频相机技术(7):扩展 API
CameraX 提供了一个扩展 API,用于访问设备制造商在各种 Android 设备上实现的扩展功能。CameraX 扩展 API 管理查询可用扩展、配置扩展相机会话以及与 Camera Extensions OEM 库通信。
-
PrimeIntellect 发布 INTELLECT-2:通过分布式异步强化学习训练的 32B 推理模型
随着语言模型在参数数量和推理复杂度方面的不断增长,传统的集中式训练流程面临着越来越多的限制。高性能模型训练通常依赖于紧密耦合且具有快速互连的计算集群,这些集群成本高昂、可用性有限,…
-
AG-UI:一个开放、轻量级、基于事件的协议,规范了 AI 代理与前端应用程序的连接方式
新一代 AI agent(AI 代理)在汇总、数据迁移和调度等后端任务自动化方面取得了重大进展。虽然效果显著,但这些代理通常是在幕后运行——由预定义的工作流触发并返回结果,无需用户…
-
离线视频-LLM 现可理解实时视频流:苹果研究人员推出 StreamBridge,实现多轮主动视频理解
Video-LLM 可以一次性处理整个预先录制的视频。然而,像机器人技术和自动驾驶这样的应用需要对在线视觉信息进行因果感知和解读。这种根本性的不匹配表明了当前 Video-LLM …
-
NVIDIA AI 推出 Audio-SDS:基于扩散的统一框架,无需专门数据集即可实现提示引导音频合成和源分离
音频扩散模型已经实现了高质量的语音、音乐和拟音合成,但它们主要擅长样本生成而非参数优化。诸如基于物理信息的撞击声生成或提示驱动的声源分离等任务,需要能够在结构约束下调整明确、可解释…
-
边缘连接架构:设计覆盖全球企业网络的分布式低延迟路由层
随着企业将其数字化运营扩展到全球基础设施,对低延迟、分布式连接的需求也空前高涨。随着云计算、物联网和人工智能驱动型应用的兴起,企业需要无缝、可靠且可扩展的网络架构来确保高效的数据流…