技术文章
-
探索 OBS Studio 音视频推流技术(4):前端
这个系列文章我们来介绍一位海外工程师如何探索 OBS Studio 音视频推流技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 4 篇:前端。 —— 来自…
-
超越顿悟时刻:在大型语言模型中构建推理
大型推理模型 (LRM),例如 OpenAI 的 o1 和 o3、DeepSeek-R1、Grok 3.5 和 Gemini 2.5 Pro,在长期 CoT 推理中展现出强大的能力…
-
为什么Qt音视频开发让人闻风丧胆!
Qt音视频开发:让人又爱又恨的“技术大坑”。今天来聊聊Qt音视频开发,这可是让无数开发者又爱又恨的存在! 内容来自公众号——QT历险记原文:https://mp.weixin.qq…
-
探索 OBS Studio 音视频推流技术(3):插件
OBS Studio几乎所有自定义功能都通过插件模块添加,这些插件模块通常是动态链接库或脚本。例如,捕获和/或输出音频/视频、录音、输出到 RTMP 流、使用 x264 编码等功能都是通过插件模块实现的。
-
OpenSIPS 3.6 发布,专注运营改进、支持动态套接字、RTP集成处理等功能
2025年5月21日,OpenSIPS 3.6版本发布并受到特别关注,因为它将是一个长期支持版本,以及它将是结束3.x系列的版本。因此,与开启3.x系列的3.0版本形成闭环,3.6…
-
即构实时互动AI Agent 2.1版本发布,支持多用户同时与一个智能体语音互动等功能
近日,即构科技(ZEGO)实时互动 AI Agent 2.1 版本发布,新增多用户 vs 1 智能体、语音识别断句、打断智能体说话等 7 项新功能;同时进一步优化了语音交互体验。 …
-
探索 OBS Studio 音视频推流技术(2):后端设计
OBS Studio 的后端由 libobs 库提供支持。libobs 提供了主处理流程、音视频子系统以及所有插件的通用框架。
-
Google AI 发布 MedGemma:一套针对医学文本和图像理解进行训练的开放模型
在 2025 年 Google I/O 开发者大会上,谷歌推出了 MedGemma,这是一款专为多模态医学文本和图像理解而设计的开放模型套件。MedGemma 基于 Gemma 3…
-
延迟之战:WHIP 和 MoQ 会取代 RTMP 和 SRT 成为实时流媒体的主流吗?
多年来,RTMP 和 SRT 一直是直播领域的主力。但随着人们对更低延迟和更多互动体验的不懈追求,新的领军者正在崛起。WHIP(WebRTC-HTTP Ingestion Prot…
-
探索 OBS Studio 音视频推流技术(1):整体框架
这个系列文章我们来介绍一位海外工程师如何探索 OBS Studio 音视频推流技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 1 篇:整体框架。 —— …
-
Omni-R1:利用文本驱动的强化学习和自动生成的数据推进音频问答
近期进展表明,强化学习可以显著提升 LLM 的推理能力。基于此,本研究旨在改进音频 LLM ——一种处理音频和文本以执行问答等任务的模型。MMAU 基准是一个广泛使用的数据集,旨在…
-
探索 CameraX 音视频相机技术(11):Camera1 迁移到 CameraX
这个系列文章我们来介绍一位海外工程师如何探索 CameraX 音视频相机技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 11 篇:Camera1 迁移到…
-
AWS 开源 Strands Agents SDK,简化 AI 代理开发
亚马逊网络服务 (AWS) 已开源其Strands Agents SDK,旨在使 AI 代理的开发更易于访问,并使其在各个领域具有更强的适应性。通过采用模型驱动的方法,Strand…
-
基于多模态大模型的细粒度视频质量评估方法 | CVPR 2025 Highlight
bilibili公司联合上海交通大学发布全球首个大规模细粒度视频质量评估数据库FineVD,并创新提出FineVQ模型,为UGC视频提供多维度细粒度质量评估。
-
超越广播:流媒体如何重塑体育直播体验
被动观看体育比赛的时代已经过去。如今的球迷需要的不仅仅是直播,他们还需要即时访问、个性化以及在每台设备上的互动控制。对于流媒体平台来说,目标不是模仿旧的广播模式,而是超越它,提供更…
-
探索 CameraX 音视频相机技术(10):转换输出
CameraX 用例的输出包括缓冲区和转换信息两部分。缓冲区是一个字节数组,而转换信息是指在将缓冲区显示给最终用户之前应如何进行裁剪和旋转。如何应用转换取决于缓冲区的格式。
-
Stability AI 推出 ARC 后期训练和 Stable Audio Open Small:无蒸馏实现跨设备文本转音频生成的突破
文本转音频生成已成为一种革命性的方法,可以直接从文本提示合成声音,在音乐制作、游戏和虚拟体验中都有实际应用。这些模型的底层通常采用基于高斯流的技术,例如扩散或整流流。这些方法模拟了…
-
探索 CameraX 音视频相机技术(9):用例旋转
这个系列文章我们来介绍一位海外工程师如何探索 CameraX 音视频相机技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 9 篇:CameraX 用例旋转…
-
乐鑫 ESP WebRTC 解决方案 v1.0 发布,专为轻量级嵌入式设备打造
ESP WebRTC 解决方案 v1.0 是乐鑫科技专为轻量级嵌入式设备设计的 WebRTC 实现的首个稳定版本。此版本提供了全面的协议栈,用于在ESP32 系列芯片上构建实时通信…
-
Rime 推出 Arcana 和 Rimecaster(开源):基于真实世界语音构建的实用语音 AI 工具
语音 AI 领域正朝着更具代表性和适应性系统的方向发展。虽然许多现有模型都是基于精心挑选的录音室录音进行训练的,但 Rime 却另辟蹊径:构建能够反映人类真实说话方式的基础语音模型…