技术文章
-
视频编码和解码的互操作性问题,以及解决措施
在专业视频传输领域,你可能会想当然地认为,只要发送符合标准的流媒体,任何专业解码器都应该能够可靠地播放。毕竟,标准就是标准……对吧? 遗憾的是,现实世界并非如此。 事实上,视频编码…
-
重塑流媒体成功的隐性测试挑战
当 Hulu 的平台在 2025 年奥斯卡颁奖典礼期间崩溃时,它引发了可预见的头条新闻,即在一场备受瞩目的活动中又出现了一次流媒体故障。然而,这些头条新闻忽略了流媒体所面临挑战的更…
-
安卓杜比视界格式支持开始超越苹果了?
最近入手了 小米 15 和 OPPO Finx X8 Ultra 两台高端机做测试,比现在用的 iPhone13 流畅太多了,而且在影像能力上也强不少。 现在不少安卓高端机都支持 …
-
探索 OBS Studio 音视频推流技术(5):渲染图形
这个系列文章我们来介绍一位海外工程师如何探索 OBS Studio 音视频推流技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 5 篇:渲染图形。 —— …
-
NVIDIA 发布 Llama Nemotron Nano 4B:针对边缘 AI 和科学任务优化的高效开放推理模型
NVIDIA 发布了 Llama Nemotron Nano 4B,这是一个开源推理模型,旨在在科学任务、编程、符号数学、函数调用和指令跟踪方面提供强大的性能和效率,同时足够紧凑,…
-
6G网络中的边缘AI:超低延迟AI计算的未来
AI 和无线通信网络的快速发展 正在推动下一代技术的发展。随着 5G 网络的不断扩展,研究人员和行业领袖已开始展望 6G,它有望带来前所未有的数据速度、超低延迟和智能连接。6G 网…
-
调调编码器的CRF,它背后的唯物辩证法
视频编解码领域的(根本)矛盾就是视频的画质和码率(成本)的矛盾,即所谓的RDO率失真优化,它这种特殊的矛盾也决定了视频编解码区别于其他科学研究领域的本质。
-
探索 OBS Studio 音视频推流技术(4):前端
这个系列文章我们来介绍一位海外工程师如何探索 OBS Studio 音视频推流技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 4 篇:前端。 —— 来自…
-
超越顿悟时刻:在大型语言模型中构建推理
大型推理模型 (LRM),例如 OpenAI 的 o1 和 o3、DeepSeek-R1、Grok 3.5 和 Gemini 2.5 Pro,在长期 CoT 推理中展现出强大的能力…
-
为什么Qt音视频开发让人闻风丧胆!
Qt音视频开发:让人又爱又恨的“技术大坑”。今天来聊聊Qt音视频开发,这可是让无数开发者又爱又恨的存在! 内容来自公众号——QT历险记原文:https://mp.weixin.qq…
-
探索 OBS Studio 音视频推流技术(3):插件
OBS Studio几乎所有自定义功能都通过插件模块添加,这些插件模块通常是动态链接库或脚本。例如,捕获和/或输出音频/视频、录音、输出到 RTMP 流、使用 x264 编码等功能都是通过插件模块实现的。
-
OpenSIPS 3.6 发布,专注运营改进、支持动态套接字、RTP集成处理等功能
2025年5月21日,OpenSIPS 3.6版本发布并受到特别关注,因为它将是一个长期支持版本,以及它将是结束3.x系列的版本。因此,与开启3.x系列的3.0版本形成闭环,3.6…
-
即构实时互动AI Agent 2.1版本发布,支持多用户同时与一个智能体语音互动等功能
近日,即构科技(ZEGO)实时互动 AI Agent 2.1 版本发布,新增多用户 vs 1 智能体、语音识别断句、打断智能体说话等 7 项新功能;同时进一步优化了语音交互体验。 …
-
探索 OBS Studio 音视频推流技术(2):后端设计
OBS Studio 的后端由 libobs 库提供支持。libobs 提供了主处理流程、音视频子系统以及所有插件的通用框架。
-
Google AI 发布 MedGemma:一套针对医学文本和图像理解进行训练的开放模型
在 2025 年 Google I/O 开发者大会上,谷歌推出了 MedGemma,这是一款专为多模态医学文本和图像理解而设计的开放模型套件。MedGemma 基于 Gemma 3…
-
延迟之战:WHIP 和 MoQ 会取代 RTMP 和 SRT 成为实时流媒体的主流吗?
多年来,RTMP 和 SRT 一直是直播领域的主力。但随着人们对更低延迟和更多互动体验的不懈追求,新的领军者正在崛起。WHIP(WebRTC-HTTP Ingestion Prot…
-
探索 OBS Studio 音视频推流技术(1):整体框架
这个系列文章我们来介绍一位海外工程师如何探索 OBS Studio 音视频推流技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 1 篇:整体框架。 —— …
-
Omni-R1:利用文本驱动的强化学习和自动生成的数据推进音频问答
近期进展表明,强化学习可以显著提升 LLM 的推理能力。基于此,本研究旨在改进音频 LLM ——一种处理音频和文本以执行问答等任务的模型。MMAU 基准是一个广泛使用的数据集,旨在…
-
探索 CameraX 音视频相机技术(11):Camera1 迁移到 CameraX
这个系列文章我们来介绍一位海外工程师如何探索 CameraX 音视频相机技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 11 篇:Camera1 迁移到…
-
AWS 开源 Strands Agents SDK,简化 AI 代理开发
亚马逊网络服务 (AWS) 已开源其Strands Agents SDK,旨在使 AI 代理的开发更易于访问,并使其在各个领域具有更强的适应性。通过采用模型驱动的方法,Strand…