技术文章 - 实时互动网第34页

实时音视频

探索 OBS Studio 音视频推流技术（6）：脚本编程

通过 OBS Studio 的工具菜单中的脚本选项访问脚本编程，这将弹出脚本对话框。脚本可以在程序运行时实时添加、移除和重新加载。

RTC观主

2025年5月27日

实时音视频

淘宝直播组件调度、复用和治理

本文主要介绍了淘宝直播组件进行的三大优化方向：组件调度、组件复用和组件治理。通过这些优化，旨在提升直播间性能与用户体验。最终，这些优化在技术指标（如 CPU 使用率、卡顿率）和业务…

大厂Animal

2025年5月26日

技术文章

视频编码和解码的互操作性问题，以及解决措施

在专业视频传输领域，你可能会想当然地认为，只要发送符合标准的流媒体，任何专业解码器都应该能够可靠地播放。毕竟，标准就是标准……对吧？遗憾的是，现实世界并非如此。事实上，视频编码…

编解码

2025年5月26日

技术文章

重塑流媒体成功的隐性测试挑战

当 Hulu 的平台在 2025 年奥斯卡颁奖典礼期间崩溃时，它引发了可预见的头条新闻，即在一场备受瞩目的活动中又出现了一次流媒体故障。然而，这些头条新闻忽略了流媒体所面临挑战的更…

假装是大佬

2025年5月26日

实时音视频

安卓杜比视界格式支持开始超越苹果了?

最近入手了小米 15 和 OPPO Finx X8 Ultra 两台高端机做测试，比现在用的 iPhone13 流畅太多了，而且在影像能力上也强不少。现在不少安卓高端机都支持 …

音视频开发进阶

2025年5月26日

实时音视频

探索 OBS Studio 音视频推流技术（5）：渲染图形

这个系列文章我们来介绍一位海外工程师如何探索 OBS Studio 音视频推流技术，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，这是第 5 篇：渲染图形。 —— …

RTC观主

2025年5月26日

技术文章

NVIDIA 发布 Llama Nemotron Nano 4B：针对边缘 AI 和科学任务优化的高效开放推理模型

NVIDIA 发布了 Llama Nemotron Nano 4B，这是一个开源推理模型，旨在在科学任务、编程、符号数学、函数调用和指令跟踪方面提供强大的性能和效率，同时足够紧凑，…

AIGC

2025年5月26日

技术文章

6G网络中的边缘AI：超低延迟AI计算的未来

AI 和无线通信网络的快速发展正在推动下一代技术的发展。随着 5G 网络的不断扩展，研究人员和行业领袖已开始展望 6G，它有望带来前所未有的数据速度、超低延迟和智能连接。6G 网…

RTE基础设施

2025年5月23日

实时音视频

调调编码器的CRF，它背后的唯物辩证法

视频编解码领域的(根本)矛盾就是视频的画质和码率(成本)的矛盾，即所谓的RDO率失真优化，它这种特殊的矛盾也决定了视频编解码区别于其他科学研究领域的本质。

编解码

2025年5月23日

实时音视频

探索 OBS Studio 音视频推流技术（4）：前端

这个系列文章我们来介绍一位海外工程师如何探索 OBS Studio 音视频推流技术，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，这是第 4 篇：前端。 —— 来自…

RTC观主

2025年5月23日

技术文章

超越顿悟时刻：在大型语言模型中构建推理

大型推理模型 (LRM)，例如 OpenAI 的 o1 和 o3、DeepSeek-R1、Grok 3.5 和 Gemini 2.5 Pro，在长期 CoT 推理中展现出强大的能力…

AIGC

2025年5月23日

实时音视频

为什么Qt音视频开发让人闻风丧胆！

Qt音视频开发：让人又爱又恨的“技术大坑”。今天来聊聊Qt音视频开发，这可是让无数开发者又爱又恨的存在！内容来自公众号——QT历险记原文：https://mp.weixin.qq…

RTC观主

2025年5月22日

实时音视频

探索 OBS Studio 音视频推流技术（3）：插件

OBS Studio几乎所有自定义功能都通过插件模块添加，这些插件模块通常是动态链接库或脚本。例如，捕获和/或输出音频/视频、录音、输出到 RTMP 流、使用 x264 编码等功能都是通过插件模块实现的。

RTC观主

2025年5月22日

技术文章

OpenSIPS 3.6 发布，专注运营改进、支持动态套接字、RTP集成处理等功能

2025年5月21日，OpenSIPS 3.6版本发布并受到特别关注，因为它将是一个长期支持版本，以及它将是结束3.x系列的版本。因此，与开启3.x系列的3.0版本形成闭环，3.6…

mazhu

2025年5月22日

实时音视频

即构实时互动AI Agent 2.1版本发布，支持多用户同时与一个智能体语音互动等功能

近日，即构科技(ZEGO)实时互动 AI Agent 2.1 版本发布，新增多用户 vs 1 智能体、语音识别断句、打断智能体说话等 7 项新功能；同时进一步优化了语音交互体验。 …

ZEGO即构科技

2025年5月21日

实时音视频

探索 OBS Studio 音视频推流技术（2）：后端设计

OBS Studio 的后端由 libobs 库提供支持。libobs 提供了主处理流程、音视频子系统以及所有插件的通用框架。

RTC观主

2025年5月21日

技术文章

Google AI 发布 MedGemma：一套针对医学文本和图像理解进行训练的开放模型

在 2025 年 Google I/O 开发者大会上，谷歌推出了 MedGemma，这是一款专为多模态医学文本和图像理解而设计的开放模型套件。MedGemma 基于 Gemma 3…

AIGC

2025年5月21日

技术文章

延迟之战：WHIP 和 MoQ 会取代 RTMP 和 SRT 成为实时流媒体的主流吗？

多年来，RTMP 和 SRT 一直是直播领域的主力。但随着人们对更低延迟和更多互动体验的不懈追求，新的领军者正在崛起。WHIP（WebRTC-HTTP Ingestion Prot…

mazhu

2025年5月20日

实时音视频

探索 OBS Studio 音视频推流技术（1）：整体框架

这个系列文章我们来介绍一位海外工程师如何探索 OBS Studio 音视频推流技术，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，这是第 1 篇：整体框架。 —— …

RTC观主

2025年5月20日

技术文章

Omni-R1：利用文本驱动的强化学习和自动生成的数据推进音频问答

近期进展表明，强化学习可以显著提升 LLM 的推理能力。基于此，本研究旨在改进音频 LLM ——一种处理音频和文本以执行问答等任务的模型。MMAU 基准是一个广泛使用的数据集，旨在…

AIGC

2025年5月20日