技术文章 - 实时互动网第21页

实时音视频

视频聊天如何改变现代通信

过去十年间，人们的互动方式经历了巨大的变化。电话曾占据主导地位，电子邮件似乎不可撼动。然而，视频聊天悄然崛起。它悄然渗透进职场、家庭聚餐、在线课堂，甚至医疗咨询。这不仅是又一种工具…

ZEGO即构科技

2025年9月18日

WebRTC

为何需要在设备端收集 WebRTC 统计数据？

了解服务器端监控为何无法满足 WebRTC 需求，以及设备端统计数据收集如何彻底改变用户体验。

webrtc学习和实践

2025年9月18日

实时音视频

探索 Vulkan 音视频技术（3）：设备管理

在 Vulkan 中，设备管理是一个基础概念，它架起了应用程序与物理 GPU 之间的桥梁。SaschaWillems/Vulkan 仓库通过其 VulkanDevice 类提供了一种健壮且结构良好的方法来处理物理和逻辑设备。

RTC观主

2025年9月18日

技术文章

IBM AI 发布 Granite-Docling-258M：一个开源、企业级文档 AI 模型

IBM 发布了Granite-Docling-258M，这是一个专为端到端文档转换而设计的开源 (Apache-2.0) 视觉语言模型。该模型旨在忠实布局地提取表格、代码、公式、列…

AIGC

2025年9月18日

WebRTC

WebRTC 如何改变网络游戏的互动方式

过去几年，网络游戏行业已将 WebRTC 技术视为创新的基石。WebRTC 通过 Web 浏览器和移动应用程序实现实时音频、视频和数据交换，提供了完美的解决方案。本文将深入探讨We…

webrtc学习和实践

2025年9月17日

实时音视频

探索 Vulkan 音视频技术（2）：基础库组件

SaschaWillems/Vulkan 仓库提供了一套全面的基础库组件，作为所有 Vulkan 示例的基石。在本文中，我们将探讨该基础库的关键组件，并了解它们如何协同工作以简化 Vulkan 编程。

RTC观主

2025年9月17日

技术文章

Google AI 发布 TimesFM-2.5：更小、更长上下文的基础模型，现已引领 GIFT-Eval

谷歌研究院发布了TimesFM-2.5，这是一个拥有 2 亿个参数、仅解码器的时间序列基础模型，上下文长度为 16K，并原生支持概率预测。新的检查点已在 Hugging Face …

AIGC

2025年9月17日

技术文章

阿里推出 FunAudio-ASR：解决语音大模型企业落地的“最后一公里”

语音大模型识别不准？“幻觉”“串语种”频发？定制词总被忽略？当前语音大模型的主流架构，是在大语言模型（LLM）前接入声学编码器，将音频特征映射到文本空间，再由LLM生成转写结果。…

大厂Animal

2025年9月16日

实时音视频

探索 Vulkan 音视频技术（1）：Vulkan 架构概述

SaschaWillems/Vulkan 仓库是一套全面的开源 C++ 示例合集，展示了 Vulkan 图形与计算 API 的功能。该框架围绕模块化设计构建，既抽象了常见的 Vulkan 操作，又保留了 Vulkan 提供的底层控制。

RTC观主

2025年9月16日

实时音视频

uniapp实现音视频通话教程(适用多端音视频项目开发)

“一套代码，多端运行” 是很多开发团队的梦想。ZEGO SDK 基于 uni-app 跨平台框架支持 iOS、Android、Windows、macOS、HarmonyOS、Web…

ZEGO即构科技

2025年9月15日

实时音视频

探索 GPUImage 音视频技术（17）：高级视频技术

GPUImage 远不止简单地给视频加滤镜。本指南将深入探讨如何利用 GPUImage 以高性能、高质量的方式对视频进行复杂操作、合成与处理。

RTC观主

2025年9月15日

技术文章

AU-Harness：用于音频 LLM 整体评估的开源工具包

语音AI正在成为多模态AI领域最重要的前沿领域之一。从智能助手到交互式代理，理解和推理音频的能力正在重塑机器与人类互动的方式。然而，尽管模型的能力迅速提升，但评估模型的工具却未能跟…

AIGC

2025年9月15日

技术文章

IBC2025：多功能视频编码增强边缘移动视频体验

即使在“旅途中”，消费者对视频内容的需求也达到了前所未有的高度。根据爱立信最新的移动报告，近74%的移动数据流量属于视频流量。这一趋势为移动领域带来了新的需求，尤其是在体验质量 …

编解码

2025年9月15日

实时音视频

在 React 中基于 ZEGO Web SDK 实现音视频通话

本文将介绍如何基于 ZEGO Web SDK 快速使用 React 实现一个简单的实时音视频通话。

ZEGO即构科技

2025年9月12日

实时音视频

探索 GPUImage 音视频技术（16）：处理原始数据

GPUImage 提供了直接操作原始像素数据（raw pixel data）的强大能力。无论是集成计算机视觉算法、处理自定义传感器数据，还是实现专用图像管线，掌握 GPUImage 的原始数据接口都能为应用打开更广阔的可能性。

RTC观主

2025年9月12日

技术文章

TwinMind 推出 Ear-3 语音识别模型，现有 ASR 解决方案竞争的有力产品

总部位于加州的语音 AI 初创公司 TwinMind 发布了 Ear-3 语音识别模型，声称其在多项关键指标上均达到了业界领先水平，并扩展了多语言支持。此次发布使 Ear-3 成为…

AIGC

2025年9月12日

实时音视频

火山引擎多媒体实验室重要突破！LiveGS 技术登榜 SIGGRAPH，重新定义移动端自由视角视频直播

近日，火山引擎多媒体实验室的最新研究成果 LiveGS: Live Free-Viewpoint Video via High-Performance Gaussian Splat…

大厂Animal

2025年9月11日

实时音视频

Vue实现视频通话的两种方式

Vue.js 是一个流行的前端框架，被广泛应用于 Web 应用程序的开发中。除了常规的界面开发，Vue.js还可以与音视频处理相结合，实现流媒体和音视频编解码的功能。下面来看看 V…

RTC观主

2025年9月11日

技术文章

Qwen3-ASR：阿里基于 Qwen3-Omni 构建的全新语音识别模型，实现更强大的语音识别性能

阿里云 Qwen 团队推出了Qwen3-ASR Flash，这是一种一体化自动语音识别 (ASR) 模型（可作为API 服务提供），建立在 Qwen3-Omni 的强大智能之上，可…

AIGC

2025年9月11日

实时音视频

smart_rtpmd：一款用于直播，录播性能卓越的流媒体服务器

smart_rtpmd 是一款用于直播，录播性能卓越的服务器。如果您不理解，可以理解为和 nginx-rtmp, srs ，并与此功能类似，特点是性能卓越，跨平台，无依赖，部署和维…

RTC观主

2025年9月11日