技术文章
-
Chromium M150 中 WebRTC 的发布说明
Google WebRTC 群组发布了 WebRTC 更新日志 M150 (7827..7871)。 摘要 本次发布包含 31 位作者的 174 次提交,提交类别统计如下: 类别 …
-
抛开炒作:MoQ 在直播领域扮演什么角色
随着流媒体行业持续寻求更佳方案,以大规模传输低延迟的直播视频,Media over QUIC(MoQ)已成为今年NAB展会上最受热议的话题之一。这一话题之所以备受关注,很大程度上源…
-
在线视频聊天:实时沟通正在发生怎样的变化
在日益直接且个性化的数字世界中,在线视频聊天已成为人们沟通方式的一部分。与仅依赖短信、社交媒体帖子或延迟回复不同,如今许多用户更希望进行实时对话。看到对方的脸庞、听到对方的声音,并…
-
通过浏览器拨打电话时,实际会发生什么?
二十年前,拨打国际长途需要购买预付费卡并刮开密码。如今,同样的通话只需在浏览器标签页中发起即可。无需SIM卡,无需安装任何软件,也无需座机。这项技术背后的 WebRTC 技术已在各…
-
AVLAN 和 AVIoT 如何重塑协作网络
统一通信 (UC) 和专业视听 (AV) 系统历来是两个截然不同的领域,鲜有交集。然而,在过去十年中,这两者之间的界限正在逐渐模糊。UC 和 AV 正在快速融合,AV 系统也越来越…
-
2026年 OpenAI Realtime API 定价:来自 4,000 次实测会话的真实数据
本文详细解析了在开发语音AI导游系统时关于 OpenAI Realtime API 计费的测量结果,阐明成本的实际来源,并提供一个实用的框架,帮助您为语音 AI 项目定价,并向客户报价提供依据。
-
Zyphra发布Zamba2-VL:混合Mamba2-Transformer视觉语言模型
Zyphra 发布了 Zamba2-VL,这是一系列开放的视觉语言模型。该版本涵盖三种规模:12 亿、27 亿和 70 亿参数。每个模型都基于 Zamba2 混合 SSM-Tran…
-
SmoothConv & DuplexConv:面向对话式 AI的大规模中文全双工语音数据集开源!
在语音大模型与具身智能快速发展的今天,全双工人机交互正成为学术界与工业界关注的焦点。构建高拟人度、支持实时中断与流式响应的口语对话系统,关键在于是否拥有具备“真实交互动态”与“富含…
-
WebRTC 部署中的连接弹性与安全性:关于 TURN 的关键考量
WebRTC 演示和实际生产环境运行之间存在明显的差距,而这种差距通常存在于 TURN 层。你的演示在干净的网络环境下可能运行良好,但一旦真实用户身处 NAT、企业防火墙和移动网关…
-
【音视频】Android 端侧 ROI 编码全景指南
在移动端音视频(直播、RTC、短视频)开发中,ROI(Region of Interest,感兴趣区域)编码是兼顾“节省带宽成本”与“守住核心画质”的终极武器。由于 Android…
-
OpenSSL漏洞可导致远程代码执行攻击,影响QUIC服务
2026 年 6 月 9 日披露的关键 OpenSSL 缺陷,使大量应用程序在处理不受信任的加密内容时,面临远程代码执行、数据泄露和拒绝服务风险。 在许多环境中,OpenSSL 默…
-
游戏开黑交友中的深夜歌房娱乐互动功能实现
在游戏开黑交友场景中,深夜歌房是玩家在休息时段进行社交娱乐的重要功能。一个完善的深夜歌房系统不仅能满足玩家的娱乐需求,还能增强用户粘性和社交互动。 一、需求分析与场景概述 1.1 …
-
Google 发布 Gemini 3.5 Live Translate:一款支持 70 多种语言的流式语音翻译音频模型
谷歌刚发布了 Gemini 3.5 实时翻译。这是他们最新的实时语音翻译音频模型。语音翻译是指输入语音,然后输出翻译后的语音。该模型可以自动检测 70 多种语言并生成翻译后的语音。…
-
游戏开黑交友中的 AI 降噪与防炸麦处理方法
五个人开黑,场面通常是这样的:打野是机械键盘党,青轴敲得像放鞭炮;辅助开着外放,你能同时听到他那边的游戏 BGM;还有个上单,一波团战打赢了猛地一吼,你的耳膜先阵亡了。 很多人下意…
-
如何优化AI实时语音技术延迟问题?
要让 AI 实时语音真正跟得上,不能只盯某一个环节,而要沿着音频流经的完整路径,把每一段的耗时拆开来看、逐一去优化延迟。
-
游戏开黑交友中如何实现快速连麦配对功能
在游戏开黑交友场景中,玩家之间需要进行语音连麦沟通战术、分享游戏体验。一个完善的连麦配对系统是提升用户体验的关键。 一、需求分析与场景概述 1.1 核心场景 场景类型 描述 特点 …
-
Android 自定义实况图(Live Photo)拍摄方案
在 Android 端,为了实现与 iOS 相同的逻辑——“自主掌控 GPU 特效(如美颜 Shader、AI 挂件),且点击拍摄自动捕捉前后各 1.5 秒(共 3 秒)的视频”,…
-
NVIDIA 发布 Nemotron 3.5 ASR:一个拥有 6 亿参数、支持缓存的流式转录模型,可实时转录 40 种语言区域设置
NVIDIA 的 Nemotron Speech 团队发布了Nemotron 3.5 ASR。这是一个拥有 6 亿参数的流式自动语音识别 (ASR) 模型。单个检查点即可实时转录 …
-
实时音视频技术在”你画我猜”场景中的应用和实现
本文将从一个标准的线上你画我猜游戏需求出发,拆解如何用 RTC 引擎构建画板同步 + 多人语音 + 视频辅助的完整互动体验。
-
AdaCodec:一种适用于 AI 生成视频的编解码器
AI 推理的实际成本正为当前 AI 革命的迅猛势头注入一剂清醒剂,人们对优化机器学习成本的关注度也随之提升。除了将 AI 引入企业内部的潜力以及私有 AI 的普遍兴起之外,那些对 …