技术文章
-
实时音视频如何助力企业数字化转型
在数字化转型浪潮席卷全球的当下,企业的业务模式正在经历深刻变革。远程办公、在线教育、虚拟医疗等场景的爆发式增长,让实时音视频技术从幕后走向台前,成为企业突破时空限制、提升运营效率的…
-
视频解码器市场技术增长 38.7 亿美元
在高质量视频流、监控系统和广播技术需求不断增长的推动下,全球视频解码器市场正呈现稳步增长态势。 视频解码器在将压缩数字视频信号转换成适合显示或进一步处理的格式方面发挥着至关重要的作…
-
使用 Rust 和 WebSockets 构建 WebRTC 视频聊天应用程序
在本文中,我们将从零开始,使用 Rust 和 WebSockets 创建一个 WebRTC 视频聊天应用程序。在此过程中,我们将解释重要的 WebRTC 概念,并将 Rust 服务…
-
视频流媒体中的分析与监控:核心指标、工具和最佳实践
作为一名从事视频流媒体平台开发的软件工程师,理解和实施强大的分析与监控系统对于确保高质量的用户体验和优化平台性能至关重要。本文深入探讨了视频流媒体中的分析与监控的关键方面,重点关注…
-
Meta AI 的 MILS:改变零样本多模态 AI 的游戏规则
多年来,人工智能 (AI)取得了令人瞩目的发展,但它始终存在一个根本性的限制,即无法像人类一样处理不同类型的数据。大多数 AI 模型都是单峰的,这意味着它们只专注于一种格式,如文本…
-
淘宝直播AI提效探索的一些心得
本文围绕淘宝直播团队在过去半年中基于AI技术在工程侧提效的探索展开,详细介绍了服务端、前端、数据科学、测试和数据研发等职能团队如何结合AI能力进行创新尝试。文章不仅总结了现阶段取得…
-
SIP协议的30个核心概念,相关典型用户场景
以下是基于SIP协议(Session Initiation Protocol,会话初始化协议)相关的30个核心概念,笔者用非常通俗的语言重新解释这些概念。针对每个概念都附带一个简化…
-
FreeSWITCH与Hugging Face 开源Speech-to-Speech系统的深度集成指南
FreeSWITCH是开源的媒体服务器,广泛应用于呼叫中心,企业融合通信,IPPBX部署等环境。大炼钢铁的时代刚刚过去,大炼AI的时代来临,智能语音AI大模型眼花缭乱。Speech…
-
一个只有 Google Meet 才知道的隐秘 WebRTC 优化
在 WebRTC 应用(至少是 Web 应用)中,Google Meet 始终保持着卓越的质量。与典型的开源解决方案相比尤其如此,甚至对于大多数商业解决方案相比也是如此。 原因在于…
-
Google AI 发布 Gemma 3:实现高效设备端 AI 的轻量级多模态开放模型
人工智能领域,仍然存在两个持续的挑战。许多高级语言模型需要大量的计算资源,这限制了小型组织和个人开发者对它们的使用。此外,即使这些模型可用,它们的延迟和大小也常常使它们不适合部署在…
-
视频点播(VOD)工作流程:探索视频流媒体技术(10)
视频点播(VOD)流媒体允许用户随时访问预先录制的视频内容,提供了一种灵活且便捷的媒体消费方式。Netflix、Prime Video、YouTube 等平台是 VOD 的最佳示例…
-
JPEG XS 在实时 IP 传输中的作用
在对更大灵活性、可扩展性和效率的需求的推动下,广播行业向 IP 的迁移正在顺利进行。与以点对点、单向结构传输信号的 SDI 不同,基于 IP 的系统允许将信号从任何源路由到任何目的…
-
Salesforce AI 发布 Text2Data:一种用于低资源数据生成的训练框架
生成式人工智能在平衡自主性和可控性方面面临着重大挑战。虽然自主性通过强大的生成模型取得了显著进步,但可控性已成为机器学习研究人员关注的焦点。基于文本的控制变得尤为重要,因为自然语言…
-
语音有效检测模块(VAD)
来源:音视频小话链接:https://mp.weixin.qq.com/s/43KlmfNxXYpryG1Ssjq-1w 上一篇博文总体描述如何构造一个webrtc视频会议实时语音…
-
了解 RTP(实时传输协议)及其在流媒体中的作用
实时传输协议(RTP)是通过 IP 网络传输音频和视频的基本协议。它支持实时通信,因此对 VoIP、视频会议和直播等应用至关重要。本文将探讨 RTP 端口、默认端口范围、端到端流媒…
-
内容分发网络(CDN)在视频流媒体中的应用 :探索视频流媒体技术(8)
内容分发网络(CDN)是现代互联网的重要组成部分,能够高效地向全球用户传递高质量的视频内容。在本文中,我们将探讨 CDN 是什么、它们的重要性、工作原理、主要的 CDN 提供商,以…
-
AutoAgent:一个全自动、高度自主开发的框架,仅通过自然语言就能创建和部署 LLM 代理
从业务流程到科学研究,AI 代理可以处理海量数据集、简化流程并帮助决策。然而,即使有了这些发展,构建和定制 LLM 代理对大多数用户来说仍然是一项艰巨的任务。主要原因是 AI 代理…
-
自适应码率流式传输(ABS):探索视频流媒体技术(7)
自适应码率流式传输(ABS)是在线视频传输领域的一项关键技术,通过动态调整视频质量以适应观众的网络条件,确保流畅的播放体验。在本文中,我们将深入探讨 ABS 的工作原理、其优势与挑…
-
阿里发布 Babel:开放多语言大型语言模型 LLM 服务全球 90% 以上使用者
阿里巴巴集团达摩院的研究人员推出了Babel,这是一款多语言 LLM ,旨在通过覆盖使用最广泛的 25 种语言来支持全球 90% 以上的使用者。
-
空间音频技术:理想与现实的博弈
在2025年的今天,”空间音频”(Spatial Audio)、”杜比全景声”(Dolby Atmos)等术语已经成为消费电子展会的…