技术文章
-
JPEG AI 模糊了真实与合成之间的界限
今年 2 月,JPEG AI 国际标准发布,经过数年的研究,该标准旨在利用机器学习技术,在不降低感知质量的前提下,生成更小、更易于传输和存储的图像编解码器。 这一事件很少成为头条新…
-
探索 ExoPlayer 音视频播放技术(2):播放器事件监听
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 2 篇:ExoPlayer …
-
Boson AI 推出 Higgs 音频理解和 Higgs 音频生成:具有实时音频推理和富有表现力的语音合成功能
在当今的企业环境中,尤其是在保险和客户支持领域,语音和音频数据不仅仅是简单的录音;它们是宝贵的触点,能够改变运营和客户体验。借助 AI 音频处理,企业可以以惊人的准确度自动转录,从…
-
优化实时语音 AI 提示
分享 WebRTC.ventures 团队在开发语音 AI 应用上结合基础知识和实际指导的简明见解。 解决延迟问题 优先考虑简短回复而不是简短提示,以加快对话速度 在实时 WebR…
-
探索 ExoPlayer 音视频播放技术(1):入门指南
这个系列文章我们来介绍一位海外工程师如何探索 ExoPlayer 音视频播放技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 1 篇:ExoPlayer …
-
谷歌推出 Agent2Agent (A2A):一种新的开放协议,允许 AI 代理跨生态系统安全协作,不受框架或供应商的限制
Google AI 近期宣布推出Agent2Agent (A2A),这是一种开放协议,旨在促进基于不同平台和框架构建的 AI 代理之间安全、可互操作的通信。A2A 旨在通过提供标准…
-
AVI 与 MOV 哪种视频格式更好?
了解 AVI 和 MOV 视频格式的优缺点,找到最符合您需求的选择。探索哪种格式最适合高质量内容、兼容性和文件大小。
-
FFmpeg 播放器入门教程(7):Seeking
本教程分为 7 篇,将逐步讲解如何基于 FFmpeg 的 API 用 1000 行左右的代码开发一个简易播放器,非常适合初学者学习音视频开发。本文为第 7 篇:《FFmpeg 播放…
-
Android 16 将使媒体播放更加流畅
摘要:Android 16 通过减少解码视频或音频所需的进程数量,提高了媒体播放的效率。这是通过使用 Rust(一种更高效、更安全的语言)编写的媒体编解码器实现的。 即将推出的 A…
-
在浏览器中释放 FFmpeg 的威力:WebAssembly 视频处理指南
在 Web 开发领域,媒体处理一直是服务器端的任务。然而,随着 WebAssembly (WASM) 和 FFmpeg WASM 等库的出现,我们现在可以直接在浏览器中执行复杂的视…
-
FFmpeg 播放器入门教程(6):音频同步
本教程分为 7 篇,将逐步讲解如何基于 FFmpeg 的 API 用 1000 行左右的代码开发一个简易播放器,非常适合初学者学习音视频开发。本文为第 6 篇:《FFmpeg 播放…
-
开源PJSIP环境下回声抑制处理机制和优化讨论
回声消除或者回声抑制是语音呼叫中经常遇到的问题。这种问题取决于SIP终端的回声处理能力。很多SIP终端使用硬件处理,一些软电话只能使用软件算法来处理。处理的结果也有很大差别。本文章…
-
如何使用 JavaScript 创建 WebRTC UDP 连接
本文将介绍如何使用 JavaScript 创建 WebRTC UDP 连接的步骤。 第 1 步:要求 我们将使用 Node.js 服务器和普通浏览器 JavaScript 客户端。…
-
三款主流开源SIP软电话:MicroSIP、Linphone 和 JsSIP的全面技术场景使用分享
本文根据主流的三款开源SIP软电话:MicroSIP、Linphone 和 JsSIP 的特色、实现机制、适用场景、潜在技术问题及排查方法来帮助大家解读这些开源项目。
-
FFmpeg 播放器入门教程(5):视频同步
本教程分为 7 篇,将逐步讲解如何基于 FFmpeg 的 API 用 1000 行左右的代码开发一个简易播放器,非常适合初学者学习音视频开发。本文为第 5 篇:《FFmpeg 播放…
-
PJSIP 技术架构与核心注册模块工作机制分析
PJSIP 是一个功能强大、轻量级的开源SIP协议栈,广泛应用于VoIP、实时通信和嵌入式系统。它采用模块化设计,支持跨平台(Windows、Linux、macOS、iOS、And…
-
测量 OpenAI 基于 WebRTC 的实时 API 的响应延迟
从 Chrome 浏览器中提取的原始 RTP 数据包来测量总延迟,本文分析了这种方法在 OpenAI 的 WebRTC 实时 API 中的应用,并分析了结果。
-
减少大型视觉语言模型中的幻觉:潜在空间引导方法
幻觉仍然是部署大型视觉语言模型 (LVLM) 的一大挑战,因为这些模型通常会生成与视觉输入不一致的文本。与 LLM 中因语言不一致而产生的幻觉不同,LVLM 难以应对跨模态差异,导…
-
FFmpeg 播放器入门教程(4):线程分治
本教程分为 7 篇,将逐步讲解如何基于 FFmpeg 的 API 用 1000 行左右的代码开发一个简易播放器,非常适合初学者学习音视频开发。本文为第 4 篇:《FFmpeg 播放…
-
FFmpeg 播放器入门教程(3):播放音频
本教程分为 7 篇,将逐步讲解如何基于 FFmpeg 的 API 用 1000 行左右的代码开发一个简易播放器,非常适合初学者学习音视频开发。本文为第 3 篇:《FFmpeg 播放…