技术文章
-
P2P、SFU 和 MCU – WebRTC 架构解释
在本文中,我们将研究WebRTC架构实际工作原理的细节,以便外行人也能理解它。 WebRTC是一个开源项目,它使用点对点交互式网络应用程序将设备连接在一起。如果您通过网络浏览器进行…
-
Flutter 音频驱动应用:实时声音可视化、音频处理和语音交互
在语音助手、播客和实时通信占主导地位的时代,音频驱动的应用程序覆盖各行各业,从健身和冥想到教育和娱乐等行业。Flutter 以其极富表现力的 UI 和跨平台功能而著称,如今它已强大…
-
Google AI 发布 Vertex AI 记忆库:实现持久代理对话
开发人员正在积极致力于将人工智能代理(AI Agent)推向市场,但一个重大障碍是缺乏记忆。由于无法回忆过去的互动,代理会将每次对话都视为第一次,导致重复提问、无法记住用户偏好,以…
-
探索 FFmpeg Basics 音视频技术(22): 颜色修正
色彩校正通常涉及调整图像的亮度、色彩平衡(红色、绿色通道)、伽马、色调、饱和度等参数。在 FFmpeg 中,这些调整是通过为各种滤镜指定适当参数来实现的。
-
技术洞察:浅析6G技术最新进展及对未来音视频行业的影响 | 咪咕灯塔智库
写在前面:随着5G技术的商业化应用逐渐成熟,下一代通信技术6G的研究与探索已经展开。6G预计将在2030年左右商用,其突破性的传输性能、革命性的网络架构、创新的通信范式,将对音视频…
-
IndexTTS2:用极致表现力颠覆听觉体验
在语音合成技术不断演进的背景下,早期版本的IndexTTS虽然在多场景应用中展现出良好的表现,但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题,并进一步推…
-
探索 FFmpeg Basics 音视频技术(21): 批处理文件
FFmpeg 工具通常用于各种任务,不容易记住不同编解码器的所有参数、过滤器等。将各种命令组合保存到批处理文件中,可以优化工作并将开发提升到一个新的水平。
-
NVIDIA AI 发布 DiffusionRenderer:一个可从单个视频创建可编辑、逼真的 3D 场景的 AI 模型
AI 驱动的视频生成技术正以令人惊叹的速度不断进步。在很短的时间内,我们已经从模糊、不连贯的剪辑变成了具有惊人逼真度的视频。然而,尽管取得了这些进步,我们却缺少了一项关键能力:控制…
-
从声音到句子:探究现代语音模型的工作原理
有没有想过你最喜欢的 AI 助手是如何理解和回应你的语音的?在幕后,大量的数学和深度学习技术将你的声音转化为文本,并对其进行解读,甚至可能用另一种声音或语言生成逼真的响应。本文将逐…
-
openvocs:基于 WebRTC 的用于任务控制的开源通信软件平台
openvocs 是一个基于现代 Web 技术(尤其是WebRTC)的任务控制通信软件平台。它有一个基于 HTML5/JavaScript 的客户端,可通过几乎所有当前设备进行访问。
-
光影战争:视频编码标准的权力游戏与AVS的破壁之路
讲述编解码标准的权力更迭史,视频编码标准的权力游戏与AVS的破壁之路。
-
探索 FFmpeg Basics 音视频技术(20): 麦克风和摄像头
麦克风和摄像头(网络摄像头)是计算机设备的常用部分,FFmpeg 包含了它们的使用元素。本文将详细介绍在 FFmpeg 中如何使用麦克风和摄像头。
-
保障体育赛事直播安全:端到端视频平台如何打击盗版
全球范围内的非法流媒体播放量达到了前所未有的水平,对体育流媒体收入构成了严重威胁。在美国,35% 的 NFL 球迷承认通过非法方式观看比赛。在英格兰、苏格兰和威尔士,超过 800 …
-
低复杂度降噪技术:助力扫地机器人实现高效实时语音处理
在智能家居设备中,扫地机器人的语音交互功能常受限于其自身运行时产生的高强度噪声,尤其是在信噪比(SNR)低至 – 10 dB 甚至更低的环境下,提取有效语音指令变得极具…
-
探索 FFmpeg Basics 音视频技术(19): 组件和项目
FFmpeg 项目由 4 个命令行工具和 9 个软件库组成,可供许多公司和软件项目使用。本文将详细介绍FFmpeg 的组件和项目。
-
利用 VXLAN 技术实现可扩展的 VoIP 和 UC 部署
现代企业网络日益复杂,在可扩展性和分段方面面临巨大挑战。这在传统的二层架构中尤为明显。为了突破这些限制,可扩展虚拟局域网络 (VXLAN) 等技术应运而生,提供了一种可扩展且灵活的…
-
Radial Attention 如何在不牺牲质量的情况下将视频扩散成本降低 4.4 倍
扩散模型在图像合成方面取得了成功,在生成高质量、连贯的视频方面也取得了令人瞩目的进展。然而,处理视频中的额外时间维度大大增加了计算需求,尤其是在自注意力机制难以随序列长度扩展的情况…
-
WebAssembly(Wasm)和边缘 AI :实时应用的新前沿
在瞬息万变的数字世界中,用户要求在他们使用的每台设备上都有即时响应和更智能的技术。这种需求推动着计算技术向更快、更安全、更高效的方向发展。作为强大的解决方案,WebAssembly…
-
ICME 2025 | 火山引擎在国际音频编码能力挑战赛中夺得冠军
音频编码器是多模态大模型的重要组件,优秀的音频编码器在构建多模态系统中至关重要。在此背景下,小米集团、萨里大学与海天瑞声联合主办的 ICME 2025 Audio Encoder …
-
探索 FFmpeg Basics 音视频技术(18): 隔行视频
这个系列文章我们来介绍一位海外工程师如何探索 FFmpeg Basics 音视频技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 18 篇:FFmpeg …