技术文章

技术文章

通过预训练的生成音频编码器和声码器实现高效且适应性强的语音增强

语音增强 (SE) 领域的最新进展已经超越了传统的掩码或信号预测方法，转而采用预训练音频模型来获取更丰富、更可迁移的特征。这些模型（例如 WavLM）可以提取有意义的音频嵌入，从而…

音频技术
2025年7月17日
技术文章

NVIDIA 发布 Audio Flamingo 3：推动音频通用智能发展的开源模型

听说过通用人工智能 (AGI) 吗？来认识一下它在听觉领域的对手，通用音频智能 (Audio General Intelligence )。NVIDIA 凭借Audio Flami…

AIGC
2025年7月17日
技术文章

为什么主流大模型的上下文窗口都是128k？| 深度

上下文工程的前提是大模型充足的上下文窗口，今天主流模型基本都把 128k 作为上下文的标准长度。本文将探讨为什么主流大模型的上下文窗口都是128k？

AIGC
2025年7月16日
$即构科技即时通讯SDK 2.21.0 版本更新，Web\小程序\Flutter\uniapp多端同步发布$ 即时通讯

即构科技即时通讯SDK 2.21.0 版本更新，Web\小程序\Flutter\uniapp多端同步发布

2025年7月15日，即构科技即时通讯SDK（ZIM）发布 2.21.0 版本，同步更新 Web、小程序、Flutter 和 uniapp 等多个平台。详细更新功能如下：新增功能…

ZEGO即构科技
2025年7月16日
实时音视频

Rust音视频开发的现状与机遇

Rust 在音视频开发领域的生态正在快速发展，虽然相比 C/C++ 等传统语言的成熟生态仍有差距，但已具备一定的基础和潜力。

RTC观主
2025年7月16日
实时音视频

探索 FFmpeg Basics 音视频技术（24）：网络视频

这个系列文章我们来介绍一位海外工程师如何探索 FFmpeg Basics 音视频技术，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，这是第 24 篇：FFmpeg …

RTC观主
2025年7月16日
技术文章

Gemini Embedding-001 现已推出：通过 Google API 实现多语言 AI 文本嵌入

Google 的 Gemini Embedding 文本模型 gemini-embedding-001现已通过 Gemini API 和 Google AI Studio…

AIGC
2025年7月16日
实时音视频

探索 FFmpeg Basics 音视频技术（23）：先进的技术点

这个系列文章我们来介绍一位海外工程师如何探索 FFmpeg Basics 音视频技术，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，这是第 23 篇：FFmpeg …

RTC观主
2025年7月15日
技术文章

Liquid AI 开源 LFM2：新一代边缘 LLM

随着 Liquid AI 发布其第二代 Liquid Foundation 模型 LFM2，设备端人工智能领域取得了重大飞跃。这一系列全新的生成式 AI 模型代表了边缘计算的范式转…

AIGC
2025年7月15日
WebRTC

P2P、SFU 和 MCU – WebRTC 架构解释

在本文中，我们将研究WebRTC架构实际工作原理的细节，以便外行人也能理解它。 WebRTC是一个开源项目，它使用点对点交互式网络应用程序将设备连接在一起。如果您通过网络浏览器进行…

webrtc学习和实践
2025年7月14日
实时音视频

Flutter 音频驱动应用：实时声音可视化、音频处理和语音交互

在语音助手、播客和实时通信占主导地位的时代，音频驱动的应用程序覆盖各行各业，从健身和冥想到教育和娱乐等行业。Flutter 以其极富表现力的 UI 和跨平台功能而著称，如今它已强大…

音频技术
2025年7月14日
技术文章

Google AI 发布 Vertex AI 记忆库：实现持久代理对话

开发人员正在积极致力于将人工智能代理（AI Agent）推向市场，但一个重大障碍是缺乏记忆。由于无法回忆过去的互动，代理会将每次对话都视为第一次，导致重复提问、无法记住用户偏好，以…

AIGC
2025年7月14日
实时音视频

探索 FFmpeg Basics 音视频技术（22）：颜色修正

色彩校正通常涉及调整图像的亮度、色彩平衡（红色、绿色通道）、伽马、色调、饱和度等参数。在 FFmpeg 中，这些调整是通过为各种滤镜指定适当参数来实现的。

RTC观主
2025年7月14日
实时音视频

技术洞察：浅析6G技术最新进展及对未来音视频行业的影响 | 咪咕灯塔智库

写在前面：随着5G技术的商业化应用逐渐成熟，下一代通信技术6G的研究与探索已经展开。6G预计将在2030年左右商用，其突破性的传输性能、革命性的网络架构、创新的通信范式，将对音视频…

大厂Animal
2025年7月11日
技术文章

IndexTTS2：用极致表现力颠覆听觉体验

在语音合成技术不断演进的背景下，早期版本的IndexTTS虽然在多场景应用中展现出良好的表现，但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题，并进一步推…

大厂Animal
2025年7月11日
实时音视频

探索 FFmpeg Basics 音视频技术（21）：批处理文件

FFmpeg 工具通常用于各种任务，不容易记住不同编解码器的所有参数、过滤器等。将各种命令组合保存到批处理文件中，可以优化工作并将开发提升到一个新的水平。

RTC观主
2025年7月11日
技术文章

NVIDIA AI 发布 DiffusionRenderer：一个可从单个视频创建可编辑、逼真的 3D 场景的 AI 模型

AI 驱动的视频生成技术正以令人惊叹的速度不断进步。在很短的时间内，我们已经从模糊、不连贯的剪辑变成了具有惊人逼真度的视频。然而，尽管取得了这些进步，我们却缺少了一项关键能力：控制…

AIGC
2025年7月11日
技术文章

从声音到句子：探究现代语音模型的工作原理

有没有想过你最喜欢的 AI 助手是如何理解和回应你的语音的？在幕后，大量的数学和深度学习技术将你的声音转化为文本，并对其进行解读，甚至可能用另一种声音或语言生成逼真的响应。本文将逐…

音频技术
2025年7月10日
WebRTC

openvocs：基于 WebRTC 的用于任务控制的开源通信软件平台

openvocs 是一个基于现代 Web 技术（尤其是WebRTC）的任务控制通信软件平台。它有一个基于 HTML5/JavaScript 的客户端，可通过几乎所有当前设备进行访问。

webrtc学习和实践
2025年7月10日
技术文章

光影战争：视频编码标准的权力游戏与AVS的破壁之路

讲述编解码标准的权力更迭史，视频编码标准的权力游戏与AVS的破壁之路。

编解码
2025年7月10日