技术文章
-
NVIDIA AI 发布 Canary-Qwen-2.5B:一款先进的 ASR-LLM 混合模型,在 OpenASR 排行榜上拥有 SoTA 性能
NVIDIA 刚刚发布了Canary-Qwen-2.5B,这是一款突破性的自动语音识别 (ASR) 和语言模型 (LLM) 混合模型,目前以创纪录的 5.63% 的词错率 (WER…
-
使用 AVPlayer 播放 FairPlay DRM 视频的最佳实践
本文介绍使用 AVPlayer 播放 FairPlay DRM 视频的最佳实践。DRM 是指使用加密技术保护视频内容、通过专业技术安全地存储和传输密钥、并允许内容生产商设置商业规则,限制内容观看者的一种系统。
-
英特尔发布衡量游戏图像质量的 AI 工具,为客观量化现代渲染技术的图像质量开辟新途径
英特尔有可能使客观评估现代游戏的图像质量变得更容易。一种新的 AI 驱动的视频质量指标,名为计算机图形视觉质量指标(Computer Graphics Visual Quality…
-
通过预训练的生成音频编码器和声码器实现高效且适应性强的语音增强
语音增强 (SE) 领域的最新进展已经超越了传统的掩码或信号预测方法,转而采用预训练音频模型来获取更丰富、更可迁移的特征。这些模型(例如 WavLM)可以提取有意义的音频嵌入,从而…
-
NVIDIA 发布 Audio Flamingo 3:推动音频通用智能发展的开源模型
听说过通用人工智能 (AGI) 吗?来认识一下它在听觉领域的对手,通用音频智能 (Audio General Intelligence )。NVIDIA 凭借Audio Flami…
-
为什么主流大模型的上下文窗口都是128k?| 深度
上下文工程的前提是大模型充足的上下文窗口,今天主流模型基本都把 128k 作为上下文的标准长度。本文将探讨为什么主流大模型的上下文窗口都是128k?
-
即构科技即时通讯SDK 2.21.0 版本更新,Web\小程序\Flutter\uniapp多端同步发布
2025年7月15日,即构科技即时通讯SDK(ZIM)发布 2.21.0 版本,同步更新 Web、小程序、Flutter 和 uniapp 等多个平台。详细更新功能如下: 新增功能…
-
Rust音视频开发的现状与机遇
Rust 在音视频开发领域的生态正在快速发展,虽然相比 C/C++ 等传统语言的成熟生态仍有差距,但已具备一定的基础和潜力。
-
探索 FFmpeg Basics 音视频技术(24): 网络视频
这个系列文章我们来介绍一位海外工程师如何探索 FFmpeg Basics 音视频技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 24 篇:FFmpeg …
-
Gemini Embedding-001 现已推出:通过 Google API 实现多语言 AI 文本嵌入
Google 的 Gemini Embedding 文本模型 gemini-embedding-001现已通过 Gemini API 和 Google AI Studio…
-
探索 FFmpeg Basics 音视频技术(23): 先进的技术点
这个系列文章我们来介绍一位海外工程师如何探索 FFmpeg Basics 音视频技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 23 篇:FFmpeg …
-
Liquid AI 开源 LFM2:新一代边缘 LLM
随着 Liquid AI 发布其第二代 Liquid Foundation 模型 LFM2,设备端人工智能领域取得了重大飞跃。这一系列全新的生成式 AI 模型代表了边缘计算的范式转…
-
P2P、SFU 和 MCU – WebRTC 架构解释
在本文中,我们将研究WebRTC架构实际工作原理的细节,以便外行人也能理解它。 WebRTC是一个开源项目,它使用点对点交互式网络应用程序将设备连接在一起。如果您通过网络浏览器进行…
-
Flutter 音频驱动应用:实时声音可视化、音频处理和语音交互
在语音助手、播客和实时通信占主导地位的时代,音频驱动的应用程序覆盖各行各业,从健身和冥想到教育和娱乐等行业。Flutter 以其极富表现力的 UI 和跨平台功能而著称,如今它已强大…
-
Google AI 发布 Vertex AI 记忆库:实现持久代理对话
开发人员正在积极致力于将人工智能代理(AI Agent)推向市场,但一个重大障碍是缺乏记忆。由于无法回忆过去的互动,代理会将每次对话都视为第一次,导致重复提问、无法记住用户偏好,以…
-
探索 FFmpeg Basics 音视频技术(22): 颜色修正
色彩校正通常涉及调整图像的亮度、色彩平衡(红色、绿色通道)、伽马、色调、饱和度等参数。在 FFmpeg 中,这些调整是通过为各种滤镜指定适当参数来实现的。
-
技术洞察:浅析6G技术最新进展及对未来音视频行业的影响 | 咪咕灯塔智库
写在前面:随着5G技术的商业化应用逐渐成熟,下一代通信技术6G的研究与探索已经展开。6G预计将在2030年左右商用,其突破性的传输性能、革命性的网络架构、创新的通信范式,将对音视频…
-
IndexTTS2:用极致表现力颠覆听觉体验
在语音合成技术不断演进的背景下,早期版本的IndexTTS虽然在多场景应用中展现出良好的表现,但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题,并进一步推…
-
探索 FFmpeg Basics 音视频技术(21): 批处理文件
FFmpeg 工具通常用于各种任务,不容易记住不同编解码器的所有参数、过滤器等。将各种命令组合保存到批处理文件中,可以优化工作并将开发提升到一个新的水平。
-
NVIDIA AI 发布 DiffusionRenderer:一个可从单个视频创建可编辑、逼真的 3D 场景的 AI 模型
AI 驱动的视频生成技术正以令人惊叹的速度不断进步。在很短的时间内,我们已经从模糊、不连贯的剪辑变成了具有惊人逼真度的视频。然而,尽管取得了这些进步,我们却缺少了一项关键能力:控制…