技术文章
-
低复杂度降噪技术:助力扫地机器人实现高效实时语音处理
在智能家居设备中,扫地机器人的语音交互功能常受限于其自身运行时产生的高强度噪声,尤其是在信噪比(SNR)低至 – 10 dB 甚至更低的环境下,提取有效语音指令变得极具…
-
探索 FFmpeg Basics 音视频技术(19): 组件和项目
FFmpeg 项目由 4 个命令行工具和 9 个软件库组成,可供许多公司和软件项目使用。本文将详细介绍FFmpeg 的组件和项目。
-
利用 VXLAN 技术实现可扩展的 VoIP 和 UC 部署
现代企业网络日益复杂,在可扩展性和分段方面面临巨大挑战。这在传统的二层架构中尤为明显。为了突破这些限制,可扩展虚拟局域网络 (VXLAN) 等技术应运而生,提供了一种可扩展且灵活的…
-
Radial Attention 如何在不牺牲质量的情况下将视频扩散成本降低 4.4 倍
扩散模型在图像合成方面取得了成功,在生成高质量、连贯的视频方面也取得了令人瞩目的进展。然而,处理视频中的额外时间维度大大增加了计算需求,尤其是在自注意力机制难以随序列长度扩展的情况…
-
WebAssembly(Wasm)和边缘 AI :实时应用的新前沿
在瞬息万变的数字世界中,用户要求在他们使用的每台设备上都有即时响应和更智能的技术。这种需求推动着计算技术向更快、更安全、更高效的方向发展。作为强大的解决方案,WebAssembly…
-
ICME 2025 | 火山引擎在国际音频编码能力挑战赛中夺得冠军
音频编码器是多模态大模型的重要组件,优秀的音频编码器在构建多模态系统中至关重要。在此背景下,小米集团、萨里大学与海天瑞声联合主办的 ICME 2025 Audio Encoder …
-
探索 FFmpeg Basics 音视频技术(18): 隔行视频
这个系列文章我们来介绍一位海外工程师如何探索 FFmpeg Basics 音视频技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 18 篇:FFmpeg …
-
人工智能中的上下文工程是什么?其技术、用例以及重要性
什么是上下文工程? 上下文工程是指设计、组织和操作输入大型语言模型 (LLM) 的上下文,以优化其性能的学科。上下文工程并非微调模型权重或架构,而是关注输入——提示、系统指令、检索…
-
淘宝直播数字人:服务端工程技术
淘宝直播技术团队打造智能数字人的部分实践总结。本文介绍了服务端工程技术,服务端工程是构建稳定、弹性、高并发的后端支撑平台,确保数字人服务高效稳定运行。 01 背景 数字人直播是通过…
-
告别图像布局:简化 Vulkan 同步
Vulkan® 中的同步一直是其最棘手的挑战之一,开发者们也一直不遗余力地提醒我们这一点。Khronos® Vulkan 工作组一直致力于让 Vulkan 更加易于使用,而简化同步…
-
2025 年使用 WebRTC 进行流媒体传输的 6 大优势
WebRTC 是一个开源项目,支持在浏览器和移动应用之间实时直接传输音频、视频和数据。所有现代浏览器都支持它,并且不需要任何第三方插件或软件。 与传统的流媒体协议不同,WebRTC…
-
探索 FFmpeg Basics 音视频技术(17): 预设编解码器
这个系列文章我们来介绍一位海外工程师如何探索 FFmpeg Basics 音视频技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 17 篇:FFmpeg …
-
Crome:Google DeepMind 的因果框架,用于 LLM 对齐中建立稳健奖励模型
奖励模型是将 LLM 与人工反馈对齐的基础组件,但它们面临着奖励黑客攻击的挑战。这些模型关注的是诸如响应长度或格式等表面属性,而不是识别诸如真实性和相关性等真正的质量指标。这个问题…
-
即构发布 uni-app x UTS 即时通讯 SDK,全面适配 Uniapp x 新架构
2025年7月1日, 即构发布 uni-app x UTS 即时通讯 SDK 2.21.0 版本,对齐 iOS/Android/Web/小程序等平台的 2.21.0 版本。 什么是…
-
探索 FFmpeg Basics 音视频技术(16): 数字音频
数字音频是一种技术,用于捕获、记录、编辑、编码和复制声音,这些声音通常由脉冲编码调制(PCM)进行编码。FFmpeg支持许多音频格式,包括AAC、MP3、Vorbis、WAV、WMA等。
-
淘宝直播数字人:音视频&算法工程技术
本文是淘宝直播技术团队打造智能数字人的部分实践总结。 01 文章价值与思路说明 本文给大家带来的价值: 文章分享思路: 带着问题出发: 02 业务背景与价值 数字人直播 商家核心痛…
-
ffmpeg 中的 postproc 库干嘛用的,可以去掉吗
FFmpeg 中的 libpostproc 库是一个后处理库,主要用于视频解码后的图像处理。它的主要功能包括: ffmpeg 中的 postproc 库 主要用…
-
探索 FFmpeg Basics 音视频技术(15): 图像处理
FFmpeg工具的主要用途与音频和视频有关,但ffmpeg可以对各种图像格式进行解码和编码,并且许多图像相关任务可以快速完成。
-
即构 HarmonyOS 即时通讯 SDK 实现高清语音消息的收发
2025年6月30日,HarmonyOS 版 ZIM Audio SDK(即构即时通讯 SDK 的语音组件) 首次发布,支持完整的语音处理功能,包含语音采集、播放、噪声抑制(ANS…
-
边缘 AI 模型生命周期管理:版本控制、监控和再训练
随着 AI 不断向网络边缘靠近,边缘 AI 已成为各行各业的变革范式。从智能摄像头和工业传感器到自动驾驶汽车和可穿戴健康设备,边缘 AI 可直接在本地设备上实现实时、低延迟的决策,…