技术文章
-
淘宝直播数字人:音视频&算法工程技术
本文是淘宝直播技术团队打造智能数字人的部分实践总结。 01 文章价值与思路说明 本文给大家带来的价值: 文章分享思路: 带着问题出发: 02 业务背景与价值 数字人直播 商家核心痛…
-
ffmpeg 中的 postproc 库干嘛用的,可以去掉吗
FFmpeg 中的 libpostproc 库是一个后处理库,主要用于视频解码后的图像处理。它的主要功能包括: ffmpeg 中的 postproc 库 主要用…
-
探索 FFmpeg Basics 音视频技术(15): 图像处理
FFmpeg工具的主要用途与音频和视频有关,但ffmpeg可以对各种图像格式进行解码和编码,并且许多图像相关任务可以快速完成。
-
即构 HarmonyOS 即时通讯 SDK 实现高清语音消息的收发
2025年6月30日,HarmonyOS 版 ZIM Audio SDK(即构即时通讯 SDK 的语音组件) 首次发布,支持完整的语音处理功能,包含语音采集、播放、噪声抑制(ANS…
-
边缘 AI 模型生命周期管理:版本控制、监控和再训练
随着 AI 不断向网络边缘靠近,边缘 AI 已成为各行各业的变革范式。从智能摄像头和工业传感器到自动驾驶汽车和可穿戴健康设备,边缘 AI 可直接在本地设备上实现实时、低延迟的决策,…
-
探索 FFmpeg Basics 音视频技术(14): 元数据和字幕
这个系列文章我们来介绍一位海外工程师如何探索 FFmpeg Basics 音视频技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 14 篇:FFmpeg …
-
淘宝直播数字人:形象技术
本文将尝试给大家带来数字人形象技术在直播场景使用中遇到的挑战,介绍淘宝直播团队的思考和解法。
-
真实世界的 UDP:WebRTC 和 DNS 如何使用快速但不可靠的协议
UDP 在设计上可能比较轻量级且 “不可靠 ”,但这并没有阻止开发人员在其基础上构建强大的系统。在本文中,我们将了解 WebRTC 和 DNS 这两项关键技术是如何成功使用 UDP…
-
音视频面试题集锦第 41 期
来自音视频社群“关键帧Keyframe”的分享。最近一位社群的朋友参加了多场音视频方向的面试,遇到了这些面试题,这里给大家分享一下: 1、知道 av1 吗? 2、vp8 和 vp9…
-
Unbabel 推出 TOWER+:多语言 LLM 高保真翻译与指令遵循的统一框架
大语言模型(LLM)推动了机器翻译的进步,利用海量训练语料库翻译数十种语言和方言,同时捕捉细微的语言差异。然而,对这些模型进行翻译准确性的微调往往会损害其指令遵循和会话能力,而通用…
-
物联网延迟:RTC(实时通信)的力量
随着物联网技术的进步,越来越多的应用正在追求超低延迟以实现实时通信。传统的物联网用例通常以“海量物联网”(由发送温度或能量传感器等小型周期性数据的大型设备网络)为中心,而如今,它们…
-
超越边缘:为什么设备后测试和监控是实现真正流媒体质量的最重要步骤?
数字视频流媒体改变了娱乐业,但它是在一个脆弱、分散的生态系统中运行的。当今的流媒体提供商被要求提供完美的体验,尽管大多数底层组件(设备、操作系统、第三方集成)都不在他们的直接控制范…
-
开源 | MeiGen-MultiTalk:基于单张照片实现多人互动演绎
近日,美团推出了音频驱动的多人对话视频生成框架MultiTalk,并在GitHub上开源,首创L-RoPE绑定技术,通过标签旋转位置编码精准解决多音频流与人物错位难题。该框架创新性…
-
探索 FFmpeg Basics 音视频技术(13): 数学函数
FFmpeg工具提供的一个巨大优势是内置的数学函数,可以对某些音频和视频过滤器、选项和源进行各种修改。
-
为什么 SRT 能够助力下一代流媒体工作流
提供高质量的直播视频比以往任何时候都更加苛刻。广播公司、流媒体平台和内容所有者需要满足观众日益增长的期望,即跨平台、跨地域实现无缝、低延迟的观看体验,同时还要应对预算紧缩、团队精简…
-
多声源定位新方法:结合α稳定模型与神经网络的SHAMaNS
声源定位(Sound Source Localization, SSL)作为机器听觉领域的基础任务,在增强听觉、机器人技术、自动驾驶等场景中应用广泛。现有 SSL 技术主要分为声学…
-
探索 FFmpeg Basics 音视频技术(12): 时间操作
多媒体处理包括改变输入持续时间,设置延迟,仅从输入中选择特定部分等。本文将分享 FFmpeg 时间操作方面相关的内容。
-
淘宝直播数字人:LLM弹幕互动技术
本专题是淘宝直播技术团队打造智能数字人的部分实践总结。我们将探讨六大核心环节:LLM文案生产赋予数字人思考和内容生成能力,如同其“大脑”;LLM互动能力则聚焦对话逻辑与拟人化交流,…
-
使用 FFmpeg 和开源媒体服务器进行 ABR WHIP 流媒体传输
提供高质量的实时视频流,确保在任何网络上都能稳定播放,并且能够即时呈现互动内容,这是我们的最终目标。对于希望实现这一目标的用户来说,将 FFmpeg 与开源WHIP/WHEP服务器…
-
为什么 MPLS 对于实时通信仍然很重要
随着越来越多的企业转向基于云的通信,远程办公成为常态,确保分散站点之间的一致性能已成为电信和统一通信 (UC) 提供商的首要任务。对于负责部署可靠实时通信服务(如 VoIP 和 U…