技术文章
-
美团 LongCat-Video-Avatar 发布,实现开源SOTA级拟真表现
今年 8 月,美团开源的 InfiniteTalk 项目凭借无限长度生成能力与精准的唇形、头部、表情及姿态同步表现,迅速成为语音驱动虚拟人领域的主流工具,吸引全球数十万名开发者的使…
-
Android 集成 ZIM SDK 实现聊天消息置顶的功能
ZEGO 即时通讯 SDK(ZIM SDK)2.25.0 版本新增“消息置顶”功能,用户可以将会话中的消息固定在会话顶部,方便会话中的所有用户快速查看重要消息。 本文将简单介绍如何…
-
数字人动画云端渲染方案
为解决拟我形象在多场景展示中依赖 3D 渲染导致的性能与接入问题,本文提出将形象预先导出为视频或动图资源。对比三种技术路径后,最终选择 Puppeteer + H5 渲染帧 + F…
-
TOMM | 针对人脸视频的混合编码方案
本文提出一种融合传统编码与生成式压缩的人脸视频混合压缩方案,该方案结合了传统编码的像素级还原能力与深度生成模型的细节生成能力,能够在低码率条件下实时实现高保真人脸视频压缩。
-
【音视频】滤镜使用与处理
这个系列文章我们来介绍一位海外工程师如何探索安卓音视频基础技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,本篇介绍滤镜使用与处理。 ——来自公众号“关键帧Key…
-
主流第三方直播SDK对比,第三方直播sdk收费标准
直播业务概述 大家所熟知的直播平台虎牙、斗鱼、快手、抖音、B站,直播功能看似普遍,但从零到一开发却不简单。直播中运用到的技术难点非常之多,音频视频处理/编解码,前后处理,直播分发,…
-
2026 年 WebRTC 五大预测:Tsahi Levent-Levi 谈 AV1、MOQ 以及可能出现的问题
本文分享内容来自 webrtc.ventures 首席执行官 Arin Sime 和 WebRTC 行业资深权威人士、 BlogGeek.me 的 Tsahi Levent-Lev…
-
诺基亚:基于 V-DMC 的高效 3D 网格压缩技术
实时 3D 一直存在扩展性问题。每次捕捉的瞬间都会生成一个包含成千上万甚至数百万个顶点的网格,这些顶点在帧与帧之间会不可预测地移动。虽然跟踪网格压缩对于可预测的、类似动画的序列效果…
-
基于音视频分流技术的呼叫中心视频能力升级方案
摘要:随着通信技术的发展和客户需求的提高,传统呼叫中心升级为视频呼叫中心成为必然趋势。探讨了基于音视频分流技术的呼叫中心视频能力升级的有效方案及优势。视频呼叫中心升级能提升客户体验…
-
Streaming Media 2025 Highlights 系列报道 Part 1
本文为Streaming Media 2025 Highlights的总结报道的第一篇,包括7段访谈,内容包含体育流媒体品牌、商业化、多视角技术,受众数据需求等方面。
-
音视频核心概念 | 音视频面试题集锦 45 期
本篇介绍音视频核心概念面试题。来自公众号“关键帧Keyframe”的分享,对于想要开始学习音视频技术或进入该行业的朋友是份不错的入门资料。 1、FFmpeg 架构与基础 Q:什么是…
-
通过去模糊范式实现联合去模糊和低光照增强 | 合肥工业大学汪萌团队
研究团队:赵随意,张召,韦炎炎,赵洋,汪萌:合肥工业大学樊继聪:香港中文大学颜水成:新加坡国立大学论文链接:https://www.sciengine.com/SCIS/doi/1…
-
ASA 音频隐写技术:一种不依赖深度学习的音频 – 图像隐写方案
隐写术(Steganography)作为一种将秘密信息隐藏于非机密载体(如图片、音频)的技术,在保密通信、数字水印和版权保护领域具有重要价值。目前“音频隐于图像”这一交叉领域的研究…
-
【音视频】内存与 CPU 优化策略
这个系列文章我们来介绍一位海外工程师如何探索安卓音视频基础技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,本篇介绍内存与 CPU 优化策略。 ——来自公众号“关…
-
AI 语音数据集如何助力打造自然流畅的语音系统
近年来,AI 的发展早已超越了基于文本的工具。语音如今已成为 AI 的前沿领域,它不仅能够聆听,还能说话、合成甚至克隆人类的声音。 这些进步的核心在于 AI 语音数据集——庞大的、…
-
【音视频】视频转码性能调优
这个系列文章我们来介绍一位海外工程师如何探索安卓音视频基础技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,本篇介绍视频转码性能调优。 ——来自公众号“关键帧Ke…
-
音频技术的进步:捕捉现场体育赛事的氛围
尽管工作流程仍在完善中,沉浸式音频技术已在顶级和低级别体育赛事中得到广泛应用,而广播公司和体育联合会也日益寻求能够提供更个性化观赛体验的供应商。 森海塞尔专业实验室经理 Renat…
-
StreamingMedia最新访谈:视频编转码现状及未来
特约编辑Jan Ozer 近期与Rethink Technology Research高级分析师Alex Davies进行了交流,讨论Rethink的新报告《2020年至2030年…
-
面向自然交互式对话人工智能的音频实时通信技术进展
本文介绍 Meta 如何开发一套强大的多层音频人工智能技术栈,实现与人工智能语音助手更加自然直观的交互。
-
【音视频】HLS 流媒体配置
这个系列文章我们来介绍一位海外工程师如何探索安卓音视频基础技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,本篇介绍 HLS 流媒体配置。 ——来自公众号“关键帧…