技术文章
-
Streaming Media 2025 Highlights 系列报道 Part 1
本文为Streaming Media 2025 Highlights的总结报道的第一篇,包括7段访谈,内容包含体育流媒体品牌、商业化、多视角技术,受众数据需求等方面。
-
音视频核心概念 | 音视频面试题集锦 45 期
本篇介绍音视频核心概念面试题。来自公众号“关键帧Keyframe”的分享,对于想要开始学习音视频技术或进入该行业的朋友是份不错的入门资料。 1、FFmpeg 架构与基础 Q:什么是…
-
通过去模糊范式实现联合去模糊和低光照增强 | 合肥工业大学汪萌团队
研究团队:赵随意,张召,韦炎炎,赵洋,汪萌:合肥工业大学樊继聪:香港中文大学颜水成:新加坡国立大学论文链接:https://www.sciengine.com/SCIS/doi/1…
-
ASA 音频隐写技术:一种不依赖深度学习的音频 – 图像隐写方案
隐写术(Steganography)作为一种将秘密信息隐藏于非机密载体(如图片、音频)的技术,在保密通信、数字水印和版权保护领域具有重要价值。目前“音频隐于图像”这一交叉领域的研究…
-
【音视频】内存与 CPU 优化策略
这个系列文章我们来介绍一位海外工程师如何探索安卓音视频基础技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,本篇介绍内存与 CPU 优化策略。 ——来自公众号“关…
-
AI 语音数据集如何助力打造自然流畅的语音系统
近年来,AI 的发展早已超越了基于文本的工具。语音如今已成为 AI 的前沿领域,它不仅能够聆听,还能说话、合成甚至克隆人类的声音。 这些进步的核心在于 AI 语音数据集——庞大的、…
-
【音视频】视频转码性能调优
这个系列文章我们来介绍一位海外工程师如何探索安卓音视频基础技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,本篇介绍视频转码性能调优。 ——来自公众号“关键帧Ke…
-
音频技术的进步:捕捉现场体育赛事的氛围
尽管工作流程仍在完善中,沉浸式音频技术已在顶级和低级别体育赛事中得到广泛应用,而广播公司和体育联合会也日益寻求能够提供更个性化观赛体验的供应商。 森海塞尔专业实验室经理 Renat…
-
StreamingMedia最新访谈:视频编转码现状及未来
特约编辑Jan Ozer 近期与Rethink Technology Research高级分析师Alex Davies进行了交流,讨论Rethink的新报告《2020年至2030年…
-
面向自然交互式对话人工智能的音频实时通信技术进展
本文介绍 Meta 如何开发一套强大的多层音频人工智能技术栈,实现与人工智能语音助手更加自然直观的交互。
-
【音视频】HLS 流媒体配置
这个系列文章我们来介绍一位海外工程师如何探索安卓音视频基础技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,本篇介绍 HLS 流媒体配置。 ——来自公众号“关键帧…
-
App内嵌视频通话屏幕共享功能实现
App内嵌视频通话屏幕共享是一项常见功能,所谓屏幕共享是指在视频通话或互动直播过程中将屏幕内容以视频的方式分享给其他的观众,以增强互动体验,提高沟通效率。本文以 iOS 平台为例,…
-
EchoFree—超轻量神经声学回声消除模型 | ASRU 2025
声学回声消除(Acoustic Echo Cancellation, AEC) 作为语音通信系统的核心预处理模块,其核心任务是从麦克风采集信号中实时分离近端语音(near-end …
-
语音AI编排:大规模构建高质量语音AI代理的关键环节
语音 AI 已从实验演示阶段走向日常运营。如今,企业将诸多职责委托给自动化语音系统,包括预约安排、潜在客户资格审查、后续跟进、支持分流和招聘筛选。Omdia 的《2025 年对话式…
-
语音通话与视频通话:为什么 VoIP 通话仍然占据一席之地
如今视频通信已成为现代协作的重要组成部分,人们自然会想知道,传统的纯语音 VoIP 系统在当今环境中是否还有有意义的地位。 对于正在评估通信策略的企业而言,这个问题至关…
-
统一 MQTT 发布/订阅与消息队列:EMQX 6.0 背后的架构
MQTT 发布/订阅模式的局限性 规则引擎是 EMQX 内置的基于 SQL 的数据处理组件,专为物联网场景设计,能够高效、低成本地实现实时数据流转与处理。如今,大多数物联网系统看起…
-
人工智能驱动的视频编解码技术解析 | 灯塔智库
写在前面:视频数据作为视觉信息处理中最大的大数据类别,正以指数级速度增长,长期主导全球网络流量。新兴应用场景如超高清视频、交互式视频会议与远程屏幕共享,对视频编解码提出了更高要求。…
-
【音视频】如何埋点统计播放器卡顿率和卡顿时长
在对播放器进行性能埋点时,如何准确统计出每次播放的总的播放时长以及卡顿时长,从而准确统计播放卡顿率?
-
MPEG-H 和 Dolby Atmos 技术对比,广播公司更偏爱谁?
下一代音频 (NGA) 是一系列技术,它将音频从固定声道混音扩展到沉浸式、对象驱动和元数据驱动的体验,使其具有个性化、易用性和跨设备可扩展性。NGA 允许单个节目携带离散元素(声道…
-
异步 Django:将 WebSocket 扩展至 100 万并发连接
本文讲述如何实现将 WebSockets 扩展至 100 万并发连接,踩了哪些坑,以及在扩展异步 Django 应用过程中汲取的经验教训。