技术文章

技术文章

MPEG-I 沉浸式音频以 6DoF 音效革新 VR 和 AR 体验

在虚拟现实和增强现实快速发展的领域，音频长期以来一直处于视觉效果的次要地位。但随着MPEG-I沉浸式音频标准的出现，一场翻天覆地的变革正在发生。该标准有望彻底改变我们在数字领域体验…

音频技术
2025年11月25日
技术文章

什么是实时AI？实时AI的架构及应用场景

您的企业运用 AI 分析报告或划分客户群体，这极具价值。但若 AI 需要即时行动呢？我们谈论的是毫秒级的决策。部署必须即时响应的 AI 系统面临着完全独特的挑战。这不仅关乎准确性，…

实时互动
2025年11月25日
实时音视频

互动式 AI Agent 如何重塑直播互动体验

直播的本质始终在于连接。那种激动、活力与实时互动，正是赋予直播内容生命力的源泉。然而随着观众规模扩大、直播形式日益复杂，维系这种即时的人际联结变得前所未有的困难。每位主播都深有体…

ZEGO即构科技
2025年11月24日
技术文章

什么是小波压缩？小波压缩的优缺点

什么是小波压缩？小波压缩（Wavelet Compression）是一种图像压缩技术，它利用小波变换在保持图像质量的同时减小文件大小。与其他仅关注频率域或空间域变换的压缩技术不同…

图像处理
2025年11月24日
即时通讯

B站消息新架构升级

技术上数据量越大，降级概率越大，但消息业务场景上数据量大的是影响力更大的UP，业务不接受技术降级，如何破？如果消息流量增加10倍，怎么保障服务不挂？

大厂Animal
2025年11月21日
技术文章

什么是自适应阈值处理？图像处理中的自适应阈值处理

什么是自适应阈值处理？自适应阈值处理（Adaptive Thresholding）是一种图像处理技术，它根据局部像素强度将灰度图像转换为二值图像。与使用单一全局阈值不同，自适应阈…

图像处理
2025年11月21日
技术文章

Instantvir：实时视频逆问题求解器，提炼扩散先验实现超快速重建

实时重建高质量视频对从视频会议到增强现实等应用构成重大挑战，既要求视觉保真度又需极低延迟。来自北京大学、华侨大学和快手的研究团队通过 InstantViR 解决了这一难题。 Ins…

视频技术
2025年11月20日
技术文章

Wi-Fi 7 有哪些优势？速度、容量和可靠性的新标准

为了满足企业日益增长的无线网络需求，Wi-Fi 技术正在飞速发展。办公室、酒店、商业场所和工业场所越来越需要能够深度集成到其运营中的无线网络。Wi-Fi 7 标准 (IEEE 80…

RTE基础设施
2025年11月20日
技术文章

将视频融入播客的挑战与机遇

欧洲的播客行业正在蓬勃发展。据 Grand View Research 的数据显示，2024 年欧洲播客市场规模将超过 85 亿美元，预计未来几年的增长率将达到 25% 至 30%…

视频技术
2025年11月20日
实时音视频

【音视频】MediaCodec 视频处理

这个系列文章我们来介绍一位海外工程师如何探索安卓音视频基础技术，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，本篇介绍 MediaCodec 视频处理。 ——来自公…

RTC观主
2025年11月20日
实时音视频

Qt 多媒体播放器深度解析：从 QMediaPlayer 到 FFmpeg 自定义播放架构

在使用 Qt 开发多媒体应用时，开发者常常会遇到一个令人困惑的问题：为什么明明是标准格式的 MP4 视频，在 QMediaPlayer 中却无法播放？本文将深入剖析 Qt 的多媒体…

FFmpeg笔记
2025年11月19日
技术文章

Uni-MoE-2.0-Omni：基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

如何构建一个能够可靠理解文本、图像、音频和视频，同时仍能高效运行的统一模型？来自哈尔滨工业大学深圳分校的研究团队推出了 Uni-MoE-2.0-Omni，这里一款全开放式全模态大型…

AIGC
2025年11月19日
技术文章

Meta通过压缩元数据在Instagram上启用杜比视界HDR功能

通过与 FFmpeg 开发人员的技术合作以及 Dolby 规范，Instagram iOS 成为 Meta 首个支持 Dolby Vision 视频播放的应用。

大厂Animal
2025年11月18日
实时音视频

面向规模化构建？为何现场体育直播需要m-ABR和视频专用CDN

随着苹果和亚马逊 Prime Video 等流媒体巨头激烈争夺体育赛事直播权，行业正面临一个新现实：广泛部署的流媒体传输基础设施是否已完全准备好支撑全球范围内的峰值观众流媒体需求？…

直播技术
2025年11月18日
WebRTC

如何将 WhatsApp Business Calling API 与 WebRTC 集成以启用客户语音通话

直到最近，要在企业应用与 WhatsApp 超过 30 亿用户之间实现实时语音通话，仍需依赖复杂的电信基础设施。Meta 于 2025 年 7 月推出的 WhatsApp Busi…

webrtc学习和实践
2025年11月17日
实时音视频

如何构建类似 Jitsi Meet 的视频会议应用

随着远程办公和虚拟会议的普及，众多企业正寻求开发类似 Jitsi Meet 应用的自有视频会议解决方案。本文将带您了解如何借助全球领先的实时互动技术提供商 ZEGO 构建成功的视频…

ZEGO即构科技
2025年11月17日
技术文章

2025 年四大 AI 浏览器对比：Atlas、Copilot Mode、Dia 和 Comet

AI 浏览器正将模型从“回答关于网络的问题”转向“在网络上操作”。在 2025 年，四款 AI 浏览器将定义这一领域：OpenAI 的 ChatGPT Atlas、搭载 Copil…

AIGC
2025年11月17日
实时音视频

MediaCodec 音频处理

在 Android 多媒体开发领域，音频处理是许多应用的基础需求，从录音应用到视频流媒体平台皆是如此。AVSample 仓库通过 Android 的 MediaCodec API …

RTC观主
2025年11月17日
技术文章

VisionWeaver：从“现象识别”到“病因诊断”，开启AI视觉幻觉研究新篇章

长久以来，我们只知道大型视觉语言模型（LVLM）会犯错，但始终缺乏一把“手术刀”，无法剖析其视觉感知的根源性缺陷。我们只知其然，不知其所以然。我们希望当 AI 模型观察图像时，不再…

大厂Animal
2025年11月14日
实时音视频

携程数字人直播实战：成本降低90%，我们如何实现规模化落地？

本文将主要携程团队设计开发携程数字人直播产品的背景、方案调研、设计和研发过程中遇到的问题以及解决方案，同时也介绍了本产品的主要功能和未来的规划。

大厂Animal
2025年11月13日