技术文章

实时音视频

【音视频】媒体播放器缓冲策略

这个系列文章我们来介绍音视频相关面试题，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，本篇介绍媒体播放器缓冲策略。 ——来自公众号“关键帧Keyframe”的分享 …

RTC观主
2025年10月24日
技术文章

《Agentic Design Patterns：构建智能系统的实战指南》- 第七章多智能体协作

本文是对《智能体设计模式》第七章的翻译。此章节介绍了多智能体协作和通信的内容，以及如何进行相关设计。

AIGC
2025年10月24日
实时音视频

视频编码标准中的随机访问(random access)

每当你在视频流中跳转到想要的场景、在稍后时间继续观看电影、切换电视频道，或是加入已经开始的视频会议时，你都在使用一种名为随机访问（random access）的视频解码功能。

编解码
2025年10月23日
实时音视频

【音视频】面试题集锦第 41 期

音视频面试题集锦第 41 期。涉及 AV1、vp8 和 vp9、优化播放器、hls 直播、转码、播放器秒开率和消息队列等方面知识。

RTC观主
2025年10月23日
技术文章

《Agentic Design Patterns：构建智能系统的实战指南》- 第六章规划

本文是对《智能体设计模式》第六章的翻译。此章节介绍了规划（Planning）在智能体编程中的作用，以及如何结合规划功能进行设计。

AIGC
2025年10月23日
技术文章

Google AI 推出VISTA：一款用于文本转视频生成的测试时自我改进智能体

摘要：VISTA 是一种多智能体框架，可在推理过程中提升文本到视频的生成效果。该方法将结构化提示规划为场景，通过成对的比赛机制筛选最佳候选方案，运用视觉、音频及上下文领域的专业评判…

AIGC
2025年10月23日
实时音视频

火山引擎多媒体实验室画质理解大模型 Q-Insight 入选 NeurIPS 2025 Spotlight

近日，NeurIPS 2025公布了录用结果，该会议是机器学习与人工智能领域最具影响力的国际顶级学术会议之一。据悉本次会议共有21575篇投稿进入审稿阶段，最终5290篇论文被录用…

大厂Animal
2025年10月22日
即时通讯

基于 FastAPI WebSockets 与 Django 集成的实时聊天应用

实时通信已成为现代 Web 应用程序的基石。无论是构建客户支持聊天、协作工具还是社交平台，WebSocket 都能提供即时更新所需的双向通信。在本文中，我们将探讨如何使用 Fast…

IM开发老王
2025年10月22日
即时通讯

uni-app x 语音组件（ZIM Audio SDK）发布，轻松实现高清语音消息的收发

周一，ZEGO即构科技发布适配跨平台应用开发引擎 uni-app x 的语音组件——ZIM Audio SDK 1.0.5 版本，支持完整的语音处理功能，包含语音采集、播放、噪声抑…

ZEGO即构科技
2025年10月22日
实时音视频

【音视频】构建视频播放器

这个系列文章我们来介绍音视频相关面试题，对于想要开始学习音视频技术的朋友，这些文章是份不错的入门资料，本篇介绍构建视频播放器。 ——来自公众号“关键帧Keyframe”的分享学习…

RTC观主
2025年10月22日
技术文章

《Agentic Design Patterns：构建智能系统的实战指南》- 第五章工具使用

本文是对《智能体设计模式》第五章的翻译。此章节介绍了智能体工具（Tools）和结合工具的智能体设计模式。

AIGC
2025年10月22日
技术文章

火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架，视频时序理解大模型SOTA！

在人工智能与多媒体技术深度融合的当下，视频时序定位（Video Temporal Grounding）成为视频理解领域的核心任务之一，其目标是根据自然语言查询，在长段视频流中精准…

大厂Animal
2025年10月21日
技术文章

揭秘 MPEG-I：下一代 VR 和 AR 音频

MPEG-I 沉浸式音频标准由 MPEG 音频工作组（ISO/IEC JTC1/SC29/WG6）近期最终确定，是MPEG-I 沉浸式媒体套件的最新成员。该标准可在虚拟现实（VR）…

音频技术
2025年10月21日
即时通讯

ZEGO即时通讯SDK 2.23.0 版本发布，新增群主退群后的群组 Tips 消息等功能

2025 年10 月 20，ZEGO即时通讯SDK（ZIM）2.23.0 版本发布，新增支持设置用户在客户端发送的消息不计入未读消息数、新增群主退群后的群组 Tips 消息等功能。…

ZEGO即构科技
2025年10月21日
实时音视频

全球沟通零“时差”，腾讯云TRTC 实时翻译AI引擎，全链路助推企业突破“无感”瓶颈

在数字化浪潮和全球化进程的双重驱动下，线上线下的沟通触点倍速增长，跨语言沟通场景在我们的生活、工作中愈发普遍。但常见的翻译工具仍以“说一句、停一下”的回合制翻译为主，机械化、响应慢…

厂商动态
2025年10月21日
实时音视频

libavcodec：音视频编码与解码

本文深入探讨了 FFmpeg 中 libavcodec 库的核心功能——音视频编码与解码。我们将从基础概念出发，逐步解析其工作原理、关键数据结构、API 使用流程，并通过实际代码示…

RTC观主
2025年10月21日
技术文章

《Agentic Design Patterns：构建智能系统的实战指南》- 第四章反思

本文是对《智能体设计模式》一书第四章节的翻译，此章节主要介绍了反思（Reflection）模式。

AIGC
2025年10月21日
技术文章

FlexiCodec：3-12.5Hz超低帧率动态音频编解码器

FlexiCodec是一个支持推理时动态调整平均帧率至3Hz到12.5Hz之间的Codec。

编解码
2025年10月20日
技术文章

《Agentic Design Patterns：构建智能系统的实战指南》- 第三章并行化

本文是对《智能体设计模式》一书第三章节的翻译，此章节主要介绍了并行化（Parallelization）模式。

AIGC
2025年10月20日
技术文章

优化 OTT 体验：提供更佳 QoE 的五种流媒体策略

据 Mordor Intelligence 预测，全球 OTT 视频市场规模到2025年将达到 3471.1 亿美元，观众注意力争夺战正空前激烈。在这个饱和的市场环境中，仅提供更多…

视频技术
2025年10月20日