技术文章
-
RTSP 到 WebRTC:如何通过编译 Chrome 引擎构建自定义视频代理
当 Kurento 无法胜任我们的摄像头负载时,我们从源代码编译了 Chromium 的 WebRTC库,并在大约十天内构建了自己的精简版 RTSP 到 WebRTC 桥接器。 标…
-
音视频 iOS 面试题 | 音视频面试题集锦 56 期
本文分享来自“关键帧Keyframe”的音视频面试题集锦第 56 期——音视频 iOS 面试题相关内容。 1、CMSampleBuffer 内存安全与生命周期管理 2、视频硬解码中…
-
重构大模型通信架构:火山引擎 RocketMQ For AI 解决方案
AIGC 技术爆发促使大模型从实验阶段迈向企业级大规模应用,但它任务耗时久、算力成本高、流量波动大、智能体协作复杂这些核心特点,给底层通信和调度基础设施带来了严峻挑战,企业通常会遇…
-
为什么内容保护必须适应知识产权和云端工作流程
广播工作流曾经结构更为封闭,制作、播出和分发之间有着明确的界限。这使得内容保护更易于管理,访问点较少,且对内容流转的控制更为严格。随着行业向基于 IP 和云的环境转型,这些假设已不…
-
2026 年的海外 AI 语音模型:实时翻译与语音克隆
AI 语音模型正在飞速发展,为各行各业的通信和自动化带来了突破性进展。MattVidPro 最近的一份分析报告重点关注了该领域的一些领军企业,包括 OpenAI、Google、XA…
-
使用 Amazon Nova Sonic 和 WebRTC 构建实时语音流应用程序
构建具备实时语音交互功能的端到端直播应用面临诸多挑战:网络带宽限制会导致对时间要求严格的应用出现高延迟和质量下降;语言障碍限制了多语言语音通信中有效的人机交互;可扩展性和弹性需要在…
-
XR 游戏的下一个前沿:像现实世界一样动态的虚拟世界
XR游戏的下一个突破并非仅仅来自更强大的硬件,而是来自能够以人类感知速度运行的新一代多媒体技术和网络。随着沉浸式体验越来越接近真实,真正的区别不再在于像素、处理能力或外形尺寸,而在…
-
音频编解码器市场预计到2033年将达到120亿美元,年复合增长率达6.4%
随着智能手机、无线设备、联网汽车、流媒体平台和电信基础设施等渠道的数字音频消费加速增长,全球音频编解码器市场正持续扩张。Persistence Market Research 预测…
-
音视频 iOS 面试题 | 音视频面试题集锦 55 期
本文分享来自“关键帧Keyframe”的音视频面试题集锦第 55 期——音视频 iOS 面试题相关内容。 1、全链路“零拷贝”渲染架构设计 题目:在实时滤镜处理中,从 A…
-
SRT 与 MOQT:低延迟视频传输对比
当开发者评估低延迟视频传输方案时,关于 SRT 与 MOQT 的比较问题经常被提及。本文将为你介绍SRT 与 MOQT 两者的区别。若你希望快速了解要点,请阅读“关键要点”部分。若…
-
uniapp接入直播功能的完整方案与实战指南
随着电商带货、在线教育、秀场社交等业务爆发式增长,直播已经从”锦上添花”变成”业务刚需”。对前端团队来说,用 uniapp 一套代码…
-
OpenAI 在 Realtime API 中发布了三个实时音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper
OpenAI 通过其 Realtime API 发布了三个全新的音频模型,分别针对实时语音应用中的不同功能:GPT-Realtime-2 用于具备推理能力的语音代理,GPT-Rea…
-
对 OpenSIPS 4.0 进行性能分析
运营生产系统的一个关键方面在于能够了解 OpenSIPS 的运行状况、其行为背后的原因以及其性能表现。 当然,你希望在 OpenSIPS 持续处理生产流量的同时完成这些工作,确保不…
-
Vulkan SC SDK 发布:面向 Vulkan 安全关键型开发的集成工具链
开发人员现在能够比以往更快地上手使用 Vulkan® SC,构建安全关键型应用程序。全新的 Vulkan SC SDK 提供了一种更简便的方式来安装和使用一套全面的工具和实用程序,…
-
ZEGO即时通讯SDK 2.29 版本发布,新增自动定位未读消息和优先返回本地历史消息等功能
2026年4月29日,ZEGO即时通讯SDK(ZIM) 2.29 版本发布,新增自动定位未读消息和优先返回本地历史消息功能,以及改进优化了用户自定义状态功能和黑名单功能。 新增功能…
-
面向电商直播场景的全模态大模型推理加速方案
本文主要介绍了面向电商直播场景的全模态理解大模型 TLiveOmni 在 vLLM 框架下的推理部署与量化优化全过程。文章详细阐述了如何通过自定义插件注册、修复多模态Token交替…
-
《面向移动终端的超高清视频分发格式规范》标准解读
解读我国首部专门针对移动端超高清视频分发领域的行业标准:GY/T 427—2026《面向移动终端的超高清视频分发格式规范》。
-
OpenMOSS发布MOSS-Audio:一个用于语音、声音、音乐和时间感知音频推理的开源基础模型
理解音频片段的内容其实是一个难度极高的问题。转录语音只是其中一部分。一个真正强大的系统还需要识别说话者是谁,检测其情绪状态,解读背景声音,分析音乐内容,并回答诸如“说话者在2分钟时…
-
使用 Socket.IO 在 Android 上构建可用于生产环境的实时聊天系统
本文分享在构建聊天系统过程中总结出的架构模式、实现策略以及来之不易的经验教训。带你了解那些关键决策和实用的代码模式,这些正是区分演示版与生产就绪软件的关键所在。
-
为什么灾难恢复对直播至关重要?
座无虚席的体育场屏息以待,数百万观众则手持手机在家中守候,等待比赛开球。那一刻,大家的期待很简单:直播能顺利进行。一旦直播出现故障,哪怕只是短暂的,后果立竿见影。观众纷纷流失,社交…