技术文章
-
webrtc如何进行后台录音
本文介绍:ogg格式详解;ogg的mux和demux的开源:推荐一个非常独立,移植性强的C++开源;
webrtc的录像怎么做(支持H264/H265/Vp8/Vp9/AV1编码)。 -
人工智能语音合成:为虚拟形象创建逼真的数字声音
虚拟形象已不再只是屏幕上的动画角色,它们是我们的代表、助手,有时甚至是同伴。从视频游戏和客户支持机器人到虚拟影响者和元宇宙人物,这些虚拟形象都应以自然而令人信服的方式与用户互动。提…
-
RFC 9725-WebRTC-HTTP接入协议(WHIP)正式成为RFC规范
WebRTC-HTTP接入协议(WHIP)正式成为RFC标准!这是基于WebRTC广播技术的重要里程碑事件。 WebRTC-HTTP Ingestion Protoco…
-
OGG 与 MP3 有什么区别?哪种音频格式更好
本文将探讨数字音频格式的世界,比较 OGG 和 MP3。我们将讨论 OGG 和 MP3 的主要区别,包括音质、文件大小和兼容性等。 什么是 OGG? OGG 是一种免费的开源比特流…
-
TokenBridge:弥合可视化生成中连续和离散token表示法之间的差距
自回归视觉生成模型已成为一种突破性的图像合成方法,其灵感来自语言模型 token 预测机制。这些创新模型利用图像标记器将视觉内容转换为离散或连续 token。该方法促进了灵活的多模…
-
微帧WZVQA:极致还原人眼感知,精准评估视频画质
随着移动互联网的不断发展以及智能手机的普及,短视频已逐步取代图片和文字,跻身主流媒体形式的前列。短视频平台的兴起,让数十亿用户可以制作,分享并接收彼此的信息,为人们开辟了一条全新的…
-
Datoviz:基于 Vulkan 的超高速、高性能 GPU 科学可视化库
Datoviz 是一个跨平台、开源的高性能 GPU 科学数据可视化库,专为大规模数据集的交互式探索而设计。它采用 C/C++ 编写,基于 Khronos Vulkan® 图形 AP…
-
开发实时消息系统的挑战和解决方案
社交媒体网络、服务市场和在线商店都在很大程度上依赖于实时消息传递,即时通信对于平台至关重要。实时互动加快了增长速度,促进了用户参与,因此消息传递功能对于任何企业在线成功都至关重要。…
-
AAC 与 FLAC 音频编解码器的区别
当数字音频数据必须经过压缩才能存储和传输时,音频编解码器就派上用场了。AAC 是 iTunes 和 Apple Music 的默认编解码器,常用于流媒体音频。FLAC 则是一种无损…
-
比特率与分辨率有什么区别(比特率与分辨率的关系)
有多种因素会影响视频流的质量,包括带宽、帧速率、文件大小、比特率、视频编解码器和分辨率。因此,在开始您的流媒体之旅之前,了解这些技术方面以及它们如何影响观看体验至关重要。 比特率和…
-
如何防止视频会议出现音频和视频延迟
从商务合作到社交互动,视频会议现已成为我们日常生活的重要组成部分。然而,在这些会议中,最令人沮丧的莫过于音频和视频的延迟。想象一下:你正在介绍一个重要的想法,而音频却出现了延迟,或…
-
从8kHz到48kHz:音频带宽扩展算法的演进
本文介绍使用音频带宽扩展(Audio Bandwidth Extension, ABE)来改善语音质量。带宽扩展旨在估计缺失的高频内容,换句话说,即提高语音信号的分辨率,从 4-8kHz 扩展到 16kHz。
-
MCP协议详解:一文读懂跨时代的模型上下文协议
本文主要介绍了 Anthropic 推出的开源协议 MCP(Model Context Protocol,模型上下文协议),能让你快速上手该协议,实现大型语言模型与外部数据源和工具…
-
OpenSIPS 路由逻辑故障排除
OpenSIPS 的大脑是它的脚本,其中包含路由逻辑。为了反映您的自定义路由逻辑(取决于您实施的 SIP 服务),脚本也是自定义的。也就是说,你需要构建它。 作为创建脚本的一部分,…
-
2025 B站春晚直播——极速流式直播转点播在春晚项目中的实践
项目背景 2025年春晚是公司(B站)的年度大型直播活动,在常规的直播之外,直播结束之后转出点播稿件的耗时,也是一项重要的竞争指标。根据运营团队同步的信息,一些竞品可以在10分钟之…
-
迈向实用的实时神经视频压缩 | CVPR 2025
本文介绍了一种实用的实时神经视频编解码器(NVC),旨在提供高压缩比、低延迟和广泛的通用性。在实际应用中,NVC的编码速度取决于计算成本和非计算操作成本,虽然大多数高效的NVC优先…
-
什么是AI陪伴?如何低成本、高效率实现AI陪伴
a16z 每两年发布一次的全球 AI 产品 Top 100 榜单中,一年前只有 2 款 AI 陪伴类应用上榜,但截至今年 3 月,已有 8 款 AI 陪伴类应用进入前 50 名,最…
-
将 Microsoft SignalR 与 React 和 ASP.NET 后端集成以实现实时通信
实时通信对于现代 Web 应用程序至关重要,尤其是在多人游戏、协作工具和实时通知中。在本文中,我们将探讨如何将 Microsoft SignalR 与 React 前端和 ASP….
-
Kyutai 发布 MoshiVis:可实现图像的自然、实时语音交互的开源实时语音模型
近年来,人工智能取得了长足进步,但将实时语音交互与视觉内容相结合仍然是一项复杂的挑战。传统系统通常依靠单独的组件进行语音活动检测、语音识别、文本对话和文本转语音合成。这种分段方法可…
-
游戏化流媒体的隐藏障碍:扩展挑战与解决方案
本文将探讨扩展游戏化流媒体平台所面临的挑战。从管理复杂的数据基础设施、满足合规标准到平衡用户体验和运营成本,平台必须克服重大的技术、财务和监管障碍。 游戏化流媒体的潜在挑战 游戏化…