技术文章 - 实时互动网第41页

技术文章

从8kHz到48kHz：音频带宽扩展算法的演进

本文介绍使用音频带宽扩展（Audio Bandwidth Extension, ABE）来改善语音质量。带宽扩展旨在估计缺失的高频内容，换句话说，即提高语音信号的分辨率，从 4-8kHz 扩展到 16kHz。

音频技术

2025年3月26日

技术文章

MCP协议详解：一文读懂跨时代的模型上下文协议

本文主要介绍了 Anthropic 推出的开源协议 MCP（Model Context Protocol，模型上下文协议），能让你快速上手该协议，实现大型语言模型与外部数据源和工具…

mazhu

2025年3月26日

技术文章

OpenSIPS 路由逻辑故障排除

OpenSIPS 的大脑是它的脚本，其中包含路由逻辑。为了反映您的自定义路由逻辑（取决于您实施的 SIP 服务），脚本也是自定义的。也就是说，你需要构建它。作为创建脚本的一部分，…

mazhu

2025年3月25日

实时音视频

2025 B站春晚直播——极速流式直播转点播在春晚项目中的实践

项目背景 2025年春晚是公司（B站）的年度大型直播活动，在常规的直播之外，直播结束之后转出点播稿件的耗时，也是一项重要的竞争指标。根据运营团队同步的信息，一些竞品可以在10分钟之…

大厂Animal

2025年3月25日

技术文章

迈向实用的实时神经视频压缩 | CVPR 2025

本文介绍了一种实用的实时神经视频编解码器（NVC），旨在提供高压缩比、低延迟和广泛的通用性。在实际应用中，NVC的编码速度取决于计算成本和非计算操作成本，虽然大多数高效的NVC优先…

编解码

2025年3月25日

技术文章

什么是AI陪伴？如何低成本、高效率实现AI陪伴

a16z 每两年发布一次的全球 AI 产品 Top 100 榜单中，一年前只有 2 款 AI 陪伴类应用上榜，但截至今年 3 月，已有 8 款 AI 陪伴类应用进入前 50 名，最…

ZEGO即构科技

2025年3月24日

即时通讯

将 Microsoft SignalR 与 React 和 ASP.NET 后端集成以实现实时通信

实时通信对于现代 Web 应用程序至关重要，尤其是在多人游戏、协作工具和实时通知中。在本文中，我们将探讨如何将 Microsoft SignalR 与 React 前端和 ASP….

IM开发老王

2025年3月24日

技术文章

Kyutai 发布 MoshiVis：可实现图像的自然、实时语音交互的开源实时语音模型

近年来，人工智能取得了长足进步，但将实时语音交互与视觉内容相结合仍然是一项复杂的挑战。传统系统通常依靠单独的组件进行语音活动检测、语音识别、文本对话和文本转语音合成。这种分段方法可…

AIGC

2025年3月24日

技术文章

游戏化流媒体的隐藏障碍：扩展挑战与解决方案

本文将探讨扩展游戏化流媒体平台所面临的挑战。从管理复杂的数据基础设施、满足合规标准到平衡用户体验和运营成本，平台必须克服重大的技术、财务和监管障碍。游戏化流媒体的潜在挑战游戏化…

假装是大佬

2025年3月21日

实时音视频

IP网络上的语音与视频通信

IP网络（如互联网）具有独特特性，这些特性对实时媒体通信构成了挑战：基本特性性能特征与挑战媒体通信的需求与性能指标实时音视频应用对网络有特殊需求：延迟容忍度应用类型可…

mazhu

2025年3月21日

技术文章

NVIDIA AI 开源 Canary 1B 和 180M Flash：多语言语音识别和翻译模型

在人工智能领域，多语言语音识别和翻译已成为促进全球交流的重要工具。然而，开发能够实时准确地转录和翻译多种语言的模型面临着巨大的挑战。这些挑战包括管理不同的语言细微差别、保持高准确性…

AIGC

2025年3月21日

技术文章

2025 年最值得使用的 10 个 React 框架

构建现代 Web 应用意味着使用高效的工具来简化开发，同时确保性能和可扩展性。React 是前端主流开发平台，因此选择正确的框架可以极大地提高生产力。其中许多框架都提供了附加功能，…

ZEGO即构科技

2025年3月20日

技术文章

解决视频通话无声问题：如何检测基于浏览器的应用程序中的音频路由问题

有没有过这样的经历：在视频通话中，尽管音频效果很好，但对方却听不到你的声音？我在构建基于浏览器的视频 KYC（Know Your Customer）解决方案时就遇到过这样的难题，正…

音频技术

2025年3月20日

技术文章

Kamailio UAC 模块简述

Kamailio 是一款非常强大的 SIP 代理服务器，Kamailio 一般转发 SIP 信令，不主动产生和发送 SIP 信令。但有时您可能希望 Kamailio 向 IPPBX…

mazhu

2025年3月20日

技术文章

Speech-to-Speech 基础模型为无缝多语言互动铺平道路

在 NVIDIA GTC25 上，Gnani.ai 专家公布了语音 AI 领域的突破性进展，重点关注 Speech-to-Speech 基础模型的开发和部署。这种创新方法有望克服传…

AIGC

2025年3月19日

WebRTC

WebRTC 音视频通信中的 RTP 协议

作为一名从事视频流媒体平台开发的软件工程师，学习 WebRTC 对音视频开发工程师具有重要意义，尤其是在实时通信、性能优化以及跨平台等方面。实时传输协议（RTP，Real-tim…

RTC观主

2025年3月19日

技术文章

使用 OpenCV 和 Tesseract-OCR 在 Google Colab 中构建 OCR 应用程序的编码指南

光学字符识别 (OCR) 是一种强大的技术，可将文本图像转换为机器可读的内容。随着数据提取自动化的需求日益增长，OCR 工具已成为许多应用程序的重要组成部分，从数字化文档到从扫描图…

图像处理

2025年3月18日

实时音视频

实时音视频如何助力企业数字化转型

在数字化转型浪潮席卷全球的当下，企业的业务模式正在经历深刻变革。远程办公、在线教育、虚拟医疗等场景的爆发式增长，让实时音视频技术从幕后走向台前，成为企业突破时空限制、提升运营效率的…

ZEGO即构科技

2025年3月17日

技术文章

视频解码器市场技术增长 38.7 亿美元

在高质量视频流、监控系统和广播技术需求不断增长的推动下，全球视频解码器市场正呈现稳步增长态势。视频解码器在将压缩数字视频信号转换成适合显示或进一步处理的格式方面发挥着至关重要的作…

编解码

2025年3月17日

WebRTC

使用 Rust 和 WebSockets 构建 WebRTC 视频聊天应用程序

在本文中，我们将从零开始，使用 Rust 和 WebSockets 创建一个 WebRTC 视频聊天应用程序。在此过程中，我们将解释重要的 WebRTC 概念，并将 Rust 服务…

webrtc学习和实践

2025年3月17日