技术文章

技术文章

VoIP DDoS：VoIP 网络安全策略

全面了解 VoIP 中的 DDoS 攻击是什么，以及如何通过成熟的策略和主动防御保护您的企业 VoIP 网络免受 DDoS 攻击，确保业务通信不中断。想象一下，当您最需要 VoI…

RTC观主
2025年2月25日
即时通讯

使用 Scoket.io、React、NestJS 和 Redis Cluster 构建可扩展的实时聊天应用程序

本文将引导您使用现代技术构建一个可扩展的实时聊天应用程序。我们将重点讨论如何创建一个既能处理数千个并发用户，又能保持实时性能的系统。架构概述聊天应用程序采用可扩展架构，包含以下…

IM开发老王
2025年2月24日
技术文章

Meta 工程师分享 AV1 集成到 Android 生态系统的问题，挑战和解决方案

大型内容所有者采用 AV1 编解码器的过程漫长而复杂，Meta 高级媒体软件工程师 David Ronca（曾在 Netflix 开发编码解决方案长达 12 年）对此深有体会。在与…

编解码
2025年2月24日
技术文章

人工智能正在快速实现音频内容的自动化生成

人工智能正在进一步涉足音频内容生成领域，并极大地改变了其发展。谷歌、Meta 和微软等知名供应商以及 Revoicer 和 WellSaid 等初创公司正在利用生成式人工智能，提供…

音频技术
2025年2月24日
实时音视频

音视频消费侧各组件框架

本文分享音视频消费侧各组件框架，包括播放组件层、播放内核层和底层能力层。另分析音视频下载、音视频解封装、音视频解码和音视频渲染等模块内容。

RTC观主
2025年2月24日
技术文章

构建法律 AI 聊天机器人：使用 bigscience/T0pp LLM、开源 NLP 模型、Streamlit、PyTorch 和 Hugging Face Transformers 的分步指南

在本教程中，我们将使用开源工具构建一个高效的法律 AI 聊天机器人。它提供了使用bigscience/T0pp LLM、Hugging Face Transformers 和 Py…

AIGC
2025年2月24日
技术文章

FreeSWITCH 中 mod_limit 的作用讨论

limit到底是干什么的？如何一个稳定的系统需要多种极限的设计来保证系统的稳定运行。下面，我们来讨论一个FreeSWITCH环境下大家不经常关注，但是必须注意机制设置模块limit…

RTC观主
2025年2月24日
技术文章

用meson加速Windows系统FFmpeg构建

如果因各种原因只能用Windows的，比如做Windows的硬件解码和播放，meson构建ffmpeg不失为一个提升开发效率的选择。

FFmpeg笔记
2025年2月24日
实时音视频

直播推流组件架构、重点需求技术方案和常见问题解析

本文分享来自公众号——关键帧Keyframe的分享。本文中，我们来介绍在实际工作中，我们实现的直播推流组件架构、重点需求技术方案和常见问题解析。其中，重点需求技术方案包括： 1…

RTC观主
2025年2月21日
技术文章

Google DeepMind 发布 PaliGemma 2 Mix：针对多种视觉语言任务进行微调的新型指令视觉语言模型

视觉语言模型 (VLM) 长期以来一直有望弥合图像理解和自然语言处理之间的差距。然而，实际挑战依然存在。传统的 VLM 通常会在图像分辨率的变化、上下文细微差别以及将视觉数据转换为…

AIGC
2025年2月21日
技术文章

FreeSWITCH环境中核心模块mod_dptools 的工作机制,配置和优化讨论分析

FreeSWITCH环境中，有很多模块是经常使用的重要模块，需要开发人员深入掌握这些模块。 mod_dptools 模块就是主要模块之一。我们针对此模块做更多解释，希望帮助读者对业…

RTC观主
2025年2月21日
技术文章

FreeSWITCH企业电话系统典型远程注册NAT场景架构分析与优化建议

NAT问题是非常常见的企业电话系统中远程用户使用问题。在FreeSWITCH环境中，很多用户基本上没有SBC的边界控制能力，只能手搓，使用默认环境来配置。但是，配置后，随着用户数量…

RTC观主
2025年2月20日
实时音视频

直播间互动框架性能优化与稳定性实践

导读：直播间互动体验框架技术实践，揭秘性能与稳定性优化之道，快来探索吧！在百度直播间歌会红包等活动中，我们创新性地将红包互动与高质内容深度融合，通过技术架构升级与系统性优化，打造了…

大厂Animal
2025年2月19日
技术文章

DFSQ：用于超分辨率网络的分布灵活的子集量化方法 | 厦门大学纪荣嵘团队

研究意义图像超分辨率（SR）技术旨在从低分辨率图像中恢复高分辨率图像，广泛应用于医学影像、视频增强和卫星图像处理等领域。然而，现有的SR模型通常依赖庞大的网络规模和计算资源，难以…

图像处理
2025年2月19日
技术文章

One-D-Piece：图像Tokenizer满足质量可控压缩

当前的图像标记化方法需要大量标记来捕获图像中包含的信息。尽管图像的信息量不同，但大多数图像分词器仅支持固定长度的分词化，导致分词分配效率低下。在本研究中，本文介绍了 One-D-P…

图像处理
2025年2月19日
技术文章

增强扩散模型：稀疏性和正则化在高效生成 AI 中的作用

扩散模型已成为一个重要的生成式 AI 框架，在图像合成、视频生成、文本到图像转换和分子设计等任务中表现出色。这些模型通过两个随机过程发挥作用：一个是逐渐向数据添加噪声并将其转换为高…

AIGC
2025年2月19日
实时音视频

基于流媒体点直播业务的算法赋能探索

本文从B站流媒体点直播的日常业务出发，结合具体业务实例详细介绍如何利用算法赋能业务。作者丨Fiver来源 | 多媒体哔哩哔哩技术背景概述早在20世纪人们就开始了人工智能的相…

大厂Animal
2025年2月18日
技术文章

音频流服务的系统设计

音频流应用程序的系统设计在如何处理特殊业务需求方面具有独特性。通常，音频流需要在有限的网络通信通道带宽内传输大量数据。一个成功的音频流媒体服务必须能够处理来自不同地理位置的数百万…

音频技术
2025年2月18日
WebRTC

Swell v1.19.0 发布，更新沙盒、安全性并内置功能齐全的 WebRTC 套件，并改进 UI/UX

在当今快节奏的开发环境中，强大的 API 测试至关重要。工程师们依靠这些工具在开发周期的早期验证功能，而不依赖于完全实现的前端。Swell 是一个尖端的 API 测试和开发平台，旨…

RTC观主
2025年2月18日
技术文章

Nous Research 发布 DeepHermes 3 预览版：基于 Llama-3-8B 的模型，结合深度推理、高级函数调用和无缝对话智能

近年来，人工智能见证了自然语言处理 (NLP) 的快速发展，但许多现有模型仍在努力平衡直观响应与深度结构化推理。虽然传统的人工智能聊天模型在对话流畅性方面很出色，但在面对需要逐步分…

AIGC
2025年2月18日