技术文章

技术文章

与 FFmpegKit 说再见

FFmpeg 工具包 FFmpegKit 作者 Taner Sener 表示自2025 年 1 月 6 日起，FFmpegKit正式退役，不会再发布任何新版本。以下为全文：做出…

FFmpeg笔记
2025年1月20日
技术文章

构建现代流媒体服务：MCP 架构和技术选择

人工智能代理有可能从根本上改变个人在流媒体平台、软件应用程序、新闻媒体等各种服务中管理订阅的方式。本文章将分享实施支持 MCP（模型上下文协议）的流媒体服务原型的经验，以证明人工…

RTC观主
2025年1月20日
技术文章

VideoChat-Flash：针对长文本视频建模的分层压缩技术，可在计算量减少 100 倍的情况下处理长文本视频

多模态大型语言模型最重要、最先进的功能之一是长上下文视频建模，它允许模型处理长达数小时的电影、纪录片和直播。然而，尽管 LLM 在视频理解（包括字幕生成和问题解答）方面取得了值得称…

AIGC
2025年1月20日
即时通讯

鸿蒙（HarmonyOS）即时通讯 SDK 发布，助力开发适用于鸿蒙OS的实时通信互动 App

近日，即构 HarmonyOS 即时通讯SDK 发布，对齐 iOS/Android/macOS/Windows 等平台的 2.19.0 版本，支持用户管理、房间管理、群组管理、消息…

ZEGO即构科技
2025年1月17日
技术文章

通过适当的路由选择，最大限度地减少抖动、延迟和其他统一通信问题

路由是网络运营的重要组成部分，正确使用路由对于任何企业网络都至关重要。在网络环境中，路由是数据包在从一个节点传输到另一个节点时被定向到最终目的地的过程。路由设计的许多方面都会影响…

RTC观主
2025年1月17日
技术文章

Kyutai Labs 发布 Helium-1 预览版：具有 2B 参数的轻量级语言模型，针对边缘和移动设备

边缘和移动设备对 AI 模型的依赖日益增加，凸显了重大挑战。平衡计算效率、模型大小和多语言能力仍然是一个持续的障碍。传统的大型语言模型(LLM) 虽然功能强大，但通常需要大量资源，…

AIGC
2025年1月17日
WebRTC

优化慢速网络上的 WebRTC 性能：网络层面的关键注意事项

无论您是在构建 VoIP 应用程序、视频会议平台还是任何实时通信解决方案，确保在网络速度缓慢或不可靠的环境中实现最佳性能都是一项重大挑战。移动网络和卫星通信尤其如此，延迟、数据包丢…

webrtc学习和实践
2025年1月16日
技术文章

xLSTM-SENet：重新定义单通道语音增强

语音处理系统通常难以在嘈杂的环境中提供清晰的音频。这一挑战影响了助听器、自动语音识别 (ASR) 和说话人验证等应用。传统的单通道语音增强 (SE) 系统使用 LSTM、CNN 和…

音频技术
2025年1月16日
技术文章

MinMo：约 8B 参数的多模态大型语言模型，实现无缝语音交互

大型语言和多模态语音文本模型的进步为无缝、实时、自然和类人语音交互奠定了基础。要实现这一点，系统需要处理语音内容、情绪语调和音频提示，同时给出准确而连贯的响应。然而，在克服语音和文…

AIGC
2025年1月16日
技术文章

人工智能和音频：技术进入广播声景的影响

人工智能 (AI) 已在专业音频领域占有重要地位。它正在自动化和简化诸如编辑、混音、母带制作以及越来越多的音乐创作和生成等任务。它使制作人和工程师能够更快、更高效地工作，并提供新的…

音频技术
2025年1月16日
即时通讯

使用 Kafka 构建基于 WebSocket 的聊天服务器

作为一名对 Kafka 生态系统感兴趣的开发人员，尝试将 Kafka 与其他技术相结合总是非常有趣的。本文将演示如何结合 WebSocket 和 Kafka 来构建一个简单的聊天服…

IM开发老王
2025年1月15日
技术文章

OpenBMB发布MiniCPM-o 2.6：一种灵活的多模态模型，可理解视觉、语音和语言并在边缘设备上运行

OpenBMB 发布 MiniCPM-o 2.6 ，该模型提供全面的多模式功能，支持视觉、语音和语言处理，同时可在智能手机、平板电脑和 iPad 等边缘设备上高效运行。

AIGC
2025年1月15日
技术文章

Meta AI 推出 CLUE：旨在解决传统图像安全系统缺陷的 AI 框架

数字平台的快速发展使图像安全问题成为关注焦点。从露骨的内容到暴力的描述，有害图像给内容审核带来了巨大挑战。人工智能生成内容（AIGC）的激增加剧了这些挑战，因为先进的图像生成模型可…

图像处理
2025年1月14日
WebRTC

如何在 Kubernetes 上部署 Janus WebRTC 服务器

本文分享如何在 Kubernetes 上部署 Janus WebRTC 服务器。无论您是 Kubernetes 爱好者还是 Janus 专家（或两者都不是），本指南都将逐步指导您完…

webrtc学习和实践
2025年1月13日
技术文章

Sa2VA：通过 SAM-2 和 LLaVA 集成实现密集基础视频和图像理解的统一 AI 框架

多模态大型语言模型(MLLM) 彻底改变了各种图像和视频相关任务，包括视觉问答、叙事生成和交互式编辑。该领域的一个关键挑战是实现细粒度的视频内容理解，这涉及像素级分割、使用语言描述…

AIGC
2025年1月13日
技术文章

发展和提升：标准在向更多受众推广沉浸式视频中的作用

InterDigital 视频实验室元视频组主任兼负责人 Philippe Guillotel 评论了标准在为触觉技术和沉浸式视频提供基础方面的关键性。随着我们的沟通和娱乐模式不…

视频技术
2025年1月13日
技术文章

FFmpeg解码出来的frame data可以修改吗？

以下内容来自公众号“ Fun With FFmpeg”的分享。有朋友问：“ffmpeg的decoder解码出来的frame是不是不能直接修改data的内容？” 提出此问，说明两件…

FFmpeg笔记
2025年1月10日
即时通讯

ZEGO即时通讯SDK 2.19.0 版本发布，新增组合消息、图片格式等功能

1月6日，ZEGO即时通讯SDK（ZIM）发布 2.19.0 版本，新增组合消息、图片消息格式、图片宽高信息等功能，并改进优化了部分接口。新增功能新增组合消息类型，支持在一条消…

ZEGO即构科技
2025年1月9日
技术文章

技术焦点：云端顶级体育赛事制作常态化

云计算使体育节目制作能够以更具创造性和更高效的方式访问内容并与合作伙伴协作。几年前，完全基于云的制作还不被认为是高端体育节目制作的一个重要候选方案，但现在，云技术几乎没有不涉及的工…

直播技术
2025年1月9日
实时音视频

音视频面试题集锦第 40 期：WebRTC 方向

分享来自音视频技术社群关键帧的音视频开发圈——音视频面试题集锦第 40 期：WebRTC 方向相关内容。下面是几道 WebRTC 技术相关的面试题： 1、请详细解释 WebRTC…

RTC观主
2025年1月9日