技术文章
-
VideoChat-Flash:针对长文本视频建模的分层压缩技术,可在计算量减少 100 倍的情况下处理长文本视频
多模态大型语言模型最重要、最先进的功能之一是长上下文视频建模,它允许模型处理长达数小时的电影、纪录片和直播。然而,尽管 LLM 在视频理解(包括字幕生成和问题解答)方面取得了值得称…
-
鸿蒙(HarmonyOS)即时通讯 SDK 发布,助力开发适用于鸿蒙OS的实时通信互动 App
近日,即构 HarmonyOS 即时通讯SDK 发布,对齐 iOS/Android/macOS/Windows 等平台的 2.19.0 版本,支持用户管理、房间管理、群组管理、消息…
-
通过适当的路由选择,最大限度地减少抖动、延迟和其他统一通信问题
路由是网络运营的重要组成部分,正确使用路由对于任何企业网络都至关重要。 在网络环境中,路由是数据包在从一个节点传输到另一个节点时被定向到最终目的地的过程。路由设计的许多方面都会影响…
-
Kyutai Labs 发布 Helium-1 预览版:具有 2B 参数的轻量级语言模型,针对边缘和移动设备
边缘和移动设备对 AI 模型的依赖日益增加,凸显了重大挑战。平衡计算效率、模型大小和多语言能力仍然是一个持续的障碍。传统的大型语言模型(LLM) 虽然功能强大,但通常需要大量资源,…
-
优化慢速网络上的 WebRTC 性能:网络层面的关键注意事项
无论您是在构建 VoIP 应用程序、视频会议平台还是任何实时通信解决方案,确保在网络速度缓慢或不可靠的环境中实现最佳性能都是一项重大挑战。移动网络和卫星通信尤其如此,延迟、数据包丢…
-
xLSTM-SENet:重新定义单通道语音增强
语音处理系统通常难以在嘈杂的环境中提供清晰的音频。这一挑战影响了助听器、自动语音识别 (ASR) 和说话人验证等应用。传统的单通道语音增强 (SE) 系统使用 LSTM、CNN 和…
-
MinMo:约 8B 参数的多模态大型语言模型,实现无缝语音交互
大型语言和多模态语音文本模型的进步为无缝、实时、自然和类人语音交互奠定了基础。要实现这一点,系统需要处理语音内容、情绪语调和音频提示,同时给出准确而连贯的响应。然而,在克服语音和文…
-
人工智能和音频:技术进入广播声景的影响
人工智能 (AI) 已在专业音频领域占有重要地位。它正在自动化和简化诸如编辑、混音、母带制作以及越来越多的音乐创作和生成等任务。它使制作人和工程师能够更快、更高效地工作,并提供新的…
-
使用 Kafka 构建基于 WebSocket 的聊天服务器
作为一名对 Kafka 生态系统感兴趣的开发人员,尝试将 Kafka 与其他技术相结合总是非常有趣的。本文将演示如何结合 WebSocket 和 Kafka 来构建一个简单的聊天服…
-
OpenBMB发布MiniCPM-o 2.6:一种灵活的多模态模型,可理解视觉、语音和语言并在边缘设备上运行
OpenBMB 发布 MiniCPM-o 2.6 ,该模型提供全面的多模式功能,支持视觉、语音和语言处理,同时可在智能手机、平板电脑和 iPad 等边缘设备上高效运行。
-
Meta AI 推出 CLUE:旨在解决传统图像安全系统缺陷的 AI 框架
数字平台的快速发展使图像安全问题成为关注焦点。从露骨的内容到暴力的描述,有害图像给内容审核带来了巨大挑战。人工智能生成内容(AIGC)的激增加剧了这些挑战,因为先进的图像生成模型可…
-
如何在 Kubernetes 上部署 Janus WebRTC 服务器
本文分享如何在 Kubernetes 上部署 Janus WebRTC 服务器。无论您是 Kubernetes 爱好者还是 Janus 专家(或两者都不是),本指南都将逐步指导您完…
-
Sa2VA:通过 SAM-2 和 LLaVA 集成实现密集基础视频和图像理解的统一 AI 框架
多模态大型语言模型(MLLM) 彻底改变了各种图像和视频相关任务,包括视觉问答、叙事生成和交互式编辑。该领域的一个关键挑战是实现细粒度的视频内容理解,这涉及像素级分割、使用语言描述…
-
发展和提升:标准在向更多受众推广沉浸式视频中的作用
InterDigital 视频实验室元视频组主任兼负责人 Philippe Guillotel 评论了标准在为触觉技术和沉浸式视频提供基础方面的关键性。 随着我们的沟通和娱乐模式不…
-
FFmpeg解码出来的frame data可以修改吗?
以下内容来自公众号“ Fun With FFmpeg”的分享。 有朋友问:“ffmpeg的decoder解码出来的frame是不是不能直接修改data的内容?” 提出此问,说明两件…
-
ZEGO即时通讯SDK 2.19.0 版本发布,新增组合消息、图片格式等功能
1月6日,ZEGO即时通讯SDK(ZIM)发布 2.19.0 版本,新增组合消息、图片消息格式、图片宽高信息等功能,并改进优化了部分接口。 新增功能 新增组合消息类型,支持在一条消…
-
技术焦点:云端顶级体育赛事制作常态化
云计算使体育节目制作能够以更具创造性和更高效的方式访问内容并与合作伙伴协作。几年前,完全基于云的制作还不被认为是高端体育节目制作的一个重要候选方案,但现在,云技术几乎没有不涉及的工…
-
音视频面试题集锦第 40 期:WebRTC 方向
分享来自音视频技术社群关键帧的音视频开发圈——音视频面试题集锦第 40 期:WebRTC 方向相关内容。 下面是几道 WebRTC 技术相关的面试题: 1、请详细解释 WebRTC…
-
学习 Socket.IO 实现实时数据共享:聊天应用程序示例
Socket.IO 是一个功能强大的库,用于在 Web 客户端和服务器之间进行实时双向通信。它通常用于构建聊天应用、游戏平台和协作工具等应用程序。本文将介绍如何使用 Socket….
-
HBI V2:一种灵活的 AI 框架,可通过多元合作游戏提升视频语言学习
视频语言表征学习是多模态表征学习的一个重要子领域,它专注于视频与其相关文本描述之间的关系。它在许多领域都有应用,从问答和文本检索到摘要。在这方面,对比学习已经成为一种强大的技术,它…