技术文章
-
音视频面试题集锦第 31 期 | 面试官常用的基础问题
分享来自音视频技术社群关键帧的音视频开发圈的音视频面试题集锦第 39 期。 下面是一名音视频技术面试官在面试中常用的一些开场基础面试题,包含音视频基础概念、编解码、传输协议、性能优…
-
Moonshine:一种快速、准确、轻量级的语音转文本模型,用于边缘设备转录和语音命令处理
语音识别技术已成为各种现代应用中的关键,尤其是实时转录和语音激活命令系统。它对于听力障碍人士的辅助工具、演示期间的实时字幕以及智能设备中的语音控制至关重要。这些应用需要即时、精确的…
-
Google DeepMind 开源 SynthID 用于 AI 内容水印
人工智能生成的内容发展迅速,既带来了机遇,也带来了挑战。随着生成式人工智能工具成为主流,人类和人工智能生成的文本的混合引发了人们对真实性、作者身份和错误信息的担忧。区分人类创作的内…
-
如何在 Web 应用中基于 WebRTC 实现视频会议
近年来,实时通信(RTC)已成为现代 Web 应用程序的一项基本功能,可直接通过浏览器实现视频通话、语音通话和屏幕共享等功能。WebRTC 就是实现这些功能的技术。 WebRTC …
-
在 Kubernetes 上搭建直播平台的分步指南
在当今的数字世界中,流媒体直播平台越来越受欢迎,而具有协调和扩展服务能力的 Kubernetes 是托管此类平台的绝佳选择。本文将指导您使用 Nginx、FFmpeg 和流媒体服务…
-
基于跨模态对比表征学习的鲁棒视频问答 | 杨勋,曾建明,汪萌等
视频问答是一个具有挑战性且很重要的多媒体理解任务,其需要对底层的视觉内容和高层的文本语义进行综合理解,进而做出正确的决策。
-
CMU 研究人员发布 Pangea-7B:适用于 39 种语言的完全开放多模态大型语言模型 MLLM
尽管多模态大型语言模型 (MLLM) 近期取得了进展,但这些模型的开发主要围绕英语和以西方为中心的数据集。这种侧重导致语言和文化代表性存在巨大差距,全球许多语言和文化背景仍未得到充…
-
IBM 面向 AI 企业发布 Granite 3.0 2B 和 8B AI 模型
IBM 正式发布了 Granite 3.0 AI 模型,这是一系列全新的基础模型,旨在为企业带来先进的 AI 功能。Granite 3.0 基于 IBM 的 WatsonX AI 和数据平台构建,旨在让企业能够轻松地将 AI 集成到其工作流程中。
-
开源上新|FunASR多语言离线文件转写软件包
FunASR是由通义实验室开源的语音识别框架,集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署,吸引了众多开发者参与体验和开发。 为了支持用户便捷高效的集成语音…
-
什么是企业通信解决方案?如何选择企业通信解决方案
除了过去几年科技行业明显可见的人工智能(AI)热潮之外,企业通信解决方案的实施也是近来的另一个趋势。随着企业对远程工作的重视,企业通信和协作解决方案如今非常受欢迎。 不过,在决定采…
-
如何在 Raspberry Pi 上托管 Socket.IO 服务器
最近,我正在使用 React 和 Node.js 开发一个聊天应用程序,该应用程序使用 Socket.io 进行实时消息传输。在开发过程中,我面临着如何为 Socket.IO 找到…
-
Meta AI 发布 Meta Spirit LM:混合文本和语音的开源多模态语言模型
Meta AI 最近发布了 Meta Spirit LM,这是一种创新的开源多模态语言模型,能够自由混合文本和语音。Meta Spirit LM 通过在单词级别集成文本和语音来解决现有 TTS 系统的局限性,使模型能够更无缝地跨模态。
-
Open Collective 发布 Magnum/v4 系列型号,参数从 9B 到 123B
Open Collective最近推出了 Magnum/v4 系列,其中包括 9B、12B、22B、27B、72B 和 123B 参数的模型。它旨在为大型语言模型创建新标准,供研究人员和开发人员免费使用。
-
Asterisk呼叫器示例支持windows, TTS和Node.js,Zabbix
Asterisk caller是一个使用Node.js、Express和Windows内置TTS进行简单Asterisk呼叫流程集成的示例。用户可以使用它向Asterisk请求呼叫…
-
PyTorch 2.5 发布:提高机器学习效率和可扩展性
PyTorch 社区一直走在推动机器学习框架发展的前沿,以满足全球研究人员、数据科学家和 AI 工程师日益增长的需求。借助最新的 PyTorch 2.5 版本,该团队旨在解决 ML…
-
ZEGO即时通讯SDK 2.18.0 版本发布
近日,ZEGO即时通讯SDK(ZIM)发布 2.18.0 版本,新增群备注、用户在线状态、获取房间用户头像、切换房间等功能,并改进优化了部分接口。 以Android版本为例: 新增…
-
AVS感知无损压缩团体标准正式发布
2024年10月14日,中关村视听产业技术创新联盟正式批准发布团体标准《信息技术 感知无损压缩 第1部分:图像》,标准号:T/AI 129.1-2024。 AVS感知无损压缩(Pe…
-
Libaom v3.10.0 发布,具有更好的 SVC 支持和性能优化
今年早些时候,开放媒体联盟(aomedia)编解码器工作组分享了围绕 libaom V3.9.0 发布的更新,其中包括一系列新功能,如支持不同的可扩展视频编码(SVC)丢帧模式和新…
-
AI 如何改进 WebRTC 视频会议应用
本文探讨 AI 改变 WebRTC 视频会议应用的精彩方式,从媒体处理和传输到提高生产力的功能以及创新的语音和视频机器人。
-
Nvidia AI 悄然推出 Nemotron 70B:在多项基准测试中超越 OpenAI 的 GPT-4
当前的生成式 AI 模型面临着与稳健性、准确性、效率、成本以及处理细微的类人反应相关的挑战。我们需要更具可扩展性和效率的解决方案,这些解决方案既能提供精确的输出,又能适用于各种 A…