技术文章

技术文章

IEC 61937-16《符合IEC 60958的非线性PCM编码音频比特流第16部分：AVSA》正式发布

IEC 61937 系列标准是对音频编码格式的非线性 PCM 比特流传输的方法支持，使得其可以在光纤、同轴和 HDMI 等信道上传输使用。该系列标准的制定和维护归口于国际电工委员会…

编解码
2024年12月25日
技术文章

AGUVIS：一种统一的纯视觉框架，可跨平台转变自主 GUI 交互

图形用户界面 (GUI) 在人机交互中起着基础性作用，为用户提供跨 Web、桌面和移动平台完成任务的媒介。该领域的自动化具有变革性，可以大幅提高生产力并实现无缝任务执行而无需人工干…

AIGC
2024年12月25日
WebRTC

webrtc之rtp协议(三): 封装VP8

本文介绍Rtp如何封装vp8遍码，webrtc中，常用编码格式vp8，协议规范在rfc7741中。本文内容: 作者：音视频小话原文：https://mp.weixin.qq.com…

webrtc学习和实践
2024年12月24日
技术文章

NOVA：一种无需矢量量化的新型视频自回归模型

自回归 LLM 是复杂的神经网络，通过顺序预测生成连贯且上下文相关的文本。这些 LLMS 擅长处理大型数据集，并且在翻译、摘要和对话式 AI 方面非常强大。然而，实现高质量的视觉生…

AIGC
2024年12月24日
技术文章

通义3D-Speaker多说话人日志功能

说话人日志任务（Speaker Diarization）是指将音频划分为属于不同说话人的多个段落。其目标是确定音频中有多少个不同的说话人，并且识别出每个说话人在音频中的开始时间和结…

大厂Animal
2024年12月23日
实时音视频

VBR 与 CBR 哪个更适合直播？

在视频流媒体领域，尤其是直播流媒体领域，选择正确的比特率策略对于向观众提供高质量、无缝的内容至关重要。流媒体领域主要有两种编码技术：可变比特率 (VBR) 和恒定比特率 (CBR…

直播技术
2024年12月23日
WebRTC

WebRTC 音视频通话延时问题的分析和解决丨音视频实战经验

关于 WebRTC 视频通话延迟优化的复杂技术问题，我们来梳理一下思路。首先，要理解视频通话中的延迟到底是如何产生的。整个流程中涉及采集、编码、传输、解码、渲染等多个环节，每个环…

RTC观主
2024年12月23日
即时通讯

开源轻量级 IM 框架 MobileIMSDK 的鸿蒙 NEXT 客户端库已发布！

今天，即时通讯网 JackJiang 发布了开源轻量级 IM 框架 MobileIMSDK 的鸿蒙 NEXT 客户端库。 MobileIMSDK – 鸿蒙端是一套基于…

厂商动态
2024年12月20日
技术文章

Google DeepMind 推出“SALT”：一种使用 SLM 高效训练高性能大型语言模型的机器学习方法

大型语言模型 (LLM) 是众多应用的支柱，例如对话代理、自动内容创建和自然语言理解任务。它们的有效性在于它们能够从庞大的数据集中建模和预测复杂的语言模式。然而，由于训练的计算成本…

AIGC
2024年12月20日
实时音视频

AV1 及更多…Jitsi Meet 如何选择视频编解码器？

Jitsi 博客最新的一篇文章表示经过彻底的实验和对实际性能数据的分析，AV1 视频编解码器将很快成为所有 Jitsi 部署中的默认首选编解码器，将其卓越的带宽效率和视频质量带给更…

编解码
2024年12月19日
技术文章

视频质量评估 | 全面综述

视频质量评估（Video Quality Assessment, VQA）旨在以高度符合人类感知的方式预测视频质量。然而，传统基于自然图像或视频统计特性的VQA模型在面对用户生成…

视频技术
2024年12月19日
技术文章

Microsoft AI 推出 SCBench：用于评估大型语言模型中长上下文方法的综合基准

长上下文 LLM 支持从 128K 到 10M 个 token 的扩展上下文窗口，从而支持诸如存储库级代码分析、长文档问答和多镜头上下文学习等高级应用。然而，这些功能在推理过程中面…

AIGC
2024年12月19日
即时通讯

React 和 Python 中的 WebSockets 连接，通过基于令牌的授权进行实时通信

在现代Web应用中，实时通信往往是提供无缝用户体验的关键，尤其是在消息、通知、实时更新等应用中。WebSockets 是一种通过单个长期连接提供全双工通信通道的协议。在本文中，我们…

IM开发老王
2024年12月18日
技术文章

Meta AI 发布 Apollo：用于视频理解的全新 Video-LMM 大型多模态模型系列

虽然多模态模型 (LMM) 在文本和图像任务方面取得了显著进展，但基于视频的模型仍然不够完善。视频本质上很复杂，结合了空间和时间维度，需要更多的计算资源。现有方法通常直接采用基于图…

视频技术
2024年12月18日
技术文章

谷歌发布用于视频生成的 Veo 2 和用于图像创建的 Imagen 3 ：为生成 4K 视频和数分钟长视频设定新标准

视频和图像生成创新正在提高视觉效果的质量，并专注于使 AI 模型对详细提示做出更灵敏的响应。AI 工具通过更准确地再现现实世界的物理和人类运动，为艺术家、电影制作人、企业和创意专业…

AIGC
2024年12月18日
技术文章

FFmpeg的默认值陷阱

前面我们讲过FFmpeg的参数配置系统： avformat avcodec等API都用到了搜索子对象配置的功能。比如使用libx264编码器，你可以使用avcodec公共参数来配置…

FFmpeg笔记
2024年12月18日
技术文章

Nexa AI 发布 OmniAudio-2.6B：用于边缘部署的快速音频语言模型

音频语言模型 (ALM) 在各种应用中发挥着至关重要的作用，从实时转录和翻译到语音控制系统和辅助技术。然而，许多现有解决方案都面临着诸如高延迟、大量计算需求以及对基于云的处理依赖等…

音频技术
2024年12月17日
WebRTC

使用 WebRTC 在 Next.js 应用程序中实现实时协作功能

了解如何在 Next.js 中使用 WebRTC 构建实时协作应用程序。通过实时更新实现无缝交互！为什么要进行实时协作？想象一下，在类似 Google 文档的体验中，多个用户可…

webrtc学习和实践
2024年12月16日
技术文章

InternLM-XComposer2.5-OmniLive：用于长期流式视频和音频交互的综合多模态 AI 系统

AI 系统正在通过实现与动态环境的实时交互来模拟人类认知。从事 AI 工作的研究人员旨在开发无缝集成音频、视频和文本输入等多模态数据的系统。通过模仿人类的感知、推理和记忆，这些系统…

AIGC
2024年12月16日
技术文章

语音生成大模型CosyVoice升级2.0版本 | 开源更新

CosyVoice是阿里巴巴通义实验室语音团队于今年7月份开源的语音生成大模型，依托大模型技术，实现自然流畅的语音生成体验。与传统语音生成技术相比，CosyVoice具有韵律自然、…

大厂Animal
2024年12月16日