技术文章
-
LOONG:一款基于自回归 LLM 的新型视频生成器,可生成长达一分钟的视频
利用自回归大语言模型(LLM) 生成视频是一个新兴领域,发展前景广阔。虽然 LLM 在自然语言处理中生成连贯且冗长的标记序列方面表现出色,但它们在视频生成中的应用仅限于几秒钟的短视…
-
如何在不降低质量的情况下缩小视频尺寸?
随着互联网的发展,视频流媒体服务越来越受欢迎。通过提供简短、生动的视频概述您的操作,这是推销产品或服务的好方法。但当您导出最终视频时,却发现视频文件太大,无法上传到网站或直播流媒体…
-
音视频面试题集锦第 30 期
分享来自音视频技术社群关键帧的音视频开发圈的第 30 期面试题精选: 1、为什么自制的动态图片导出到相册无法识别成动态图片? Live Photo 需要有一个特殊的 Metadat…
-
微软发布 VoiceRAG:使用 GPT-4 和 Azure AI 搜索的高级语音界面,用于实时对话应用程序
微软推出了VoiceRAG,这是一款基于语音的检索增强生成 (RAG) 系统,它利用新的 Azure OpenAI GPT-4O-realtime-preview 模型将音频输入和…
-
VCISR:在盲图像超分中考虑视频压缩带来的伪影 | WACV 2024
在盲单图像超分辨率 (SISR) 任务中,现有工作已成功恢复图像级未知退化。然而,当单个视频帧成为输入时,这些工作通常无法解决由视频压缩引起的退化,例如蚊式噪声、振铃、块状和阶梯噪…
-
Ovis 1.6:一种开源多模态大型语言模型 (MLLM) 架构,旨在结构化地对齐视觉和文本嵌入
人工智能 (AI) 正在迅速变革,尤其是在多模态学习方面。多模态模型旨在结合视觉和文本信息,使机器能够理解和生成需要来自两个来源的输入的内容。此功能对于图像字幕、视觉问答和内容创建…
-
ICIP 2024 | 一种新的多人人物交互数据集与NVS基准
IEEE ICIP 是历史悠久的图像处理技术盛会。本工作是上海交通大学图像所 MediaLab 在 ICIP 2024的技术成果介绍。近期,在人物交互场景研究中,新视角合成(NVS…
-
分布式在线多步Frank-Wolfe凸优化的动态遗憾增强 | 张文韬,施阳,张保勇等
针对多智能体分布式在线约束优化问题,本文在时变多智能体网络上,通过结合一种多步迭代技术,提出一种分布式在线多步迭代Frank-Wolfe算法。
-
AI 如何解决“鸡尾酒会问题”及其对未来音频技术的影响
本文我们将探讨 AI 在解决鸡尾酒会问题方面的进展,以及它为未来音频技术带来的潜力。
-
使用 fluent-ffmpeg 在 Node.js 中从视频生成缩略图
从视频创建缩略图是展示内容预览的好方法。在本文中,我将介绍如何使用 Node.js 和 fluent-ffmpeg 从视频文件生成缩略图。 开始之前,请确保您的系统已安装 Node…
-
探索 Pydub 库:Python 中音频处理的综合指南
从媒体处理到数据分析,音频处理是许多应用程序的一个重要方面。Python 中的 Pydub 库为音频处理提供了一个易于使用的界面,让您可以高效地处理音频文件。在本文中,我们将结合实…
-
互动白板 Demo,多人实时白板互动的示例源码
本 Demo 是 ZEGO 提供的完整多人实时白板互动的示例,包括:白板涂鸦、实时轨迹同步、文档共享、文件转码等功能。 本示例源码仅用于演示 ZEGO 超级白板产品功能。以Andr…
-
五个和SIP安全相关的头字段,IMS/3GPP安全验证Sec-Agree头字段说明
很多用户经常看到SIP验证401,407消息,不知道为什么会产生不同的消息。在应用环境中,SIP协议对不同环境提供了安全验证的处理,通过不同的安全头字段来验证安全实体,因此返回的响…
-
使用 Vite、Vue 3 和 Node.js 开发一个简单的聊天室
介绍如何使用 Vite、Vue 3 和 Node.js 开发一个简单的聊天室。 创建项目 设计界面 打开 src 文件夹中的 App.vue 文件,开始设计你想要的样式。 也可以参…
-
研究 | 超越降噪:主动声音控制的基础与未来
主动声音控制(Active Sound Control, ASC)在当今已应用于许多实际噪声控制,包括汽车发动机和道路噪声控制、螺旋桨飞机降噪以及降噪耳机等。尽管该技术的研究和开发…
-
【音视频】面试题集锦第 29 期 | 视频渲染相关各种问题
分享来自音视频技术社群关键帧的音视频开发圈的面试题集锦,下面是第 29 期面试题精选: 1、调试 OpenGL 特效的时候图像不对,有什么调试技巧能快速排查原因? 2、在实现类似 …
-
如何使用加密技术确保 WebRTC 通信安全
WebRTC 被广泛用于基于浏览器的视频通话、语音通话和数据传输。其受欢迎的原因在于低延迟、流畅的音频/视频传输和开源可用性。然而,由于网络威胁不断增加,保护 WebRTC 通信至…
-
Source-Disentangled 神经音频编解码器 (SD-Codec):一种结合音频编码和源分离的新型 AI 方法
神经音频编解码器通过将连续音频信号转换为离散标记,彻底改变了音频的压缩和处理方式。该技术使用在离散标记上训练的生成模型来生成复杂的音频,同时保持音频的出色质量。这些神经编解码器显著…
-
适应广播卫星技术不断发展的格局
国际通信卫星组织副总裁兼媒体总经理 Pascale Fromont 分享了对卫星广播现状、IP 分发的影响以及卫星技术未来的见解。 在瞬息万变的技术环境中,卫星技术仍然是广播行业的…
-
理解 Vulkan 指令缓存
Vulkan 指令缓存 在 Vulkan 中,指令缓存(Command Buffer)是用于记录和存储一系列绘图和计算指令的对象。 这些指令将在 GPU 上执行,可以用于执行不同类…