扩散模型
-
Radial Attention 如何在不牺牲质量的情况下将视频扩散成本降低 4.4 倍
扩散模型在图像合成方面取得了成功,在生成高质量、连贯的视频方面也取得了令人瞩目的进展。然而,处理视频中的额外时间维度大大增加了计算需求,尤其是在自注意力机制难以随序列长度扩展的情况…
-
NVIDIA AI 推出 Audio-SDS:基于扩散的统一框架,无需专门数据集即可实现提示引导音频合成和源分离
音频扩散模型已经实现了高质量的语音、音乐和拟音合成,但它们主要擅长样本生成而非参数优化。诸如基于物理信息的撞击声生成或提示驱动的声源分离等任务,需要能够在结构约束下调整明确、可解释…
-
增强扩散模型:稀疏性和正则化在高效生成 AI 中的作用
扩散模型已成为一个重要的生成式 AI 框架,在图像合成、视频生成、文本到图像转换和分子设计等任务中表现出色。这些模型通过两个随机过程发挥作用:一个是逐渐向数据添加噪声并将其转换为高…
-
FreeTalker: 基于扩散模型的可控语音和文本驱动的手势生成 | ICASSP 2024
目前的工作主要基于话语的音频和文本生成共语手势,却忽略了说话者的非语言动作。为了解决这一问题,我们提出了FreeTalker框架,这是目前首个能生成自发(如共语手势)和非自发(如在…