Mirelo 完成 4100 万美元种子轮融资,旨在将 AI 生成的声音技术应用于视频、游戏等领域

总部位于柏林的 Mirelo 公司完成了 4100 万美元的种子轮融资,旨在解决生成媒体领域最棘手的盲点之一:声音。本轮融资由 Index Ventures 和 Andreessen Horowitz 共同领投, Atlantic.vc 和TriplePoint Capital 也参与了投资,这凸显了投资者对音频作为 AI 驱动创意下一个重要前沿领域的信心日益增强。

Mirelo 完成 4100 万美元种子轮融资,旨在将 AI 生成的声音技术应用于视频、游戏等领域
Mirelo联合创始人:Florian Wenzel(首席技术官)和CJ Simon-Gabriel(首席执行官)

AI 迅速改变了文本、图像和视频的制作方式,但音频领域却相对滞后。音乐、音效和环境音效的制作仍然十分耗费人力,往往在创作过程的后期才被添加,尽管它们对内容的感知有着举足轻重的影响。Mirelo 的目标是改变这种现状,让高质量、情感共鸣的音频制作像视觉效果一样简单。

为什么声音被遗忘了

声音具有塑造情感、紧张感和氛围的独特能力。一段无声的视频,无论视觉效果多么震撼,都很难让人觉得完整。然而,对于大多数创作者来说,添加音频仍然意味着要在素材库中搜索、手动调整音效,并反复修改时间轴,直到一切都达到理想状态。

随着视频创作的加速发展,这种不匹配变得愈发明显。AI 生成的视觉效果、短视频社交内容以及自适应游戏环境的迭代速度都远超传统音频工作流程的处理能力。其结果是,创作者在视觉上的构想与他们实际能够实现的听觉效果之间的差距越来越大。

Mirelo 的创始人认为,这种差距不是创造力的限制,而是工具的限制。

音频基础模型构建

Mirelo 成立于 2023 年,开发了专为视频声音而设计的自主基础模型。该公司没有沿用大型语言模型或基于图像的系统,而是从零开始构建音频系统。用户可以上传视频,并在几秒钟内获得与视频动作、时间节点和屏幕事件同步的音效。

这种方法在内容动态变化的环境中尤为重要。AI 生成的视频、个性化社交信息流和现代电子游戏都能从实时自适应的音频中获益。Mirelo 的系统生成声音的速度远超实时,使其能够跟上瞬息万变的体验。

该公司近期发布了 Mirelo SFX v1.5,这是一款视频转音效模型,可通过其自助式 API 和 Web 应用 Mirelo Studio 获取。据该公司称,其模型轻量级,所需的计算量远低于典型的大型语言模型,同时在外部评估中展现出具有竞争力甚至更优的音频质量。

音乐家是技术的核心

Mirelo 的一大特色在于其创始团队。首席执行官 CJ Simon-Gabriel 和首席技术官 Florian Wenzel 都是成就斐然的音乐家,同时也是经验丰富的 AI 研究员。Simon-Gabriel 拥有马克斯·普朗克研究所机器学习和因果推断方向的博士学位,并在苏黎世联邦理工学院完成了博士后研究。Wenzel 则在洪堡大学获得了深度学习方向的博士学位,此前曾在 Google Brain 担任研究员。

音乐一直是他们生活中贯穿始终的一条主线。西蒙-加布里埃尔接受过钢琴、管风琴和作曲方面的专业训练,并曾坦言自己差点走上职业音乐道路。温泽尔则继续在柏林的一支乐队中演奏电吉他并制作电子音乐。

这种双重背景塑造了 Mirelo 的文化和技术方向。团队并不将声音视为次要的输出,而是将其视为主要的创作媒介,在这个媒介中,数学般的精确性和表现力的细微差别必须并存。

AI 生成声音的未来发展方向

Mirelo 的长期目标远不止于简单的自动化。该公司将自身的技术视为消除创作过程中摩擦的一种方式,通过处理同步和时间控制等任务,使艺术家和音效设计师能够专注于表达和叙事。

随着视觉内容变得越来越个性化和互动化,音频也需要随之发展。能够根据玩家行为进行调整的游戏、按需生成的视频以及沉浸式虚拟环境,都需要能够动态响应而非预先固定的音频。

展望未来,像 Mirelo 这样的技术可能会重新定义声音的创作、分享和体验方式。音频不再是静态的配乐,而是成为视觉媒体中鲜活的组成部分,实时生成以匹配语境、情感和意图。在未来,声音不再是可有可无的附属品,而是融入视频、游戏、电影和新兴数字世界等各种叙事方式中不可或缺的元素。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/63709.html

(0)

相关推荐

发表回复

登录后才能评论