NVIDIA 赋能中科深智实现 NPC 与玩家的千人千面多模态互动

中科深智成立于 2016 年,是一家专注于端到端生成式 AI 虚拟人技术的公司,从底层自研的大语言模型、动作和表情生成算法模型以及 3D 自动建模,到 Motionverse 虚拟人业务中台,再到 3D 生成式 AI 产品和应用层。中科深智除了为生态合作伙伴提供 AI 虚拟人 API 外,还开发了一系列 3D 生成式 AI 产品,包括超写实虚拟人生成系统 Anyhuman、元宇宙电商和虚拟人直播工具百宝箱自动播、AI 快速动画生成系统自动画、虚拟人实时交互和应答系统云小七等。

传统 NPC 人机交互生硬且成本高昂

在动作和表情方面,传统 NPC 因为无法获取用户的画面信息和语音信息,也就无法做出实时的反馈,动作和语音的呈现皆靠预设,所谓的人机交互其实非常的刻板和生硬。

在文字和语音的对话能力方面,大语言模型的出现赋予了 NPC 实时对话的能力。但无论是何种大语言模型的诞生,都经历了数据清洗、预训练、指令微调、测试、合规、部署和应用接口开发等环节,这些环节此前是彼此分散的,而并非一体化的,这也意味着每两个环节之间都需要进行大量的人工处理和匹配部署,这本质上是对人力成本和时间成本的浪费,亟需一种更加省时和高效的解决方案。

NVIDIA 赋能游戏 NPC 实现智能化互动

中科深智的虚拟人实时交互和应答系统云小七可以支持智能 NPC 的批量化生产,提升游戏开发效率。云小七基于生成式 AI 的设计,可以通过将 NPC 赋予如形象、声音、性格特征、背景等特定的人设来与游戏内容进行有机融合。此外,云小七还能够在不需要编写复杂脚本的情况下,让 NPC 与游戏玩家进行顺畅的文字、语音、动作、表情等多模态的实时互动。这将为游戏开发商带来更有力的支持,同时也为玩家提供更加生动、真实的游戏体验。云小七的核心能力之一还包括中科深智自研实现的 CLAP 大模型算法,这种算法可以实现对于语音、语义以及外部环境输入的实时反馈,从而输出动作和表情等,使得 NPC 具有更加生动的表现能力。

NVIDIA Omniverse 中的 Audio2Face 可以辅助云小七实现音频输入的面部输出,通过预训练的深度神经网络、调整角色网格的 3D 顶点等方式,快速实现表情切换。通过利用 NVIDIA Maxine 对于音频和视频通信方面进行优化,即使用户使用普通的麦克风和摄像头,NPC 也能监测到他们的行为并且产生反馈,与玩家实现实时互动。

此外,云小七底层的文字对话能力来自于中科深智今年 5 月推出的自有大语言模型 GenSense 数智姜尚。数智姜尚是国内商用大模型在轻量化领域内的重要尝试,是针对垂直领域和虚拟人端到端应用而专门设计的大语言模型,可成为虚拟人的“大脑”,为其提供实时互动的能力支撑。数智姜尚采用了先进的优化技术,轻巧便利且占用资源极少,可为用户提供流畅的使用体验。配合 NVIDIA GPU,数智姜尚能够以高性能运行并展现出色的表现。其次,数智姜尚的部署和定制非常简便,可以轻松集成到现有的企业工作流中,为用户提供个性化和智能化的解决方案,同时实现快速的模型训练和应用部署。

NVIDIA NeMo 在数智姜尚的训练过程中提供了低门槛、经济、高效的帮助。

首先,NVIDIA NeMo 帮助解决了训练全流程的问题,包括数据清洗、预训练和指令微调,以及测试、合规、部署和应用接口开发等。在此之前,这需要多个架构才能完成,因此极大的提高了自有模型的开发效率。

同时,NVIDIA NeMo 还提供了大量的、可应用于多个不同场景的预训练模型。选择 NVIDIA 已经训练好的模型,能够大幅缩短微调和再训练的时间,也帮助扩充了中科深智自身大模型数智姜尚的适应性。NeMo 本身的 ASR/TTS 也直接带来了自然交互工具,无需借助第三方,从而加速了数智姜尚的开发和交付。

此外,通过使用 NVIDIA 提供的 NeMo Guardrails 工具,中科深智还高效解决了对话式 AI 合规性和安全性的风险。通过 NeMo Guardrails 为对话设置响应的范围和边界,使数智姜尚的回答范围仅限于适当的主题并仅提供必要的信息,能够限制 AI 只与已确认安全的第三方应用程序建立联系。

NVIDIA 助力中科深智 加速 AI 对话数字人建设

中科深智联合创始人兼 CTO 宋健说:“中科深智是 NVIDIA 初创加速计划的高级会员,通过该计划,一方面中科深智与 NVIDIA 进行了深入的技术合作,另外一方面也链接到大量外部企业资源,可以快速有效的将产品和需求方进行对接。

大模型驱动的对话式 AI 和数字人的结合引发了新一轮的商业增量,也是我们的企业客户关注的重点。对话式数字人正在不同领域发挥着越来越大的作用,帮助企业用户解决客户服务等难题,提高客户的体验。然而开发和运行可落地的语音人工智能服务仍然是一项复杂而艰巨的任务,通常需要面临实时性、可理解性、自然性、低资源、鲁棒性等挑战。在 NVIDIA 初创加速计划的支持之下,我们深入了解并且成功应用了 NVIDIA 各项最新技术和工具,包括 NVIDIA Nemo,NVIDIA Omniverse 等等,切实帮助我们加速了 AI 对话数字人的建设。”

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论