淘宝直播技术团队打造智能数字人的部分实践总结。本文介绍了服务端工程技术,服务端工程是构建稳定、弹性、高并发的后端支撑平台,确保数字人服务高效稳定运行。
01 背景
数字人直播是通过使用人工智能、计算机图形学、音视频等技术能力,合成数字虚拟人物,进行直播带货的场景,是AI数字人。淘宝直播数字人作为直播场景下的创新业务,依托自研AI算法和工程化能力进行规模扩展,近一年来也迎来了飞速的增长。相比起真人主播,数字人主播有以下优势:
- 【开播成本】相比起真人的直播,需要主播、助播和场控等角色,而数字人可以通过主播形象克隆的方案,只需要提前生成好直播素材即可开播,能有效降低商家的开播成本
- 【全天候开播】通过云端推流的方案,可以实现全天候24小时直播,有效的提高了主播的直播时长
- 【AI讲解文案】通过AI大模型的能力,自动生成商品讲解文案和图片素材,降低商家讲解成本
- 【实时互动】接入AI大模型,提供弹幕实时互动,主播视频回答用户提问能力
- 【展现力丰富】通过讲解商品时同步进行弹商品小卡、弹券等能力,提高用户观看体验,提升成交转化
02 数字人介绍
2.1 直播数字人

直播数字人主要有三个核心的属性,形象、音色和人设,也对应三种核心的不同算法能力。
- 形象:数字人的视觉特征,包括面部表情特征,唇部动作和声音匹配等等,主要由主播上传一段录制的视频素材,再通过算法训练生成。
- 音色:数字人讲话的声音、语速、语调和情感饱和度等,目前主播可以通过上传音频素材或者选择直播回放场次,再通过算法训练生成。
- 人设:数字人生成文案话术的表达风格和热点,通过对真人直播回放数据进行分析,构造出主播独属的人设画像库,刻画出具备主播人设特点的数字人分身。
直播数字人可以将商品信息作为输入,使用LLM大模型的能力,生成对应的讲解文案,再通过TTS(Text-to-Speech,文本合成语音)将讲解文案生成对应的音频,再通过数字人形象的唇部驱动技术,最终生成一个数字人讲解的视频片段,最终将视频转换成直播流。
2.2 核心算法能力
唇驱
数字人的唇部驱动技术是实现虚拟形象逼真表现的核心环节,商家通过录制自身视频素材进行训练,结合语音信号驱动生成匹配的数字人唇部运动,从而实现逼真的表现效果。
TTS
数字人TTS作为话术和形象的中间模块,围绕规模化业务目标,提高语音表现力并降低成本。针对数据语料收集、语音模型训练、韵律拟人化等应用难点进行技术优化:搭建直播数据处理管线与线上集群,通过优化ASR、数据过滤策略等提高语音数据质量和转写准确率;利用大语言模型优化正则化、音素前端模块,提高朗读准确率;通过精细化与细粒度的特征提取,对中英文混数据进行语义及韵律编码,预训练直播语音合成大模型,提升韵律情感表现力,实现具有直播味的TTS效果。
LLM
在传统的数字人直播场景下,数字人往往具备较浓的机械感,在口播文案和互动场景下的表达方式与真人有较大的差异;同时传统的直播形式较为单一,导致数字人直播间难以吸引用户持续观看和消费转化。淘宝直播数字人LLM主要通过几个方面来提升数字人话术效果。
- 通过对主播的历史真人回放进行分析,构造主播的人设画像库,克隆真人主播的人设化数字分身
- 打造通用口语化的口播讲解文案,在语气词、停顿、表达方式等方面拟合真人的口语化讲述特点
- 基于多模态的素材文案结合,结合商品的基础信息和商品的图片、视频信息,生成更加生动的素材
- 实时的个性化的主被动互动,基于用户画像和直播间实时状态,能够主动和被动的与用户交互
目前TTS和唇驱随着算法不断迭代,最优算法已经可以做到以假乱真的程度。
2.3 核心流程

接下来给大家介绍下数字人的关键流程链路:
B端主播侧:
- 主播如果需要使用数字人,需要先从服务市场进行下单,购买淘宝直播官方数字人服务,开通数字人使用权限
- 主播在服务市场下单后,跳转到直播中控台,提交视频和音频素材进行形象和音色的训练,等待小二审核
- 小二审核通过后,会创建形象和音色的训练任务,到训练集群,训练完成后生成形象和音色模型
- 主播在中控台上确认模型的效果,为当前数字人设置形象和音色效果
- 主播使用LLM大模型,对商品生成AI讲解话术,同时结合数字人的形象和音色,生成对应的视频素材
- 主播创建数字人直播,将生成话术的商品添加到宝贝口袋,再使用tbs端,开启数字人,进行推流,即可开始直播
- 如果主播购买的是高级版和旗舰版,则无需使用tbs端进行推流,直接使用云端推流,无需个人电脑在线
C端用户侧:
- C端直播展现形式和正常真人直播间一致,C端用户可在手淘、点淘客户端中观看数字人直播,购买下单数字人直播间的商品
- 主播开启弹幕回复功能后,如用户在直播间进行评论提问,数字人会使用AI大模型能力对用户的提问进行弹幕回复
03 工程链路介绍
我认为淘宝直播数字人的工程从开始发展到现在,主要经历三个阶段,从人工保障阶段->产品化阶段->智能化阶段的不断演进。
目前处于产品化->智能化的发展的阶段中

3.1 人工保障阶段
直播数字人在业务发展初期,由于业务体量规模小,前期主要由内部几个商家先进行试用,在面对人员紧缺,同时需要快速验证线上效果的情况下,该阶段采用的方案是人工进行配置,包括主播名单开白使用,主播提交的素材,模型的训练、模型授权等都依赖产研的手动配置和操作。
痛点:
- 素材文件只能线下提交,无法统一管理审核标准,审核结果难以触达,素材和审核记录散落在各个表格文档中,无法统一管理
- 无自动化调度能力,将素材提交算法训练,需要人工导入素材再提交到机器,任务执行完成后再手动更新表格,任务失败还需要人工处理
- 新增主播开通数字人,需要人工进行配置多份数据,人工操作流程繁琐,人为操作容易失误、无法支持数字人进行规模化和商业化的发展
3.2 产品化阶段
为实现数字人产品的规模化扩张,基于前一阶段的痛点分析实施系统性升级:我们从0到1构建全链路产品化服务体系,打通服务市场商业化通路并设计阶梯式定价策略,满足不同商家的诉求。同时建立标准化操作流程(从素材提交→素材审核→模型训练→素材生成→开播→直播公域质量评估),通过标准化和规范化整体流程,提升了80%以上的处理效率,有效降低商家的开播门槛,助力数千位商家顺利进行数字人开播。
数字人产品化阶段逐步建设起来后,整体流程都按照标准化和规范化的运行着,但是也带来了一些新的问题和挑战。
痛点:
- 目前主播从购买数字人服务->提交素材训练->生成数字人直播素材->开播的整体流程来看,链路和流程都比较长,商家的理解和操作成本都比较高
- 训练素材的审核,公域质量评估审核和日常商家主播答疑目前都依赖外包人力,遇到节假期或者外包人力变化,都很容易造成任务无法被正常消化,影响主播规模的进一步扩大和整体的开播效率
3.3 智能化阶段
经过一段时间的主播调研和分析后,我们发现当前的产品的设计和体验上,还有较多可以提升的空间,产品能力的智能化发展,是后续需要重点规划和建设的方向,使用更多AI的能力,降低主播的开播门槛,提升消费者的使用体验,给平台带来更大的提效。
- 对于主播而言,目前的开播流程和链路还比较长,在使用和理解上还存在一定的成本,他们的诉求是能够做到低成本快速一键开播,我们可以建设智能化的开播agent,降低主播的使用门槛和提升开播效率
- 对于消费者而言,在逛直播间时,希望能有一个直播的导购助手,能够结合消费者自身的特点,能够理解消费者的诉求,带来个性化的直播讲解内容,更智能化的体验
- 对于平台而言,通过算法自动化审核素材,自动化公域质量分评估能力,能够极大减少对外包审核人力的依赖,能更快更高效的支持更多的主播入驻和开播
素材自动化审核
原先的素材训练链路,需要人工对素材进行审核,审核用户拍摄的视频素材是否符合SOP要求,同时为了保证平台的生态,禁止不同的用户使用公模(同样的人脸)进行上传。
痛点:
- 主播提交素材的量级较多时,审核人力不足时,容易会出现审核任务堆积的情况,影响主播的正常开播
- 由于没有数字人FaceId人脸库,对公模的判断和筛选只能依靠人工记录,带来了极高的成本
因此,希望搭建一套自动化的素材审核链路,使用算法能力进行初步筛选判断,同时构建FaceId人脸库,来提升审核的效率。
整体链路:

公域质量评估自动化审核
数字人直播一般只能在私域直播,为了激励优质商家使用数字人,对满足一定条件的商家,对数字人的直播进行MOS质量评分,评分达到公域直播的质量标准后可以在公域开播。审核目前也依赖外包人力进行审核,将审核的得分结果进行加权、求平均等计算后,得到MOS评分。痛点:
- 直播公域质量MOS评分的审核量级受到外包人力的限制,公域规模量级扩大后容易导致审核人力不足,审核时效慢的问题
- 人工评估结果具有较大的主观性,尽管已经将一场直播分发给到多个人审核后再取平均,仍会出现审核结果不稳定的情况,容易引发商家客诉
因此,希望搭建一套直播公域质量评分的自动化评估链路,使用算法能力对数字人直播进行打分,来提升审核的效率和稳定性。
整体链路:

一键快速开播能力
目前主播需要从0开始一场数字人直播,需要在主播中控台上多个页面进行配置,同时还要在tbs推流端进行推流,操作成本和难度比较高,我们可以在各个功能链路中融合进对应的AI工具, 通过使用开播的agent能力,串联各个流程节点, 在一些链路节点上(如选品、排品能力),接入算法能力进行提效,让数字人开播流程变得更加简单。

3.4 业务架构
前台场景:主播端:
- 服务市场:主播对数字人商品服务的订购
- 主播中控台:主播创建数字人、生成直播商品话术库、播前准备操作
- 主播推流端tbs:主播进行数字人的开播推流操作
- 旗舰版实时互动:云端机器推流端,实时直播推流和对C端用户进行实时交互
小二端:
- 小二管理端:用于小二审核训练素材、私模库管理等
C端:
- 直播间:用户观看数字人直播、购买商品和进行弹幕互动等
服务端的职责业务支撑:
- 数字人服务订购能力、多版本售卖定价体系、主播的权限管控
- 数字人的创建和管理,模型资产库管理等
- 数字人素材的生成管理,AI话术文案和生成视频素材
- 数字人播前准备、开播校验、开播上报等能力
- 主播素材审核、公域直播审核的能力
数字人工作台:
- 机器资源管理,任务的灵活调度分发能力
- 在线数据服务,提供算法内容生成需要的各种数据
- 在线直播数据大盘,数字人直播快照
- 算法升级平台,模型版本管理和素材版本管理
- 生态治理,素材自动化审核,公域评分算法自动化打分
全链路:
服务端作为整个数字人体系中的核心环节,需要串联前端、tbs端、云端和算法工程端,保证整体数据和各种状态的有序流转
3.5 数字人服务端工程相关问题
- 3.5.1 服务端工程如何和AI结合
传统的服务端应用一般都是java应用,目前算法开发的主要语言还是python,python具有丰富的库、易学性、更好的社区生态支持的特点。目前数字人工程采用的方案是,服务端java工程 + TPP Python + Whale的方案
服务端java工程
- 负责和前端、TBS客户端、和云端的的交互,接受前台数据并保存,和客户端、前端采用mtop接口通信,和云端采用ACCS双向通讯;
- 负责任务的调度和编排,包括算法任务的创建、调度、参数构建、执行回调的处理
- 根据约定参数调用TPP Python,执行算法服务,由于形象和音色的推理和训练需要较长时间(分钟到小时级),通过采用异步执行的方案,通过定时任务调度触发,再接受TPP网关的消息回调获取结果。执行话术和互动文案的耗时较短(秒级),采用同步执行的方案,使用流式输出协议(SSE)进行输出
Tpp Python
- 负责算法工程服务,一般由算法工程或者算法同学维护
- 数字人的形象和TTS由算法同学提供SDK,算法工程同学负责进行环境搭建,提供SDK的部署和运维能力
- 数字人的话术&互动的算法工程由算法同学自己编写和维护
Whale
- 负责提供大模型的部署能力和服务,并提供kv-cache、高效推理等底层加速能力,由算法同学维护

- 3.5.2 任务调度分发&扩展能力
数字人的异步任务主要有训练和推理任务,每种任务又有不同的类型和优先级,通过定时任务调度触发,首先需要根据任务优先级进行排序筛选,将任务根据不同的类型进行分组,匹配到不同的机器资源上,当前已支持将任务分发到Tpp Python、ECS上,未来还需要能支持不同算法平台等。
统一资源管理
将TPP、ECS和MVAP资源池进行统一管理,根据资源池的空闲程度进行任务的分发和调度,统一任务数据协议标准, 对不同算法平台进行适配,屏蔽各个算法平台的实现,将算法资源统一进行管理后,能够更加灵活的进行任务的调度和分发,大大提升了任务整体的吞吐效率

抽象任务策略
数字人的离线任务有很多种,形象训练有单人单训和通用唇驱类型,音色训练有 TTS-Base和TTS-Pro类型,推理任务有商品话术视频推理、问答视频推理等等。所以我们对异步任务流程进行通用抽象处理,使用模版模式抽象出通用任务提供的主要能力,再提供扩展点能力,通过策略模式进行路由,不同的任务类型仅需实现差异部分。能够快速支持不同任务类型的接入,减少重复代码40%-60%,目前已经支持10+场景的扩展。
- 4.5.3 算法升级迭代
数字人视频素材主要由形象、音色和话术文案生成,我们的算法效果也在不断进行更新和迭代,为了让主播可以用上最新最好的算法效果,需要对主播使用的数字人的算法模型进行升级,对视频素材进行重新推理。
当前算法升级的痛点:
【模型升级慢】数字人算法模型升级后,数字人最新效果自然更新进度缓慢,无法生效最新的算法效果;
【人力成本高】算法版本升级只能人工对重点商家覆盖,覆盖全量商家人工成本极高;
【效果追踪难】算法版本无法追溯,模型和素材均无版本记录,效果无法追踪;
我们针对当前算法升级的痛点,搭建了一套数字人算法升级的方案:
【流程标准化】搭建算法升级自动化流转链路,拆分训练和推理流程,确保用户模型训练和推理的有序进行;
【模型可管理】建立算法模型多版本管理机制,记录算法迭代升级版本和明细,实现算法版本可追踪可溯源;
【效果可对比】建立算法模型升级效果对比机制,确保算法模型覆盖过程中,可视化观测算法升级效果;
【资源高效化】使用升级任务独立优先级机制,确保不干扰线上任务正常运行的同时充分利用低峰资源;
效果:
【人力提效】搭建算法任务升级的自动化流程,原全量主播(1700+)的升级任务由20人日降低至1人日;
【资源提效】通过独立任务优先级机制,期间机器利用率提升150%以上;
数字人升级流程:

升级重刷任务流转图:

4.6 稳定性保障
直播数字人近一年业务发展迅速,在面对业务规模快速增长,算法高频迭代,工程链路复杂的挑战下,我们也做了很多稳定性保障的建设,确保了数字人业务规模快速增过程中无重大问题产生。
【异步任务监控告警】异步离线任务监控告警,任务调度失败,通过钉钉机器人进行监控告警

【Agent问题定位】创新性的使用Agent的方式搭建问题排查工具,快速定位现场,使用LLM初步诊断,问题定位效率提升95%

【medialab数字人工作台】和测试共同建设一站式数字人工作台,整合数字人账号、设置、资产、播中大盘、直播信息、数字人话术等信息聚合查询能力,提高问题排查效率80%以上。
数字人直播播中大盘:

数字人直播信息查询:

【全链路监控体系-建设中】搭建数字人全链路监控大盘,结合AI工程架构,集成客户端、前端、服务端、云端和算法的全链路监控体系。
【数字人直播间质量检测-建设中】和音视频团队共同建设的数字人直播间质量检测,包括黑屏、重复帧等。
04 未来规划
- 数字人智能化开播agent,助力主播快速一键开播
- 数字人领域建模设计,抽象沉淀数字人领域服务
- 数字人个性化推荐,打造用户专属个性化导购主播
05 团队介绍
本文作者瑾与,来自淘天集团-直播AIGC团队。本团队作为直播电商智能化领域的先行者,始终致力于通过AI原生技术创新重构电商直播场景中的人货场交互范式。团队基于对大语言模型研发、多模态语义理解、语音合成、数字人形象建模、AI工程化部署及音视频处理技术的深厚沉淀和积累,已搭建起覆盖直播全链路的AI技术矩阵。自主研发的数字人直播解决方案通过商业化验证,成功实现从技术研发到商业变现的完整闭环,累计服务上千家商家。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。