淘宝直播数字人：服务端工程技术

淘宝直播技术团队打造智能数字人的部分实践总结。本文介绍了服务端工程技术，服务端工程是构建稳定、弹性、高并发的后端支撑平台，确保数字人服务高效稳定运行。

01 背景

数字人直播是通过使用人工智能、计算机图形学、音视频等技术能力，合成数字虚拟人物，进行直播带货的场景，是AI数字人。淘宝直播数字人作为直播场景下的创新业务，依托自研AI算法和工程化能力进行规模扩展，近一年来也迎来了飞速的增长。相比起真人主播，数字人主播有以下优势：

【开播成本】相比起真人的直播，需要主播、助播和场控等角色，而数字人可以通过主播形象克隆的方案，只需要提前生成好直播素材即可开播，能有效降低商家的开播成本
【全天候开播】通过云端推流的方案，可以实现全天候24小时直播，有效的提高了主播的直播时长
【AI讲解文案】通过AI大模型的能力，自动生成商品讲解文案和图片素材，降低商家讲解成本
【实时互动】接入AI大模型，提供弹幕实时互动，主播视频回答用户提问能力
【展现力丰富】通过讲解商品时同步进行弹商品小卡、弹券等能力，提高用户观看体验，提升成交转化

02 数字人介绍

2.1 直播数字人

直播数字人主要有三个核心的属性，形象、音色和人设，也对应三种核心的不同算法能力。

形象：数字人的视觉特征，包括面部表情特征，唇部动作和声音匹配等等，主要由主播上传一段录制的视频素材，再通过算法训练生成。

音色：数字人讲话的声音、语速、语调和情感饱和度等，目前主播可以通过上传音频素材或者选择直播回放场次，再通过算法训练生成。

人设：数字人生成文案话术的表达风格和热点，通过对真人直播回放数据进行分析，构造出主播独属的人设画像库，刻画出具备主播人设特点的数字人分身。

直播数字人可以将商品信息作为输入，使用LLM大模型的能力，生成对应的讲解文案，再通过TTS（Text-to-Speech，文本合成语音）将讲解文案生成对应的音频，再通过数字人形象的唇部驱动技术，最终生成一个数字人讲解的视频片段，最终将视频转换成直播流。

2.2 核心算法能力

唇驱

数字人的唇部驱动技术是实现虚拟形象逼真表现的核心环节，商家通过录制自身视频素材进行训练，结合语音信号驱动生成匹配的数字人唇部运动，从而实现逼真的表现效果。

TTS

数字人TTS作为话术和形象的中间模块，围绕规模化业务目标，提高语音表现力并降低成本。针对数据语料收集、语音模型训练、韵律拟人化等应用难点进行技术优化：搭建直播数据处理管线与线上集群，通过优化ASR、数据过滤策略等提高语音数据质量和转写准确率；利用大语言模型优化正则化、音素前端模块，提高朗读准确率；通过精细化与细粒度的特征提取，对中英文混数据进行语义及韵律编码，预训练直播语音合成大模型，提升韵律情感表现力，实现具有直播味的TTS效果。

LLM

在传统的数字人直播场景下，数字人往往具备较浓的机械感，在口播文案和互动场景下的表达方式与真人有较大的差异；同时传统的直播形式较为单一，导致数字人直播间难以吸引用户持续观看和消费转化。淘宝直播数字人LLM主要通过几个方面来提升数字人话术效果。

通过对主播的历史真人回放进行分析，构造主播的人设画像库，克隆真人主播的人设化数字分身
打造通用口语化的口播讲解文案，在语气词、停顿、表达方式等方面拟合真人的口语化讲述特点
基于多模态的素材文案结合，结合商品的基础信息和商品的图片、视频信息，生成更加生动的素材
实时的个性化的主被动互动，基于用户画像和直播间实时状态，能够主动和被动的与用户交互

目前TTS和唇驱随着算法不断迭代，最优算法已经可以做到以假乱真的程度。

2.3 核心流程

接下来给大家介绍下数字人的关键流程链路：

B端主播侧：

主播如果需要使用数字人，需要先从服务市场进行下单，购买淘宝直播官方数字人服务，开通数字人使用权限
主播在服务市场下单后，跳转到直播中控台，提交视频和音频素材进行形象和音色的训练，等待小二审核
小二审核通过后，会创建形象和音色的训练任务，到训练集群，训练完成后生成形象和音色模型
主播在中控台上确认模型的效果，为当前数字人设置形象和音色效果
主播使用LLM大模型，对商品生成AI讲解话术，同时结合数字人的形象和音色，生成对应的视频素材
主播创建数字人直播，将生成话术的商品添加到宝贝口袋，再使用tbs端，开启数字人，进行推流，即可开始直播
如果主播购买的是高级版和旗舰版，则无需使用tbs端进行推流，直接使用云端推流，无需个人电脑在线

C端用户侧：

C端直播展现形式和正常真人直播间一致，C端用户可在手淘、点淘客户端中观看数字人直播，购买下单数字人直播间的商品
主播开启弹幕回复功能后，如用户在直播间进行评论提问，数字人会使用AI大模型能力对用户的提问进行弹幕回复

03 工程链路介绍

我认为淘宝直播数字人的工程从开始发展到现在，主要经历三个阶段，从人工保障阶段->产品化阶段->智能化阶段的不断演进。

目前处于产品化->智能化的发展的阶段中

3.1 人工保障阶段

直播数字人在业务发展初期，由于业务体量规模小，前期主要由内部几个商家先进行试用，在面对人员紧缺，同时需要快速验证线上效果的情况下，该阶段采用的方案是人工进行配置，包括主播名单开白使用，主播提交的素材，模型的训练、模型授权等都依赖产研的手动配置和操作。

痛点：

素材文件只能线下提交，无法统一管理审核标准，审核结果难以触达，素材和审核记录散落在各个表格文档中，无法统一管理
无自动化调度能力，将素材提交算法训练，需要人工导入素材再提交到机器，任务执行完成后再手动更新表格，任务失败还需要人工处理
新增主播开通数字人，需要人工进行配置多份数据，人工操作流程繁琐，人为操作容易失误、无法支持数字人进行规模化和商业化的发展

3.2 产品化阶段

为实现数字人产品的规模化扩张，基于前一阶段的痛点分析实施系统性升级：我们从0到1构建全链路产品化服务体系，打通服务市场商业化通路并设计阶梯式定价策略，满足不同商家的诉求。同时建立标准化操作流程（从素材提交→素材审核→模型训练→素材生成→开播→直播公域质量评估），通过标准化和规范化整体流程，提升了80%以上的处理效率，有效降低商家的开播门槛，助力数千位商家顺利进行数字人开播。

数字人产品化阶段逐步建设起来后，整体流程都按照标准化和规范化的运行着，但是也带来了一些新的问题和挑战。

痛点：

目前主播从购买数字人服务->提交素材训练->生成数字人直播素材->开播的整体流程来看，链路和流程都比较长，商家的理解和操作成本都比较高
训练素材的审核，公域质量评估审核和日常商家主播答疑目前都依赖外包人力，遇到节假期或者外包人力变化，都很容易造成任务无法被正常消化，影响主播规模的进一步扩大和整体的开播效率

3.3 智能化阶段

经过一段时间的主播调研和分析后，我们发现当前的产品的设计和体验上，还有较多可以提升的空间，产品能力的智能化发展，是后续需要重点规划和建设的方向，使用更多AI的能力，降低主播的开播门槛，提升消费者的使用体验，给平台带来更大的提效。

对于主播而言，目前的开播流程和链路还比较长，在使用和理解上还存在一定的成本，他们的诉求是能够做到低成本快速一键开播，我们可以建设智能化的开播agent，降低主播的使用门槛和提升开播效率
对于消费者而言，在逛直播间时，希望能有一个直播的导购助手，能够结合消费者自身的特点，能够理解消费者的诉求，带来个性化的直播讲解内容，更智能化的体验
对于平台而言，通过算法自动化审核素材，自动化公域质量分评估能力，能够极大减少对外包审核人力的依赖，能更快更高效的支持更多的主播入驻和开播

素材自动化审核

原先的素材训练链路，需要人工对素材进行审核，审核用户拍摄的视频素材是否符合SOP要求，同时为了保证平台的生态，禁止不同的用户使用公模（同样的人脸）进行上传。

痛点：

主播提交素材的量级较多时，审核人力不足时，容易会出现审核任务堆积的情况，影响主播的正常开播
由于没有数字人FaceId人脸库，对公模的判断和筛选只能依靠人工记录，带来了极高的成本

因此，希望搭建一套自动化的素材审核链路，使用算法能力进行初步筛选判断，同时构建FaceId人脸库，来提升审核的效率。

整体链路：

公域质量评估自动化审核

数字人直播一般只能在私域直播，为了激励优质商家使用数字人，对满足一定条件的商家，对数字人的直播进行MOS质量评分，评分达到公域直播的质量标准后可以在公域开播。审核目前也依赖外包人力进行审核，将审核的得分结果进行加权、求平均等计算后，得到MOS评分。痛点：

直播公域质量MOS评分的审核量级受到外包人力的限制，公域规模量级扩大后容易导致审核人力不足，审核时效慢的问题
人工评估结果具有较大的主观性，尽管已经将一场直播分发给到多个人审核后再取平均，仍会出现审核结果不稳定的情况，容易引发商家客诉

因此，希望搭建一套直播公域质量评分的自动化评估链路，使用算法能力对数字人直播进行打分，来提升审核的效率和稳定性。

整体链路：

一键快速开播能力

目前主播需要从0开始一场数字人直播，需要在主播中控台上多个页面进行配置，同时还要在tbs推流端进行推流，操作成本和难度比较高，我们可以在各个功能链路中融合进对应的AI工具，通过使用开播的agent能力，串联各个流程节点，在一些链路节点上（如选品、排品能力），接入算法能力进行提效，让数字人开播流程变得更加简单。

3.4 业务架构

前台场景：主播端：

服务市场：主播对数字人商品服务的订购
主播中控台：主播创建数字人、生成直播商品话术库、播前准备操作
主播推流端tbs：主播进行数字人的开播推流操作
旗舰版实时互动：云端机器推流端，实时直播推流和对C端用户进行实时交互

小二端：

小二管理端：用于小二审核训练素材、私模库管理等

C端：

直播间：用户观看数字人直播、购买商品和进行弹幕互动等

服务端的职责业务支撑：

数字人服务订购能力、多版本售卖定价体系、主播的权限管控
数字人的创建和管理，模型资产库管理等
数字人素材的生成管理，AI话术文案和生成视频素材
数字人播前准备、开播校验、开播上报等能力
主播素材审核、公域直播审核的能力

数字人工作台：

机器资源管理，任务的灵活调度分发能力
在线数据服务，提供算法内容生成需要的各种数据
在线直播数据大盘，数字人直播快照
算法升级平台，模型版本管理和素材版本管理
生态治理，素材自动化审核，公域评分算法自动化打分

全链路：

服务端作为整个数字人体系中的核心环节，需要串联前端、tbs端、云端和算法工程端，保证整体数据和各种状态的有序流转

3.5 数字人服务端工程相关问题

3.5.1 服务端工程如何和AI结合

传统的服务端应用一般都是java应用，目前算法开发的主要语言还是python，python具有丰富的库、易学性、更好的社区生态支持的特点。目前数字人工程采用的方案是，服务端java工程 + TPP Python + Whale的方案

服务端java工程

负责和前端、TBS客户端、和云端的的交互，接受前台数据并保存，和客户端、前端采用mtop接口通信，和云端采用ACCS双向通讯；
负责任务的调度和编排，包括算法任务的创建、调度、参数构建、执行回调的处理
根据约定参数调用TPP Python，执行算法服务，由于形象和音色的推理和训练需要较长时间（分钟到小时级），通过采用异步执行的方案，通过定时任务调度触发，再接受TPP网关的消息回调获取结果。执行话术和互动文案的耗时较短（秒级），采用同步执行的方案，使用流式输出协议（SSE）进行输出

Tpp Python

负责算法工程服务，一般由算法工程或者算法同学维护
数字人的形象和TTS由算法同学提供SDK，算法工程同学负责进行环境搭建，提供SDK的部署和运维能力
数字人的话术&互动的算法工程由算法同学自己编写和维护

Whale

负责提供大模型的部署能力和服务，并提供kv-cache、高效推理等底层加速能力，由算法同学维护

3.5.2 任务调度分发&扩展能力

数字人的异步任务主要有训练和推理任务，每种任务又有不同的类型和优先级，通过定时任务调度触发，首先需要根据任务优先级进行排序筛选，将任务根据不同的类型进行分组，匹配到不同的机器资源上，当前已支持将任务分发到Tpp Python、ECS上，未来还需要能支持不同算法平台等。

统一资源管理

将TPP、ECS和MVAP资源池进行统一管理，根据资源池的空闲程度进行任务的分发和调度，统一任务数据协议标准，对不同算法平台进行适配，屏蔽各个算法平台的实现，将算法资源统一进行管理后，能够更加灵活的进行任务的调度和分发，大大提升了任务整体的吞吐效率

抽象任务策略

数字人的离线任务有很多种，形象训练有单人单训和通用唇驱类型，音色训练有 TTS-Base和TTS-Pro类型，推理任务有商品话术视频推理、问答视频推理等等。所以我们对异步任务流程进行通用抽象处理，使用模版模式抽象出通用任务提供的主要能力，再提供扩展点能力，通过策略模式进行路由，不同的任务类型仅需实现差异部分。能够快速支持不同任务类型的接入，减少重复代码40%-60%，目前已经支持10+场景的扩展。

4.5.3 算法升级迭代

数字人视频素材主要由形象、音色和话术文案生成，我们的算法效果也在不断进行更新和迭代，为了让主播可以用上最新最好的算法效果，需要对主播使用的数字人的算法模型进行升级，对视频素材进行重新推理。

当前算法升级的痛点：

【模型升级慢】数字人算法模型升级后，数字人最新效果自然更新进度缓慢，无法生效最新的算法效果；

【人力成本高】算法版本升级只能人工对重点商家覆盖，覆盖全量商家人工成本极高；

【效果追踪难】算法版本无法追溯，模型和素材均无版本记录，效果无法追踪；

我们针对当前算法升级的痛点，搭建了一套数字人算法升级的方案：

【流程标准化】搭建算法升级自动化流转链路，拆分训练和推理流程，确保用户模型训练和推理的有序进行；

【模型可管理】建立算法模型多版本管理机制，记录算法迭代升级版本和明细，实现算法版本可追踪可溯源；

【效果可对比】建立算法模型升级效果对比机制，确保算法模型覆盖过程中，可视化观测算法升级效果；

【资源高效化】使用升级任务独立优先级机制，确保不干扰线上任务正常运行的同时充分利用低峰资源；

效果：

【人力提效】搭建算法任务升级的自动化流程，原全量主播（1700+）的升级任务由20人日降低至1人日；

【资源提效】通过独立任务优先级机制，期间机器利用率提升150%以上；

数字人升级流程：

升级重刷任务流转图：

4.6 稳定性保障

直播数字人近一年业务发展迅速，在面对业务规模快速增长，算法高频迭代，工程链路复杂的挑战下，我们也做了很多稳定性保障的建设，确保了数字人业务规模快速增过程中无重大问题产生。

【异步任务监控告警】异步离线任务监控告警，任务调度失败，通过钉钉机器人进行监控告警

【Agent问题定位】创新性的使用Agent的方式搭建问题排查工具，快速定位现场，使用LLM初步诊断，问题定位效率提升95%

【medialab数字人工作台】和测试共同建设一站式数字人工作台，整合数字人账号、设置、资产、播中大盘、直播信息、数字人话术等信息聚合查询能力，提高问题排查效率80%以上。

数字人直播播中大盘：

数字人直播信息查询：

【全链路监控体系-建设中】搭建数字人全链路监控大盘，结合AI工程架构，集成客户端、前端、服务端、云端和算法的全链路监控体系。

【数字人直播间质量检测-建设中】和音视频团队共同建设的数字人直播间质量检测，包括黑屏、重复帧等。

04 未来规划

数字人智能化开播agent，助力主播快速一键开播
数字人领域建模设计，抽象沉淀数字人领域服务
数字人个性化推荐，打造用户专属个性化导购主播

05 团队介绍

本文作者瑾与，来自淘天集团-直播AIGC团队。本团队作为直播电商智能化领域的先行者，始终致力于通过AI原生技术创新重构电商直播场景中的人货场交互范式。团队基于对大语言模型研发、多模态语义理解、语音合成、数字人形象建模、AI工程化部署及音视频处理技术的深厚沉淀和积累，已搭建起覆盖直播全链路的AI技术矩阵。自主研发的数字人直播解决方案通过商业化验证，成功实现从技术研发到商业变现的完整闭环，累计服务上千家商家。