淘宝直播数字人：形象技术

01 引言

数字人直播技术是一套融合形象生成与驱动、LLM和TTS的综合性技术体系，相较于真人直播，数字人可以提供全天候24小时的不间断服务。同时，结合沉浸式的直播间打造，高表现力的数字人形象和实时互动对话能力，可以带给用户个性化购物体验。但是，高质量数字人的制作对于用户商家的成本太高，依赖的高质量素材录制使得中小商家难以入局，也就极大阻碍了数字人规模化的步伐。

本文将尝试给大家带来数字人形象技术在直播场景使用中遇到的挑战，我们的思考和解法。

02 数字人定义及分类

数字人（Digital Human）是指通过计算机图形学、人工智能、机器学习等技术生成的，具有人类外观特征、行为表现和交互能力的虚拟角色或实体。广义上来说，它不仅能够模拟人类的外貌、表情、动作，还可以具备一定的认知能力和情感表达能力，从而实现与真实用户的自然互动。

从表现形式上，数字人可以分类为2D真人、2D卡通、3D卡通、3D风格化、3D写实、3D超写实等多个类别。

从应用场景上，数字人又可以划分为：

媒介数字人：虚拟偶像、文娱主持、名人分身，例如IP数字人、陪伴数字人
服务数字人：智能客服、各类咨询、电商卖货，例如电商数字人
行业数字人：医疗、教育、制造等

近几年，数字人应用井喷式发展，其中最出圈的数字人包括陪伴型数字人、IP型数字人、电商数字人。

陪伴型数字人

随着孤独经济和心理健康问题的日益突出，人们对于情绪价值的渴求越来越高，陪伴型数字人应用正成为全球范围内的热门赛道。
根据行业数据，2023年至2025年间，全球陪伴型数字人市场的年复合增长率（CAGR）超过30%，预计到2026年市场规模将突破100亿美元。

IP型数字人

IP型数字人通过将已故名人或历史人物数字化，延续其艺术生命或文化价值，满足了公众对经典IP的情感需求。
根据行业数据，2023年至2025年间，全球IP型数字人市场的年复合增长率（CAGR）超过40%，预计到2027年市场规模将达到数百亿美元。
核心用户：包括粉丝群体、文化爱好者、教育机构以及品牌方等。例如，“虚拟邓丽君”吸引了大量音乐爱好者和怀旧人群；“数字人苏东坡”则受到传统文化爱好者的追捧。

电商数字人

随着电商行业的快速发展和直播带货模式的兴起，电商型数字人成为品牌方和商家降本增效的重要工具。
数据显示，2023年至2025年间，全球电商型数字人市场的年复合增长率（CAGR）超过50%，预计到2026年市场规模将突破百亿美元。
电商数字人通常以2D真人数字人的表现形式出现，近年来，从头部电商公司到数字人技术供应商，纷纷入场数字人直播带货，都瞄准了这背后的巨大商业价值。但似乎现有数字人方案都只停留在了7*24小时开播的降本增效工具，没有思考过数字人直播真正的价值在哪里。

03 2D真人数字人行业现状

为什么还要自研电商直播数字人？

从大厂到中小供应商纷纷布局抢占，他们起步早，技术迭代积累的也足够多，似乎已无自研必要，那我们为什么还要做自研呢？回答这个问题，我们需要搞清楚两件事：

业内产品局限性和问题有哪些
用户真正需要的数字人功能是什么

业内产品局限性和问题

业内主流直播数字人方案目前最大的问题就是：

对于商家侧，依赖高质量素材录制，开播链路无法做到简单易用，商家很难接入使用。于是部分供应商的解题思路是强运营，卖的数字人服务配套对应运营同学全程协助开播，但这种方式极大的限制了规模化，即很难同时服务数以万计乃至更多的商家。

对于C端用户侧，现有数字人方案的效果还是差强人意，大部分都是端坐着机械式的做动作和讲品，缺乏表现张力也缺失对用户需求的感知，从而导致用户整体观看停留时长远不及真人直播，更谈不上下单购买了。

用户真正需要的数字人功能是什么

经过深入的用户调研和数据分析思考，我们发现用户真正想要的直播数字人功能其实非常简单。对于B端商家来说，他们就是想要一个能够简单易用，甚至一键托管式开播的能力，借助数字人可以24小时直播的优势，快速高效帮他们赚钱。对于C端用户来说，越来越多的年轻用户在观看直播的时候不仅仅关注商品本身的功能价值和性价比，也在追求情绪价值的获取，用户渴望自己被看见，需求被理解。

04 解法和技术框架

为了实现一键开播的链路优化roadmap

阶段一：初期阶段

初期思考的解法确实比较朴素，就是对用户拍摄素材完全不约束，允许用户上传任意时长的视频，不要求拍摄环境也不要求是否张嘴说话，甚至不需要经过素材审核过程。通过通用唇驱大模型的zero-shot能力，可以无需在目标人上单独训练就得到推理结果。从而大幅降低了商家录制素材的难度且缩短了从素材提交到数字人开播的时间。整体链路大致如下：

上述链路确实非常简单，从用户上传素材到开播可能1天不到，但是完全不限制素材要求导致用户拍摄质量非常差（比如用户就完全不做动作静止态录制了1min视频），线上直播间生态处于野蛮生长的状态，这样肯定也是不可行的。我们需要在保证质量的同时再尽可能降低用户难度。

阶段二：自动化链路构建阶段

从阶段一迈进阶段二之后，我们引入了素材审核、评测、触达商家整改等一些列环节，通过人工的方式短期内确实提升了线上数字人直播间整体效果水位。但是这样一个传统的人工链路也遇到了很多痛点，人工评测打分的主观性，人工审核容易遇到大促来临前的任务积压问题，商家很难完成整改意见的理解和修正等等，这些问题都严重阻塞了整条链路的处理效率和最终生态治理效果。

传统人工链路痛点问题

1. 从商家下单购买服务到数字人开播的所需时长跨度长达3天以上。

首先，由于素材录制要求高导致用户可能需要反复录制才能达到要求，录制时长1-2天；其次，由于人工审核无法做到第一时间响应审核每个新增的素材，一般需要T+1日审核前一天累积的新增素材。在节日大促临近前，用户提交任务增多，时间跨度可能更久达到3-5天；审核通过后还要经过10H的模型训练最终才能将效果反馈用户，用户确认效果好才能进行开播操作。这其中还不包含一旦用户上传素材审核不通过，还要打回重新录制，于是商家在反复按照人工审核的要求来回修改几次后，基本消磨了数字人开播的热情。近几个月来，商家对开播链路的繁琐和素材审核的要求越发不满，对于一键托管式开播的诉求越来越高。

2. 人工评测+督促用户整改的生态治理思路效率非常低

人工评测打分存在主观性，标准难统一，且评测后对低分直播间的治理建议，用户很难完全理解并执行，导致线上生态依然很差，大量低分低表现力数字人会严重影响C端买家的直播观看体验，这也就间接影响了数字人直播间的整体观看时长和下单量。

阶段三：自动化链路构建阶段

基于在传统人工审核阶段遇到的痛点问题，我们尝试通过构建自动化链路来解决问题，目标是在保证直播间效果前提下，尽可能让用户操作简化。

自动化链路解法

秉承着将简单留给用户，将复杂留给自己的理念，我们重新构建了整条链路，从用户录制素材简化——自动化审核——轻量化模型训练&推理&——自动化评测——自动化生态治理的完整链路，并通过对整条链路的联动优化，不断降低用户录制难度和学习成本，通过算法自动化完成闭环构建，从用户素材上传至数字人开播所需等待时长由3天降低至6H内。

用户素材录制SOP简化：

通过模型鲁棒性和适应性的提升以及自动化审核策略的兜底，将用户素材录制的要求难度降低，例如传统链路要求素材录制必须是绿幕，而绿幕录制会相应带来一系列对于拍摄的要求，像是不能穿毛绒衣服、不能带眼镜、手部不能超出画面等等，这些要求都变相限制了素材拍摄的真实性和多样度。

自动化审核:

相比人工审核，自动化审核有四个优势

新增素材第一时间审核，处理速度大幅提升，不存在任务积压的问题
能够更精细化的给出什么时间段内出现的问题，并给出精细化的修改建议
以算法模型能够接受的最小下限来筛选素材中可用片段，减少不必要的打回重拍问题，提升了审核通过率
通过前置审核模块的把控，将低质量低表现力素材直接打回，将传统链路中需要后置人工评测才能找到的问题全部前置自动化审核，提前发现触达用户整改，减少不必要的资源浪费。

轻量化模型训练&推理：

通过轻量化模型设计和模型压缩等手段，我们将模型训练时间压缩至4H内，模型推理计算量压缩至4GFlops。从用户下单到开播的时间跨度由之前的数天缩短至6H内。

自动化评测：

相比人工评测，自动化评测也体现出三个优势

人工评测线上数千场直播间效果需要3天完成，自动化评测只需要1天
人工打分存在主观性，同一个样本在不同批次被打分的方差波动较大
人工打分无法给出精细化的修改建议，更无法配合自动化生态治理完成进一步修正。

自动化生态治理：

对于线上评测低分的直播间，我们期望通过逐步整改将整体水位提升，从而让C端用户的观感体验和停留时长增加。但是传统人工打分后，触达给用户的整改建议笼统模糊，或者用户即便看明白了也没能力修改。

针对以上问题，我们着手通过算法自动化逐步完成直播间效果优化，例如针对线上数字人直播间扣绿效果差，但用户又不知道如何调整参数来提升效果的问题，我们通过在生态治理模块增加一个后置的抠图算法，通过精度更高的云端模型来帮助用户自动化完成效果修正。

阶段四：全托管开播

未来，我们会继续深扎在自动化生态治理这条链路上，不断用算法自动化代替人工（比如素材质量前置打分能力，按照人物表现力提前分级过滤），同时通过算法模型的升级（例如肢体表情驱动的上线）不断降低对商家用户素材的要求，从而实现全托管开播的终极目标。

为了实现高表现力数字人的效果优化roadmap

经过深入思考和问题拆解，为了实现高表现力的数字人，我们需要建立的能力包含：

形象生成能力：包含个性化形象生成、换头换脸等
形象驱动能力：包含肢体、头部、唇形的驱动能力
多模态感知交互能力：能够感知用户意图并与用户进行交互的能力
端云结合的形象部署方案：包含极致的模型压缩、移动端计算量优化等

基于拆解后的能力目标，在FY25期间，我们聚焦在形象生成和驱动以及移动端唇驱部署，分成了两阶段实现目标

阶段一：初步规模化

针对大量拍摄素材质量差或者没有模特的低等级商家，我们设计了一套基于换头+头部驱动+通用唇驱的方案，这套方案能够快速生成高表现力公模实现快速开播，实现了初步的规模化目标。链路效果演示视频如下

阶段二：逐步精品化&轻量化

而后，考虑到高等级商家对于质量的要求，我们针对这些商家将唇驱方案升级为单人单训。并不断优化模型复杂度，通过模型压缩手段，逐步实现了轻量化唇驱、移动端唇驱

当前，形象整体技术架构包含数据层、模型层以及SDK封装层

05 直播AI数字人技术实现细节

换头&头驱

任务难点

细致的表情迁移：需要确保细微的面部表情变化能够准确地从源面部迁移到目标面部，避免表情失真或不自然。
眼神方向矫正：很难处理眼神方向变化，使得目标面部的眼神方向与源面部保持一致，尤其在不同角度或遮挡情况下。
面部结构适应：由于不同面部结构（如不同的脸型和表情肌肉分布）带来的差异，确保迁移效果自然且真实是非常困难的。
高质量合成：生成高质量的人脸合成图像并不容易。保持面部细节和光照一致性，避免伪影和不一致性。
实时性：在实时应用中需要优化处理速度和性能开销，确保快速和高效的面部重现。
数据多样性：处理不同种族、年龄和性别的面部特征，要求大规模、多样化的数据集进行训练，收集这样规模的数据需要大量人力。

方案特点

流程链路图

模型网络

通用唇驱

任务难点

个体差异：每个人的发音方式、口型结构、嘴唇运动幅度和速度都有所不同。这些个体差异导致了同一音素在不同说话者的唇形表现可能大相径庭。模型需要能够学习并适应这些个体差异，以生成准确的唇形。
数据多样性要求高：为了训练一个能够适应不同说话风格和个体差异的通用化模型，需要包含多样化的训练数据。这意味着需要覆盖不同年龄、性别、口音和发音风格的说话者。如果数据不够多样化，模型可能无法有效地处理这些差异。而现有开源的数据非常匮乏。
特征抽取差异：音频数据和唇形数据的特征表示不同。音频通常用频谱或声学特征表示，而唇形则是图像或关键点数据。如何将这些不同类型的特征映射到一个统一的空间进行对齐是一个难题。

方案特点

自研唇驱方案通过巧妙的模型网络结构设计，并在收集整理的海量训练数据集上训练，达到通用模型效果不弱于现有竞品采用的针对特定人训练的模型。同时由于对采集成本要求不高，单数字人生产周期由竞品的1周缩减到1H内完成。

模型网络

基于Unet网络结构在隐空间特征上做条件控制的单步Inpainting方案保证了速度能够达到实时。
引入语音到人脸关键点，人脸关键点再到图片的双阶段网络结构保证生成唇形的稳定性。
引入ReferenceNet有效保证在唇形生成过程中人物ID一致性。

单人单训唇驱/轻量化唇驱

任务难点

数据量限制

单人单训意味着模型只能使用单一人物的数据进行训练，数据量有限，可能导致模型泛化能力不足。
数据多样性不足可能会导致模型对某些罕见发音处理不佳。
音视频同步问题

音频与唇形之间的精确时间对齐是一个挑战，尤其是在不同语速、语调或停顿的情况下。
延迟或错位会导致生成结果不自然。
资源约束下的实时性要求

需要在保证模型精度不下降前提下，尽可能的缩减模型复杂度和计算量
最终要实现在手机端就能运行的轻量化唇驱方案

方案特点

高度个性化

模型专为特定人物设计，能够更好地捕捉该人物的独特面部特征和说话风格。
相较于通用模型，生成结果更贴近目标人物的真实表现。
轻量化部署
由于模型专注于单一人物，可以将模型参数精简，便于在资源受限的设备上部署。

模型网络

关键结果

最终，我们完全版与轻量化版本的单人单训效果基本相当，但轻量化版本的计算量大幅减少，性能大幅提升如下：

06 总结与展望

总结

过去一年，我们在从零开始构建数字人形象技术体系的过程中取得了显著的进展，同时也经历了诸多困难与挑战。其中取得的关键性技术突破包含：

提出换头+V2V头部驱动的表现力迁移技术，构建了一条完整的数字人公模多样化生产链路。
研发实时通用唇动驱动模型，采用了自主研发的多阶段训练方法和参考帧采样策略，显著提升了唇形准确性和同步度，为后续技术研发提供了坚实的基础。
研发基于3D特征Warp的高精度单人单训方案，并配合搭建自动化生态治理链路，帮助线上数字人直播间整体效果升级。
此外，通过轻量化模型架构设计和模型压缩技术，我们攻克了效果与性能平衡难题，完成轻量化版单人单训方案。在保证效果与原版持平的前提下，计算量下降90%，在4070上可以实现9路并发，110+fps的推理速度。

但是我们也清晰地认识到，现有方案仍存在诸多不足之处。例如，目前依然依赖用户素材的录制，这不仅约束了最终数字人表现力的上限，也很难达到真正的全托管一键式开播。当然，这些也是我们在未来会重点优化解决的问题。

展望

展望未来，我们仍会以“一键托管式开播”和“高表现力数字人”作为远景目标，不断拓宽完善技术布局。

一方面，围绕“一键托管式开播”，我们将致力于打造高度自动化、低门槛的数字人直播解决方案，让用户能够轻松实现从下单到直播上线的全流程管理。

另一方面，针对“高表现力数字人”，我们将深入探索用户需求，通过精细化建模与定制化设计，赋予每个数字人独特的外观特征、动作特征和行为模式，从而满足不同品类、不同场景下的多样化直播需求。

九层之台，起于累土；合抱之木，生于毫末。我们深知目前距离伟大的AGI数字人目标还有很长一段距离，但我们始终坚信通过持之以恒的努力，这一天终将到来！

07 引用链接

https://www.isc.org.cn/article/22273033134927872.html
https://my.idc.com/getdoc.jsp?containerId=CHC52437724
https://www.bilibili.com/video/BV12g411Y7Wf/?spm_id_from=333.337.search-card.all.click&vd_source=4a59d11cb44914da769d54a2e38a6114=

08 团队介绍

本文作者玉哲，来自淘天集团-直播AIGC团队。本团队作为直播电商智能化领域的先行者，始终致力于通过AI原生技术创新重构电商直播场景中的人货场交互范式。团队基于对大语言模型研发、多模态语义理解、语音合成、数字人形象建模、AI工程化部署及音视频处理技术的深厚沉淀和积累，已搭建起覆盖直播全链路的AI技术矩阵。自主研发的数字人直播解决方案通过商业化验证，成功实现从技术研发到商业变现的完整闭环，累计服务上千家商家。