淘宝直播数字人：LLM弹幕互动技术

本专题是淘宝直播技术团队打造智能数字人的部分实践总结。我们将探讨六大核心环节：LLM文案生产赋予数字人思考和内容生成能力，如同其“大脑”；LLM互动能力则聚焦对话逻辑与拟人化交流，是实现自然交互的关键；TTS（语音合成）技术负责将文字转化为富含情感、个性化的“声音”；形象驱动技术让语音与表情、口型、肢体动作精准同步，塑造逼真视觉形象；音视频工程解决实时渲染、低延迟传输与高质量画面输出的技术挑战；最后，服务端工程构建稳定、弹性、高并发的后端支撑平台，确保数字人服务高效稳定运行。欢迎大家一起交流进步。

01 引言

随着AIGC浪潮的到来，将AI和直播场景结合的数字人直播带货逐渐走入大家的视野。从AIGC的角度而言，数字人无疑是一个完美的落脚点和试验田。我们是淘宝直播AIGC团队，整个数字人链路的组成是非常丰富的，AI算法模块上主要包含了CV（Computer Vision）视觉、TTS（Text To Speech）语音、LLM（Large Language Model）大模型三部分，部分方向上的交叉还组成了多模态的模块，当然整体架构上还必须和工程模块要有紧密的配合。

02 业务背景介绍

在数字人直播中，弹幕互动不仅仅是观众输入文字的一种方式，它是维持和增强用户体验的关键机制。通过良好的弹幕互动设计，数字人直播能在娱乐、信息传达和用户参与度之间找到平衡，从而提升整体直播质量和商业潜能。为了实现实时互动的功能，目前我们有两种弹幕互动的形式：一种是在直播间弹幕区通过用文本展示回复，另一种方式是把回复的内容通过TTS和唇驱让数字人口播。由于两种方式对于资源的要求和耗时的不同，口播回复在资源更充足的旗舰版上主推，其余版本主要采用文本展示回复的形式。具体的问答示例如下

03 互动架构总览

互动整体架构上主要包含以下模块：

预置库匹配模块：使用弹幕信息进行FAQ问答预置库的检索，如果命中商家配的预置库就不会进入意图识别流程，直接使用命中预置库作为意图，以预置库中配置答案进行回复。匹配算法为嵌入向量模型匹配召回，重排模型筛选。
意图识别模块：未命中预置库情况下，使用弹幕、历史对话和直播间状态进行意图识别，确认弹幕的实际意图，不同意图对应着后续的不同逻辑。
实体解析模块：多轮商品实体识别模块的功能是根据用户的历史对话以及识别的意图，解析出相关的商品名称、商品属性或链接号等。
检索模块：
- 如果意图为链接号商品问答/讲解则使用链接号检索需要的商品信息；
- 如果意图为无主语商品问答则直接使用当前讲品信息作为检索结果；
- 如果意图为商品问答/讲解则使用当前弹幕作为query在向量库中查询最匹配商品作为检索结果。
生成模块：在检索信息确认后，将检索信息、观众弹幕和历史对话插入到不同任务下的Prompt模板中，输入到LLM模型进行回复的生成。Prompt模板分为闲聊、商品问答和优惠问答三种。
讲解顺序调整：如果意图为商品讲解或者链接号讲解，将不会使用LLM生成回复，而是调整讲解顺序，使用固定话术进行回复。

04 多轮意图识别模块

背景与挑战

自去年12月以来，我们着手研发多轮互动大型语言模型（LLM）以提升观众与主播之间的互动体验，从而避免因单轮对话中AI身份暴露而导致的用户兴趣流失。在这个过程中，我们遇到了两大挑战。

首先，我们需设计一个合理的多轮对话架构，并通过数据积累以实现预期的互动效果。
其次，我们面临对现有意图识别模型的改进。我们的旧模型利用当前弹幕进行意图分类并积累了大量数据，而新挑战在于如何有效整合这些数据并兼容新增能力。

为此，我们开发了一个适用于直播数字人的多轮对话框架，以支持全面的多轮问答。同时，我们创新性地定义了新的意图识别输入输出范式，不仅拓展了输入范围（包括系统指令、直播间产品信息和观众弹幕），还采用LLM替代BERT作为基座模型。在多轮意图识别实验中，我们的模型表现优异，相较于DeepSeek-R1准确率更高（我们的模型精度为80%，而DeepSeek-R1为71%），并显著超越了在相同数据集上训练的BERT模型。

多轮互动架构

在每轮对话开始前，绿色框中内容会被输入到意图识别模型中进行意图识别。
确认意图后，会根据意图决定检索方式以及系统指令。
检索到对应意图下的信息后，虚线框中内容会作为输入输入到互动生成LLM中生成新一轮的主播回复。

意图分类

意图类型经历过两次变更：
- 2024年7月：新增商品推荐意图、直播间优惠问题意图
- 2025年1月：将商品推荐意图、商品查询意图合并入商品问答意图

实际效果

观众弹幕	历史对话	意图识别结果	数字人回复
智能马桶	user: 能不能推荐马桶assistant: 主播建议可以先看看17号链接。这款智能马桶功能齐全，包括停电冲水、自动调节座温水温、脚感冲水等，非常适合小户型使用，性价比很高。	商品问答	17号链接的九牧智能马桶有停电冲水、自动调节水温、脚感冲水等功能，券后价2199，现在入手很划算哦。
蓝牙连哪一个呢	user: 请问领夹麦要连蓝牙吗assistant: 我们这款领夹麦是蓝牙连接的，方便又实用哦。	商品问答	宝宝可以看一下6号链接的金运蓝牙耳机，是无线蓝牙连接的哦，或者11号链接的入耳式款，都是蓝牙连接的哈。
好的	user: 怎么抽奖？assistant: 抽奖的问题比较专业，建议宝宝去问下客服哈，他们应该更清楚具体的规则呢。	闲聊	好的，祝你抽奖顺利！

多轮意图识别模型

单轮意图识别模型使用观众弹幕作为意图识别模型的输入，使用BERT进行序列分类，输出意图label_id。
多轮意图识别使用直播间讲品、历史对话和观众弹幕作为意图识别模型的输入，使用LLM进行分类，直接输出意图label。

训练数据构建

使用单轮意图模型和DeepSeek-V3在清洗后的20k量级数据上分别进行预测，仅保留预测结果不一致的数据。（预测一致的数据靠原有的单轮数据就可以补充其分类能力）
再次清洗，筛去不合规弹幕数据，比如偷跑弹幕数据（实际弹幕是在和真人对话但是是开的数字人直播）、刷屏数据，这一步人工筛选。
送标，交由标注人员进行标注。
算法RD逐条检查标注结果，人工筛掉那些人为难以分辨、理解的数据，最后保留3000+条多轮意图识别数据。

实验&case分析

method	description	accuracy
deepseek-V3	prompt engineering	0.66
deepseek-R1	prompt engineering	0.71
Qwen2.5 7B仅在多轮数据sft	仅在3000条多轮数据微调，无cot，直接出答案	0.77
Qwen2.5 7B在多轮&单轮数据上sft，直接出结果	在3000条多轮数据+16000条单轮数据上微调，无cot，直接出答案	0.80
BERT在多轮&单轮数据上finetune	在3000条多轮数据+16000条单轮数据上微调，与Qwen在数据上完全对齐	0.69

相比于单轮意图难判断很多，每条数据可能需要半分钟到一分钟来确定真实意图是什么
目前的输入源[当前直播间讲品信息, 与观众的历史对话, 观众当前弹幕]完全足以判断观众的真实意图
存在的模糊空间比单轮意图更大，基于上下文也许既能提取到观众问的链接号也能提取到观众想问商品的关键词，还有可能观众之前问的品通过调整顺序之后现在就在讲，但是这种case其实分错了，后续也能回答对

Good Case分析

当前弹幕	当前讲品	历史对话	单轮意图	多轮意图	说明
智能马桶		user: 能不能推荐马桶assistant: 主播建议可以先看看17号链接。这款智能马桶功能齐全，包括停电冲水、自动调节座温水温、脚感冲水等，非常适合小户型使用，性价比很高。	商品讲解	商品问答	如果仅看一轮意图，观众直接说了一个商品，那么就会给观众讲智能马桶，结合多轮数据后识别到用户是希望推荐智能马桶
擦头发		user: 哪款适合擦头发assistant: 主播建议可以先看看2号链接。这款干发毛巾采用纯棉材质，吸水性好，设计多样，非常适合日常使用。	拒答	商品问答	只看”擦头发”不知所云，结合上下文后识别到用户是要擦头发的商品
主播你好，这款进位器需要充电吗？	gps定位器车载车辆防丢防盗追跟定仪器订位汽车跟踪追踪录音神器	user: 主播你好，要充电吗assistant: 这个问题蛮专业的，我不太清楚，可以去问下客服哈，他们应该了解。	商品问答	无主语商品问答	只看弹幕，可能被分类到”商品问答”意图，去宝贝口袋检索商品，但是结合当前讲品来看，基本确定问的就是正在讲的商品

多轮对比DeepSeek-R1结果分析

DeepSeek-R1会在长尾边界问题上给出错误的意图分类结果，无法单纯通过调prompt来解决分布广泛的长尾边界问题。
但依赖数据驱动的SFT模型可以解决这类广泛的长尾边界问题，并且可以在后续的优化中通过大量标注的线上数据进一步提升性能。

reasoning实验

为了探究是否可以将R1的reasoning能力注入到意图识别模型中，我们使用R1根据标签意图生成了cot部分的数据，并使用带有cot的标签数据对LLM进行训练。

method	description	accuracy
Qwen2.5 7B仅在多轮数据sft	仅在3000条多轮数据微调，无cot，直接出答案	0.77
Qwen2.5 7B仅在多轮cot数据sft	仅在3000条多轮cot数据微调，带cot，reasoning后出答案	0.68

生成的cot部分标签稀释了真实标签导致效果反而不如直接输出真实标签的训练格式
在开放标签空间下使用R1标注会有良好的效果，但是如果在本身就有真实标签的情况下使用R1进行reasoning的标注反而会不及预期

05 实体解析模块

多轮商品实体识别模块的功能是根据用户的历史对话以及识别的意图，解析出相关的商品名称、商品属性或链接号等。

核心挑战：需处理历史依赖、数字干扰、商品泛化等复杂场景。

输入：用户当前弹幕+历史对话记录+识别的多轮意图
输出：结构化提取以下三类实体：
- 商品实体（特仑苏纯牛奶）
- 商品属性（2匹/39码/iPhone15）
- 链接号（107号/39号）

训练数据

数据源使用和意图识别同一批的训练数据，保留商品问答、商品讲解、链接号商品问答、链接号商品讲解数据，使用DeepSeek-R1（测试集上准确率最高）+人工过滤的方式得到2100条高质量多轮商品解析数据。

数据维度	说明
基础数据	保留原始数据中的商品问答（840条）、商品讲解（210条）、链接号相关（770条）
数据增强	采用对抗样本生成策略新增1000条，覆盖发音/拼写/方言等干扰场景
质量保障	– 多阶段DeepSeek-R1推理生成- 人工校验

数据增强

数值歧义

链接号会受到对话中数值信息的干扰，导致解析结果错误，需要提升模型对数字的敏感度。以下是三类干扰类型：

干扰类型	典型案例	错误分析
产品功率数值	2匹空调 → 提取2	数值型参数与链接号混淆
尺码/尺寸数值	39码运动鞋 → 提取39	未建立「参数-链接号」层级关系
版本迭代数字	iPhone15 → 提取15	商品名称中的数字被误判为链接号

我们使用DeepSeek-R1进行二阶段数据生成，先生成干扰类型，再根据干扰类型生成对话样本，有效提升数据多样性。

商品泛化

如果对话历史中出现具体商品，模型会错误提取为具体商品，而用户问的是泛化商品。例如：

用户问：哪个牛奶有活动 -> 模型错误提取：特仑苏纯牛奶

我们生成泛化类型商品，主要包含以下三种：

泛化类型	商品	类型
商品泛化	佳沛奇异果	水果
品牌泛化	特仑苏纯牛奶	牛奶
规格泛化	农夫山泉5L装	大瓶装水

我们先人工标注一批商品，用DeepSeek-R1扩展商品池后再结合商品类目生成对话样本。

历史噪声

当历史对话中的商品与用户当前弹幕中的商品冲突时，会解析成对话历史中的明确商品，需要生成对抗数据，提升模型抗噪声能力。我们总结概括了以下问题类型：

问题类型	生成策略	示例
发音简写	保留首字母+数字	i12 → iPhone12
拼写错误	相邻键位替换/漏字母	iQO10 → iQOO10
系列混淆	跨代系混合	小米13 → 小米14
方言谐音	拼音变形	爱酷11 → iQOO11

我们使用DeepSeek-R1先生成存在不同问题类型的商品对，再根据商品对生成对话样本。

实验&case分析

训练方法：我们使用7B的底座模型进行LoRA微调

评测指标：计算预测item和实际item字符串2-gram的Jaccard相似度，正确阈值设置为0.7，最终指标使用accuracy。

G₂(S)表示表示字符串S的2-gram集合

model	acc
gpt4-fewshot-cot	0.77
deepseek-r1	0.87
ours	0.92

当前弹幕	历史对话	多轮意图	商品解析结果
保暖款	“观众弹幕: 鞋”,”主播回复: 涛涛小铺吖宝宝，154号宝贝可以先看看商详页，这个商品我会在晚些的直播时间段里专门来讲解噢。好，那主播先把107号宝贝讲完哈”	商品问答	保暖款鞋
是不是长得差不多啊	“观众弹幕: 12跟13比哪个性价比高”,”主播回复: iQOO 12和iQOO 13的性价比需要综合考虑价格和性能。iQOO 12原价3999元，券后价3118.3元，iQOO 13原价3999元，券后价3928.3元。iQOO 12的性价比更高，建议宝宝可以优先考虑iQOO 12。”,”观众弹幕: 12跟13哪个性能更好”,”主播回复: iQOO 13的CPU是骁龙8至尊版，而iQOO 12的CPU是第三代骁龙8，从性能上来说，iQOO 13更胜一筹。”,”观众弹幕: 拍照哪个好”,”主播回复: 主播建议可以先看看39号链接。这款手机主摄像素高达5000万，前置摄像头1600万像素，超广角像素也是5000万，非常适合喜欢拍照的小伙伴。”	商品问答	iQOO 12,iQOO 13
一号连接跟七号有什么差别吗	观众弹幕: 7号可以录音吗？主播回复: 7号链接的高端定位器有录音功能哦，具体细节可以问下客服哈，他们更清楚呢观众弹幕：七号连接，要连接WIFI吗？主播回复：7号链接的高端定位器有WIFI版本哦，具体怎么操作可以问下客服哈，他们更清楚呢	链接号商品问答	1,7
区别	观众弹幕：30和27号的优惠主播回复：咱们下单前记得点击直播间右下角的宝贝口袋，看到有店铺优惠券的哈，进店查看宝贝后即可领取。	链接号商品问答	30,27

06 商品信息检索模块

每次检索宝贝口袋商品时，首先和实时宝贝口袋商品进行同步，输入商品信息，使用BERT计算上下文向量，新增向量库中没有的向量，剔除不存在于宝贝口袋的商品向量。每一条向量对应一个itemId。
同步完实时宝贝口袋后，使用BERT计算查询向量，找到相似度最高的商品后，再使用商品信息和弹幕信息进行BM25在词频程度上进行精排，最后根据词频-语义混合过滤得到最终的检索结果。以商品信息列表的形式返回。
通过添加词频精排模块可以有效解决短query难召回的问题。

07 回复生成模块

生成任务定义

闲聊：根据历史上下文和观众当前弹幕对观众进行回复

历史对话	当前弹幕	主播回复
user: 买好了assistant: 太棒了，感谢支持！希望你会喜欢哦！user: 忘记写手几号怎么办assistant: 没关系的，可以联系客服帮忙查询一下，他们会帮你解决的。	联系客服了	好的，客服会尽快帮你解决的，别担心。

商品问答：根据商品信息对用户弹幕进行回复，包括推荐、查询等

观众弹幕	主播回复	商品检索结果（实际商详过长，省略去无关信息）
你好，有3p的壁挂式空调吗	咱们209号链接的格力空调就是3匹的壁挂式哈，现在券后价6399，活动力度很大哦。	[{“商品名”: “【Gree/格力官方】变频冷暖2匹大挂机家用客厅卧室两用空调清炫风”,”链接号”: 208},{“商品名”: “【Gree/格力官方】变频冷暖3匹大挂机家用客厅卧室两用空调清炫风”,”链接号”: 209},{“商品名”: “【Gree/格力官方】一级能效变频冷暖小2匹家用卧室空调挂机风纪元”,”链接号”: 288}]

直播间优惠问答：

如果商家配有直播间优惠，会根据直播间优惠信息对用户弹幕进行回复，包括推荐、查询等。
此外，如果没有配直播间优惠或者直播间优惠信息无法回答观众问题，会采用通用的优惠话术，包括优惠券、红包、国补等。

观众弹幕	主播回复	优惠信息
怎么拍划算	咱们下单前记得点击直播间右下角的宝贝口袋，看到有宠粉红包的哈，进店查看宝贝后即可领取。	{ “红包类型”: “购前券”, “红包名称”: “宠粉红包”, “金额门槛”: “无门槛”, “优惠额度”: “4.0元”, “红包限制”: “限粉丝”, “领取方法”: “进店查看宝贝”}
现在还有国补嘛	有宝宝问现在还有国补吗，你可以直接在宝贝口袋查看，有政府补贴的商品会有标签的哈，点进去领取就行，不同地区政策不一样的。

互动LLM模型训练数据

意图	数据类型	数据数量	意图	数据类型	数据数量
闲聊	单轮闲聊	1509	商品推荐	初版推荐数据	400
闲聊	多轮闲聊	181		多商品-商品推荐-单轮	400
直播间优惠	直播间优惠-有优惠	278		多商品-商品推荐-多轮	249
直播间优惠	直播间优惠-无优惠	121	商品查询	多商品-商品查询-单轮	400
商品问答	单商品问答-可回答	1678	商品查询	多商品-商品查询-多轮	354
	单商品问答-拒答	1249	无主语商品问答	无主语商品问答-单轮	400
	多商品问答-多轮	400	无主语商品问答	无主语商品问答-多轮	398
	多商品问答-单轮	399	总计	所有数据	8416

互动模式区分

用户弹幕	弹幕版	tts版
直播间智能马桶优惠吗	17号链接原价9999现在券后2199，45号链接券后2799，31号链接券后2599，活动力度很大哦，现在入手很划算呢。	看到有宝宝问智能马桶的优惠，十七号链接原价九千九百九十九，现在券后只要两千一百九十九，四十五号链接券后两千七百九十九，三十一号链接券后两千五百九十九，现在不买可能就没活动了哦。那主播继续讲啦

弹幕版：直接对观众进行回复；不对数字和英文进行正则化；限制为60字（弹幕回复框限制）。
tts版：首先对观众的弹幕进行简单复述，让观众知道在和他对话；对数字和英文进行正则化，便于tts生成；无字数限制。
模式区分实现方式：
- 弹幕版：从原始数据中使用LLM删去复述观众弹幕部分。
- tts版：对原始数据正则化处理。
- 使用系统指令区分两个版本的数据。
两种模式带来的问题：
- 同一个样本可能会在训练过程中被训练两次，导致过拟合。
解决方案：
- 在分模式前就分好训练、验证集，避免同一条原始数据的不同模式分别出现在训练、验证集当中导致验证集失效。（否则会导致eval accuracy飙升至95%以上，通常生成任务下微调LLM的收敛时eval accuracy为70~80%比较正常）
- 观察learning curve调整学习率，并使用eval loss最低的checkpoint作为模型训练的结果。

08 总结&规划

过去一年我们搭建了数字人直播间的弹幕问答框架，从最初的商品问答逐渐扩展到能够覆盖直播间80%+有效意图的阶段，后续为了更好的服务数字人直播用户，我们会以提升整体问答满意度效果为指标，并结合多模态融合、千人千面等产品方向，为用户呈现一个有问必答，回答质量在某些维度甚至能优于真人的智能互动：

千人千面的专属直播间，对每个用户提供个性化的贴心服务，能够发挥AI相对真人的优势；基于用户画像分析用户的偏好，让用户感受到VIP级的待遇。
区别于其他形式的互动问答，数字人直播间的弹幕跟直播间画面和数字人文案是强相关的；因此将文案信息和直播间caption信息融合，获取用户进入直播间视角的信息，对于帮助理解用户query预期有较大帮助。
由于直播场景下涉及大量底层数据，如何有效的组织和存储相关数据，并做到知识冲突检测等很重要。因此后续我们将探索引入知识图谱，基于GraphRAG的技术方案实验，提升问答的准确性。
问答展示形态和多模态信息融合，在真人对直播间问题给出回复时往往也会展示产品细节，因此我们希望从多模态素材理解出发，问答过程中使用和展示合适的素材，对于扩展有效信息输入和直播间形态也有较大帮助。
从真人直播理解出发，沉淀真人主播如何给出的弹幕回复框架和逻辑，以及其他主动交互形态，解决用户问题从而促成单用户的购买转换。

09 团队介绍

本文作者梓赫、语瀚、玄桉，来自淘天集团-直播AIGC团队。本团队作为直播电商智能化领域的先行者，始终致力于通过AI原生技术创新重构电商直播场景中的人货场交互范式。团队基于对大语言模型研发、多模态语义理解、语音合成、数字人形象建模、AI工程化部署及音视频处理技术的深厚沉淀和积累，已搭建起覆盖直播全链路的AI技术矩阵。自主研发的数字人直播解决方案通过商业化验证，成功实现从技术研发到商业变现的完整闭环，累计服务上千家商家。