从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

大厂Animal • 来源：龙猫LongCat • 2026年5月22日上午10:52 • 行业资讯

今天，美团龙猫LongCat在官微宣布正式开源 LongCat-Video-Avatar 1.5，作为一款从开源 SOTA 迈向商业级应用的数字人视频模型。在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面跃升。LongCat-Video-Avatar 1.5 即便在复杂商业场景里，也能稳定、自然地输出高质量内容，让数字人视频生成从彩排室的完美演练，走向千人千面的真实舞台。

为了让数字人“更稳定、更自然”地动起来，LongCat-Video-Avatar 在以下三方面实现能力升级：

基础体验全面商用化：在长句、快语速、歌唱等复杂语音输入下，唇部运动更精准平滑，面部表情、头部姿态和肢体动作更协调，整体表达自然稳定；

支持更丰富的场景：借助高质量数据体系，模型能稳定处理真人、动漫、动物等多类主体，多人对话更加自然且准确区分说话者与聆听者；
推理部署更高效：采用 DMD 蒸馏至 8 步生成，效率提升约 15 倍，更适配规模化应用和真实业务场景。

开源链接：

Github：https://github.com/meituan-longcat/LongCat-Video
HuggingFace：https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
Tech Report：https://github.com/meituan-longcat/LongCat-Video/blob/main/assets/LongCat-Video-Avatar-1.5-Tech-Report.pdf
Project Page：https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/
Modelscope：https://www.modelscope.cn/models/meituan-longcat/LongCat-Video-Avatar-1.5/summary

关键技术细节

音频编码器升级：从 Wav2Vec2 升级为 Whisper-large，以更细致地捕捉音素和韵律，提升唇形同步和全身动作的时序稳定性。
高质量数据体系：构建了包含离线标注、在线验证的流程，并专门准备了多人数据、静默数据和情绪数据三类增强数据，以解决多人交互、非说话角色微表情和情感表达等难点。
性能评测领先：基于EvalTalker基准的综合评测显示，LongCat-Video-Avatar 1.5在物理合理性、时间稳定性、身份一致性和音视频协调性等多个维度表现均衡且领先。在用户偏好测评中，其对比如Kling Avatar 2.0、OmniHuman-1.5、HeyGen等主流模型均取得了更高的胜率。具体在单人/多人场景、画面稳定性（如极低的跳帧问题率）和音视频同步（如唇形同步）方面都展示了优异的数据。

开源意图

团队开源此模型，旨在将其作为一个可验证、可改进的技术基座，邀请开发者和创作者共同探索数字人视频在更开放、真实场景中的应用边界，推动整个领域的发展。