从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

今天,美团龙猫LongCat在官微宣布正式开源 LongCat-Video-Avatar 1.5,作为一款从开源 SOTA 迈向商业级应用的数字人视频模型。在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面跃升。LongCat-Video-Avatar 1.5 即便在复杂商业场景里,也能稳定、自然地输出高质量内容,让数字人视频生成从彩排室的完美演练,走向千人千面的真实舞台。

从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

为了让数字人“更稳定、更自然”地动起来,LongCat-Video-Avatar 在以下三方面实现能力升级:

  • 基础体验全面商用化:在长句、快语速、歌唱等复杂语音输入下,唇部运动更精准平滑,面部表情、头部姿态和肢体动作更协调,整体表达自然稳定;
  • 支持更丰富的场景:借助高质量数据体系,模型能稳定处理真人、动漫、动物等多类主体,多人对话更加自然且准确区分说话者与聆听者;
  • 推理部署更高效:采用 DMD 蒸馏至 8 步生成,效率提升约 15 倍,更适配规模化应用和真实业务场景。

开源链接:

  • Github:https://github.com/meituan-longcat/LongCat-Video
  • HuggingFace:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
  • Tech Report:https://github.com/meituan-longcat/LongCat-Video/blob/main/assets/LongCat-Video-Avatar-1.5-Tech-Report.pdf
  • Project Page:https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/
  • Modelscope:https://www.modelscope.cn/models/meituan-longcat/LongCat-Video-Avatar-1.5/summary

关键技术细节

  • 音频编码器升级:从 Wav2Vec2 升级为 Whisper-large,以更细致地捕捉音素和韵律,提升唇形同步和全身动作的时序稳定性。
  • 高质量数据体系:构建了包含离线标注、在线验证的流程,并专门准备了多人数据静默数据情绪数据三类增强数据,以解决多人交互、非说话角色微表情和情感表达等难点。
  • 性能评测领先:基于EvalTalker基准的综合评测显示,LongCat-Video-Avatar 1.5在物理合理性、时间稳定性、身份一致性和音视频协调性等多个维度表现均衡且领先。在用户偏好测评中,其对比如Kling Avatar 2.0、OmniHuman-1.5、HeyGen等主流模型均取得了更高的胜率。具体在单人/多人场景、画面稳定性(如极低的跳帧问题率)和音视频同步(如唇形同步)方面都展示了优异的数据。

开源意图

团队开源此模型,旨在将其作为一个可验证、可改进的技术基座,邀请开发者和创作者共同探索数字人视频在更开放、真实场景中的应用边界,推动整个领域的发展。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐