
大厂Animal认证作者
-
面向电商直播场景的全模态大模型推理加速方案
本文主要介绍了面向电商直播场景的全模态理解大模型 TLiveOmni 在 vLLM 框架下的推理部署与量化优化全过程。文章详细阐述了如何通过自定义插件注册、修复多模态Token交替…
-
摆脱 Fork :Meta 如何通过 50 多个用例实现 WebRTC 的现代化
本文详细介绍了Meta如何设计解决方案来解决“fork 陷阱”,从而允许在单个库中同时构建两个版本的 WebRTC 以进行 A/B 测试,同时在 monorepo 环境中运行,并对正在测试的库进行持续升级。
-
Seed 全双工语音大模型发布:懂倾听、抗干扰,走向更自然的交互
今天,字节跳动 Seed 正式推出原生全双工语音大模型 Seeduplex。相比于上一代半双工豆包端到端语音模型,Seeduplex 基于“边听边说”的全新框架设计,交互体验的自然…
-
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术
音频生成技术正在经历一场全新的范式迁移——从传统级联架构,逐步向端到端生成范式演进。长期以来,主流的做法是“曲线救国”:合成系统先将音频压缩成梅尔频谱图等中间表征,再依赖神经声码器…
-
海尔智家 x 阿里云 Kafka 实践:轻松支撑百亿级消息,稳定性与效率双提升
海尔智家 x 阿里云 Kafka 实践:轻松支撑百亿级消息,稳定性与效率双提升,为海尔整个 AIoT 业务在高速增长中始终保持健康稳定运行提供了坚实的保障。
-
美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语
物理世界的信息由图像、声音、文字交织而成。今天的大模型,本质上仍然是以语言为中心的建模系统,语言作为人类智慧符号化表述,在“压缩即智能”的范式下表现出强大的能力。但通往真正的物理世…
-
Agent 语音交互如何更稳、更快?一次高并发消息链路优化实践
本文结合一个典型的高并发智能语音交互场景,介绍如何基于阿里云 RocketMQ LiteTopic 构建一套更稳定、更可靠、更高效的实时语音消息链路架构。
-
ICLR2026 | Ada-RefSR: 自适应隐式相关建模,开启“信而有证”的参考超分新范式
本文针对于单步SD的超分模型容易出现幻觉问题,提出了信而有证参考超分新范式,基于单步扩散模型构建,首先通过注意力机制引入参考信息,随后通过隐式相关性建模进行过滤与验证,对应的论文已…
-
比赛直播视角粉丝说了算!F1毫秒级同步的“私人导播”是如何实现的?
在很长一段时间里,体育直播的逻辑是单向的:导播切什么,你就得看什么;导播觉得汉密尔顿重要,你就看不到后排缠斗的角田裕毅。但在时速300公里的F1赛场上,F1与亚马逊云科技联手做了一…
-
ICLR 2026 | 基于概念蒸馏的生成式视频复原算法Vivid-VR
本文介绍了由淘天音视频技术团队提出的一种名为Vivid-VR的生成式视频复原算法,该成果已被顶级会议ICLR 2026收录。针对现有基于扩散模型的视频复原方法在微调过程中容易出现的…
-
小红书:实时交互系统如何打造极致沉浸的语音拜年体验
2026年春节期间,面对亿级 DAU 流量洪峰,社交业务成功落地了「语音拜年」与「表情烟花」两大重磅活动。本文阐述了如何通过融合自适应调度引擎、实时 ASR 语音识别及高性能粒子渲…
-
ICLR 2026 | 火山引擎多媒体实验室提出GenDR, 探索扩散模型超分落地难题
由于扩散模型在图像生成任务取得质的突破,越来越多的底层视觉任务受益于其强大的生成式先验——从图像超分辨率、去噪,到图像修复、扩散模型正以细节生成和语义理解的双重优势,重构底层视觉任…
-
AI真人数字人语音对话性能优化实践总结
本文总结了为解决 AI 数字人导购对话中的回答延迟感而进行的性能优化实践。初始的对话链路因 ASR、LLM 和 TTS 的串行叠加,导致平均端到端延迟高达 5.64 秒。为实现数据…
-
视频生成推理加速实践:基于全局时间索引的序列并行 3D 位置编码优化
本文分享了哔哩哔哩在视频生成模型推理优化中的一系列实践,重点围绕分块自回归视频模型在序列并行场景下的计算与通信优化展开。除上述工作外,我们还在低比特量化、计算图优化等方向持续探索,…
-
vivo:游戏中心弱网优化实践
本实践围绕游戏中心在弱网环境下的性能优化展开,针对复杂网络场景下的页面加载慢、资源加载失败等问题,提出了优化方案:接入支持 QUIC 协议的 Cronet 网络库,通过更快的连接建…
-
视频生成推理加速实践:基于 torch.compile 的整图编译优化
一、引言:从算子级优化到计算图级优化 视频生成模型的推理优化是一个多层次、系统性的工程挑战。在模型推理的早期阶段,优化重点通常集中在算子层面,例如通过优化卷积、注意力等核心算子的计…
-
Meta如何大规模部署超分辨率技术以提升视频质量
在 Meta 的各个平台上,视频消费呈爆炸式增长,从根本上改变了数十亿用户与数字内容互动的方式。根据 Meta 2024 年第一季度财报,视频在 Facebook 和 Instag…
-
腾讯云媒体处理(MPS)视频编码内核再升级,研发神经网络压缩技术TNC
本文经 VCIP2025 和 PCS2025 两项关于图像压缩方面的大赛,重点介绍了腾讯香农实验室的codecTester团队研发的TNC图像编码。
-
数字人动画云端渲染方案
为解决拟我形象在多场景展示中依赖 3D 渲染导致的性能与接入问题,本文提出将形象预先导出为视频或动图资源。对比三种技术路径后,最终选择 Puppeteer + H5 渲染帧 + F…
-
诺基亚:基于 V-DMC 的高效 3D 网格压缩技术
实时 3D 一直存在扩展性问题。每次捕捉的瞬间都会生成一个包含成千上万甚至数百万个顶点的网格,这些顶点在帧与帧之间会不可预测地移动。虽然跟踪网格压缩对于可预测的、类似动画的序列效果…