
大厂Animal认证作者
-
比赛直播视角粉丝说了算!F1毫秒级同步的“私人导播”是如何实现的?
在很长一段时间里,体育直播的逻辑是单向的:导播切什么,你就得看什么;导播觉得汉密尔顿重要,你就看不到后排缠斗的角田裕毅。但在时速300公里的F1赛场上,F1与亚马逊云科技联手做了一…
-
ICLR 2026 | 基于概念蒸馏的生成式视频复原算法Vivid-VR
本文介绍了由淘天音视频技术团队提出的一种名为Vivid-VR的生成式视频复原算法,该成果已被顶级会议ICLR 2026收录。针对现有基于扩散模型的视频复原方法在微调过程中容易出现的…
-
小红书:实时交互系统如何打造极致沉浸的语音拜年体验
2026年春节期间,面对亿级 DAU 流量洪峰,社交业务成功落地了「语音拜年」与「表情烟花」两大重磅活动。本文阐述了如何通过融合自适应调度引擎、实时 ASR 语音识别及高性能粒子渲…
-
ICLR 2026 | 火山引擎多媒体实验室提出GenDR, 探索扩散模型超分落地难题
由于扩散模型在图像生成任务取得质的突破,越来越多的底层视觉任务受益于其强大的生成式先验——从图像超分辨率、去噪,到图像修复、扩散模型正以细节生成和语义理解的双重优势,重构底层视觉任…
-
AI真人数字人语音对话性能优化实践总结
本文总结了为解决 AI 数字人导购对话中的回答延迟感而进行的性能优化实践。初始的对话链路因 ASR、LLM 和 TTS 的串行叠加,导致平均端到端延迟高达 5.64 秒。为实现数据…
-
视频生成推理加速实践:基于全局时间索引的序列并行 3D 位置编码优化
本文分享了哔哩哔哩在视频生成模型推理优化中的一系列实践,重点围绕分块自回归视频模型在序列并行场景下的计算与通信优化展开。除上述工作外,我们还在低比特量化、计算图优化等方向持续探索,…
-
vivo:游戏中心弱网优化实践
本实践围绕游戏中心在弱网环境下的性能优化展开,针对复杂网络场景下的页面加载慢、资源加载失败等问题,提出了优化方案:接入支持 QUIC 协议的 Cronet 网络库,通过更快的连接建…
-
视频生成推理加速实践:基于 torch.compile 的整图编译优化
一、引言:从算子级优化到计算图级优化 视频生成模型的推理优化是一个多层次、系统性的工程挑战。在模型推理的早期阶段,优化重点通常集中在算子层面,例如通过优化卷积、注意力等核心算子的计…
-
Meta如何大规模部署超分辨率技术以提升视频质量
在 Meta 的各个平台上,视频消费呈爆炸式增长,从根本上改变了数十亿用户与数字内容互动的方式。根据 Meta 2024 年第一季度财报,视频在 Facebook 和 Instag…
-
腾讯云媒体处理(MPS)视频编码内核再升级,研发神经网络压缩技术TNC
本文经 VCIP2025 和 PCS2025 两项关于图像压缩方面的大赛,重点介绍了腾讯香农实验室的codecTester团队研发的TNC图像编码。
-
数字人动画云端渲染方案
为解决拟我形象在多场景展示中依赖 3D 渲染导致的性能与接入问题,本文提出将形象预先导出为视频或动图资源。对比三种技术路径后,最终选择 Puppeteer + H5 渲染帧 + F…
-
诺基亚:基于 V-DMC 的高效 3D 网格压缩技术
实时 3D 一直存在扩展性问题。每次捕捉的瞬间都会生成一个包含成千上万甚至数百万个顶点的网格,这些顶点在帧与帧之间会不可预测地移动。虽然跟踪网格压缩对于可预测的、类似动画的序列效果…
-
美团发布 LongCat-Image 图像生成模型,编辑能力登顶开源SOTA
当前 AI 图像生成技术需求旺盛,但行业陷入 “两难困境”:闭源大模型性能强劲但无法自行部署或二次定制开发,开源方案普遍存在轻量化与模型性能难以兼顾、面向商用专项能力不足的痛点,制…
-
人工智能驱动的视频编解码技术解析 | 灯塔智库
写在前面:视频数据作为视觉信息处理中最大的大数据类别,正以指数级速度增长,长期主导全球网络流量。新兴应用场景如超高清视频、交互式视频会议与远程屏幕共享,对视频编解码提出了更高要求。…
-
火山引擎多媒体实验室 AIGC 视频画质理解大模型 VQ-Insight 入选 AAAI 2025 Oral
近日,AAAI 2026公布了录用结果,该会议是是人工智能领域极具影响力的国际顶级学术会议之一。据悉本次会议共有23680篇投稿进入审稿阶段,最终4167篇论文被录用,录取率为17…
-
播放器视频后处理实践(二)氛围模式
百度播放内核团队将氛围模式效果应用到了视频播放场景,用于提升用户观看视频沉浸感,同时在百度App、好看App两款产品完成上线。本文将详细说明视频场景氛围模式技术方案。
-
B站消息新架构升级
技术上数据量越大,降级概率越大,但消息业务场景上数据量大的是影响力更大的UP,业务不接受技术降级,如何破?如果消息流量增加10倍,怎么保障服务不挂?
-
Meta通过压缩元数据在Instagram上启用杜比视界HDR功能
通过与 FFmpeg 开发人员的技术合作以及 Dolby 规范,Instagram iOS 成为 Meta 首个支持 Dolby Vision 视频播放的应用。
-
VisionWeaver:从“现象识别”到“病因诊断”,开启AI视觉幻觉研究新篇章
长久以来,我们只知道大型视觉语言模型(LVLM)会犯错,但始终缺乏一把“手术刀”,无法剖析其视觉感知的根源性缺陷。我们只知其然,不知其所以然。我们希望当 AI 模型观察图像时,不再…
-
携程数字人直播实战:成本降低90%,我们如何实现规模化落地?
本文将主要携程团队设计开发携程数字人直播产品的背景、方案调研、设计和研发过程中遇到的问题以及解决方案,同时也介绍了本产品的主要功能和未来的规划。