大厂Animal
-
ICME 2025 | 火山引擎在国际音频编码能力挑战赛中夺得冠军
音频编码器是多模态大模型的重要组件,优秀的音频编码器在构建多模态系统中至关重要。在此背景下,小米集团、萨里大学与海天瑞声联合主办的 ICME 2025 Audio Encoder …
-
淘宝直播数字人:服务端工程技术
淘宝直播技术团队打造智能数字人的部分实践总结。本文介绍了服务端工程技术,服务端工程是构建稳定、弹性、高并发的后端支撑平台,确保数字人服务高效稳定运行。 01 背景 数字人直播是通过…
-
淘宝直播数字人:音视频&算法工程技术
本文是淘宝直播技术团队打造智能数字人的部分实践总结。 01 文章价值与思路说明 本文给大家带来的价值: 文章分享思路: 带着问题出发: 02 业务背景与价值 数字人直播 商家核心痛…
-
淘宝直播数字人:形象技术
本文将尝试给大家带来数字人形象技术在直播场景使用中遇到的挑战,介绍淘宝直播团队的思考和解法。
-
开源 | MeiGen-MultiTalk:基于单张照片实现多人互动演绎
近日,美团推出了音频驱动的多人对话视频生成框架MultiTalk,并在GitHub上开源,首创L-RoPE绑定技术,通过标签旋转位置编码精准解决多音频流与人物错位难题。该框架创新性…
-
淘宝直播数字人:LLM弹幕互动技术
本专题是淘宝直播技术团队打造智能数字人的部分实践总结。我们将探讨六大核心环节:LLM文案生产赋予数字人思考和内容生成能力,如同其“大脑”;LLM互动能力则聚焦对话逻辑与拟人化交流,…
-
B站:从拥塞控制算法热交换到内核错误修复
最近在哔哩哔哩,我们开发了一种改进的 BBR 拥塞控制算法,需要在真实环境中进行测试。该算法本身以内核模块的形式存在,因此将其安装到服务器上不是问题。然而,在快节奏的迭代过程中,我…
-
节省 50% 带宽!英特尔 WebRTC H.265 实现在 Chrome 中默认启用
英特尔 Web 工程团队在 Chrome 浏览器 136 版实现默认启用 WebRTC H.265,通过在功率和性能方面的重大改进,可支持更流畅、更高效的流媒体体验。
-
vivo Pulsar 万亿级消息处理实践(2)-从0到1建设 Pulsar 指标监控链路
本文是《vivo Pulsar万亿级消息处理实践》系列文章第2篇,Pulsar支持上报分区粒度指标,Kafka则没有分区粒度的指标,所以Pulsar的指标量级要远大于Kafka。在…
-
vivo Pulsar万亿级消息处理实践(1):数据发送原理解析和性能调优
本文是vivo互联网大数据团队《vivo Pulsar万亿级消息处理实践》系列文章第1篇。 文章以Pulsar client模块中的Producer为解析对象,通过对Produce…
-
Web端实时通信技术SSE在携程机票业务中的实践应用
本文介绍了携程机票前端基于Server-Sent Events(SSE)实现服务端推送的企业级全链路通用技术解决方案。深入探讨 SSE 技术在应用过程中包括方案对比、技术选型、链路层优化以及实际效果等多维度的技术细节。
-
淘宝直播组件调度、复用和治理
本文主要介绍了淘宝直播组件进行的三大优化方向:组件调度、组件复用和组件治理。通过这些优化,旨在提升直播间性能与用户体验。最终,这些优化在技术指标(如 CPU 使用率、卡顿率)和业务…
-
基于多模态大模型的细粒度视频质量评估方法 | CVPR 2025 Highlight
bilibili公司联合上海交通大学发布全球首个大规模细粒度视频质量评估数据库FineVD,并创新提出FineVQ模型,为UGC视频提供多维度细粒度质量评估。
-
B站:直播生态治理体系建设
1. 背景 随着直播行业蓬勃发展,行业规模持续扩大,平台正在积极构建更加规范、健康的直播环境。在这一进程中,通过完善内容审核机制、提升主播职业素养、完善直播规范等举措,不断净化网络…
-
B站:流媒体技术助力直播体验提升与玩法创新
本文介绍了B站流媒体技术在春晚直播中的一些应用,包括用户体验提升和玩法创新。详细介绍B站多媒体团队是如何实现这些功能,遇到了哪些问题,都是如何解决的。
-
2D存量视频变3D金矿,来看京东3D空间视频生成技术探索与应用 | ICME 2025
近年来,随着社交媒体、流媒体平台以及XR设备的快速发展,沉浸式3D空间视频的需求迅猛增长,尤其是在短视频、直播和电影领域,正在重新定义观众的观看体验。2023年,苹果公司发布的空间…
-
Seedream 3.0 文生图模型技术报告发布
字节跳动 Seed 团队正式发布 Seedream 3.0 技术报告。Seedream 3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型,对比 Seedream 2.0,…
-
CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛冠军
近期,在计算机视觉领域最具影响力的「国际竞赛 CVPR 2025 NTIRE」中,火山引擎多媒体实验室团队同学组成“SharpMind”小组,在NTIRE 2025 Short-f…
-
FLUX提速1.9X & LoRA热插拔!图像生成加速新标杆lyraDiff全面开源!
刚刚,腾讯天琴实验室在官微宣布 lyraDiff 全面开源,以下为全文内容。 还在忍受原生Stable Diffusion与FLUX等文生图模型的龟速推理和显存与成本焦虑?第三方加…
-
2025 B站春晚直播——极速流式直播转点播在春晚项目中的实践
项目背景 2025年春晚是公司(B站)的年度大型直播活动,在常规的直播之外,直播结束之后转出点播稿件的耗时,也是一项重要的竞争指标。根据运营团队同步的信息,一些竞品可以在10分钟之…