
大厂Animal认证作者
-
人工智能驱动的视频编解码技术解析 | 灯塔智库
写在前面:视频数据作为视觉信息处理中最大的大数据类别,正以指数级速度增长,长期主导全球网络流量。新兴应用场景如超高清视频、交互式视频会议与远程屏幕共享,对视频编解码提出了更高要求。…
-
火山引擎多媒体实验室 AIGC 视频画质理解大模型 VQ-Insight 入选 AAAI 2025 Oral
近日,AAAI 2026公布了录用结果,该会议是是人工智能领域极具影响力的国际顶级学术会议之一。据悉本次会议共有23680篇投稿进入审稿阶段,最终4167篇论文被录用,录取率为17…
-
播放器视频后处理实践(二)氛围模式
百度播放内核团队将氛围模式效果应用到了视频播放场景,用于提升用户观看视频沉浸感,同时在百度App、好看App两款产品完成上线。本文将详细说明视频场景氛围模式技术方案。
-
B站消息新架构升级
技术上数据量越大,降级概率越大,但消息业务场景上数据量大的是影响力更大的UP,业务不接受技术降级,如何破?如果消息流量增加10倍,怎么保障服务不挂?
-
Meta通过压缩元数据在Instagram上启用杜比视界HDR功能
通过与 FFmpeg 开发人员的技术合作以及 Dolby 规范,Instagram iOS 成为 Meta 首个支持 Dolby Vision 视频播放的应用。
-
VisionWeaver:从“现象识别”到“病因诊断”,开启AI视觉幻觉研究新篇章
长久以来,我们只知道大型视觉语言模型(LVLM)会犯错,但始终缺乏一把“手术刀”,无法剖析其视觉感知的根源性缺陷。我们只知其然,不知其所以然。我们希望当 AI 模型观察图像时,不再…
-
携程数字人直播实战:成本降低90%,我们如何实现规模化落地?
本文将主要携程团队设计开发携程数字人直播产品的背景、方案调研、设计和研发过程中遇到的问题以及解决方案,同时也介绍了本产品的主要功能和未来的规划。
-
从远程观看到实时交互:WebRTC双通道在云测试中的实践与创新
本文将揭秘马上消费如何基于WebRTC,在云测平台实现双向技术突破:不仅完成了手机到浏览器200ms超低延迟投屏,更创新实现了浏览器到手机的活体认证视频流逆向传输。
-
Meta:大规模视频隐形水印技术
本文将分享 Meta 如何克服隐形水印技术扩展过程中的挑战,包括如何构建基于CPU的解决方案,该方案不仅能提供与 GPU 相当的性能,更具备更优的运行效率。
-
LongCat-Flash-Omni 正式发布并开源:开启全模态实时交互时代
自9月1日,美团正式发布 LongCat-Flash 系列模型,现已开源 LongCat-Flash-Chat 和 LongCat-Flash-Thinking 两大版本,获得了开…
-
常用 Web 实时通信技术:原理+选型,一篇通关
在 Web 开发中,实时通信技术的核心目标是实现客户端(Browser)与服务器之间低延迟、双向 / 单向的动态数据交互,而非传统 HTTP 的 “请求 – 响应” 模…
-
火山引擎多媒体实验室画质理解大模型 Q-Insight 入选 NeurIPS 2025 Spotlight
近日,NeurIPS 2025公布了录用结果,该会议是机器学习与人工智能领域最具影响力的国际顶级学术会议之一。据悉本次会议共有21575篇投稿进入审稿阶段,最终5290篇论文被录用…
-
火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架,视频时序理解大模型SOTA!
在人工智能与多媒体技术深度融合的当下,视频时序定位(Video Temporal Grounding) 成为视频理解领域的核心任务之一,其目标是根据自然语言查询,在长段视频流中精准…
-
B站多模态精细画质分析模型在 ICCV2025 大赛获得佳绩
暑期,B站多媒体实验室带队参与了 ICCV MIPI (Mobile Intelligent Photography and Imaging) Workshop 的细粒度图像质量定…
-
阿里推出 FunAudio-ASR:解决语音大模型企业落地的“最后一公里”
语音大模型识别不准?“幻觉”“串语种”频发?定制词总被忽略? 当前语音大模型的主流架构,是在大语言模型(LLM)前接入声学编码器,将音频特征映射到文本空间,再由LLM生成转写结果。…
-
AI智能解说:大语言模型与大型赛事的碰撞 | 咪咕灯塔智库
大语言模型的应用为赛事解说注入了全新的活力和新鲜感。本文将深入探讨大语言模型在体育赛事直播场景的结合AI智能解说的相关技术。
-
火山引擎多媒体实验室重要突破!LiveGS 技术登榜 SIGGRAPH,重新定义移动端自由视角视频直播
近日,火山引擎多媒体实验室的最新研究成果 LiveGS: Live Free-Viewpoint Video via High-Performance Gaussian Splat…
-
基于 WebRTC 的大规模直播: 助推直播渗透率与观播时长显著增长 | ACM SIGCOMM’25
本文介绍一项基于实时通信引擎 WebRTC 的大规模极低延时直播技术 RTM,并阐述如何对 RTM进行高效优化,从而实现用户参与度指标(直播渗透率、平均观播时长)的显著增长。
-
快手与清华大学联合提出灵犀系统,重新定义个性化视频体验 | SIGCOMM 2025
本文介绍了一种创新的视频流优化系统:灵犀系统。这是业界首个成功部署在大规模生产环境中、面向用户个性化体验的自适应视频流优化系统。
-
KCP协议应用详解:为速度而生的可靠传输协议
在当今互联网应用中,实时性和流畅性至关重要,尤其是在网络游戏、视频会议和在线直播等场景中。传统的TCP协议虽然提供可靠的数据传输,但其复杂的拥塞控制机制和重传策略会导致较高的延迟,…