火山引擎
-
火山引擎多媒体实验室 AIGC 视频画质理解大模型 VQ-Insight 入选 AAAI 2025 Oral
近日,AAAI 2026公布了录用结果,该会议是是人工智能领域极具影响力的国际顶级学术会议之一。据悉本次会议共有23680篇投稿进入审稿阶段,最终4167篇论文被录用,录取率为17…
-
虎牙直播×火山引擎:S15全球总决赛落幕,超高画质引爆观赛体验
11月9日,英雄联盟 S15全球总决赛圆满落幕。从明星战队 IG 与 T1的揭幕战点燃热度,到 T1战队最终夺冠锁定巅峰时刻,这场全球顶流电竞赛事吸引了无数关注和讨论。 虎牙直播作…
-
火山引擎多媒体实验室画质理解大模型 Q-Insight 入选 NeurIPS 2025 Spotlight
近日,NeurIPS 2025公布了录用结果,该会议是机器学习与人工智能领域最具影响力的国际顶级学术会议之一。据悉本次会议共有21575篇投稿进入审稿阶段,最终5290篇论文被录用…
-
火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架,视频时序理解大模型SOTA!
在人工智能与多媒体技术深度融合的当下,视频时序定位(Video Temporal Grounding) 成为视频理解领域的核心任务之一,其目标是根据自然语言查询,在长段视频流中精准…
-
火山引擎全新发布和升级了四款豆包大模型
今天,在 FORCE LINK AI 创新巡展·武汉站,火山引擎全新发布和升级了四款豆包大模型:豆包大模型1.6升级,原生支持4种思考长度;豆包大模型1.6 lite、豆包语音合成…
-
火山引擎多媒体实验室重要突破!LiveGS 技术登榜 SIGGRAPH,重新定义移动端自由视角视频直播
近日,火山引擎多媒体实验室的最新研究成果 LiveGS: Live Free-Viewpoint Video via High-Performance Gaussian Splat…
-
豆包·同声传译模型2.0来了:3s延迟,实时声音复刻
7月24日,火山引擎正式发布豆包·同声传译模型 Seed LiveInterpret 2.0,现已全量上线火山方舟平台。只需开口说话,你的“同款”声音就能同时开口说外语;演讲过程中…
-
ICME 2025 | 火山引擎在国际音频编码能力挑战赛中夺得冠军
音频编码器是多模态大模型的重要组件,优秀的音频编码器在构建多模态系统中至关重要。在此背景下,小米集团、萨里大学与海天瑞声联合主办的 ICME 2025 Audio Encoder …
-
豆包·语音播客模型来了!
5月20日,火山引擎正式推出豆包·语音播客模型,作为豆包大模型语音语言技术的重大场景化升级成果,该模型基于流式模型构建,实现了从文本创作到双人对话式播客的秒级转化,为用户带来“低成…
-
火山引擎正式发布 DiskANN+RaBitQ 向量算法引擎
5月8日,火山引擎正式发布 DiskANN+RaBitQ 向量算法引擎,旨在解决大模型时代向量数据库“高性能、大规模、低成本”的核心需求,目前已开启邀测。 该向量算法引擎通过深度融…
-
CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛冠军
近期,在计算机视觉领域最具影响力的「国际竞赛 CVPR 2025 NTIRE」中,火山引擎多媒体实验室团队同学组成“SharpMind”小组,在NTIRE 2025 Short-f…
-
火山引擎veImageX助力谱时智能云深耕照片直播赛道
照片直播作为一种新兴的影像传播方式,正在逐渐改变人们记录和分享美好瞬间的方式。无论是个人活动、婚礼庆典,还是企业会议、产品发布,照片直播都能实时记录并分享每一个精彩瞬间,共享美好时…
-
火山引擎夺得AIM2024大赛超分质量评估赛道冠军
近日,第2024届ECCV联合举办的AIM Workshop大赛公布比赛结果,在视频超分辨率质量评估赛道上,火山引擎多媒体实验室凭借基于大模型的画质评估算法获得冠军,技术能力达到行…
-
小冰携手火山引擎,让 AI 从崭露头角到落地生根
5月15日,2024春季火山引擎 FORCE 原动力大会泛互联网专场圆满举办。小冰公司 CEO、前微软(亚洲)互联网工程院常务副院长李笛应邀参加并在“AI 和云驱动下的互联网新十年…
-
火山引擎国际深度学习图像压缩挑战赛蝉联冠军
近日,第六届深度学习图像压缩挑战赛(以下将简称“CLIC大赛”)比赛结果公布,由火山引擎多媒体实验室与北大组成的联合参赛平台b-2在高码率视频压缩和低码率视频压缩两个赛道均夺得主客…
-
火山引擎发布音视频体验白皮书
在音视频场景中,QoS(服务质量)的变化究竟对QoE(体验质量)有多大影响,在业界并没有一个公认的答案。众所周知,体验可以促进业务增长,但企业和从业者们也经常面临以下三大疑问: 用…
-
火山引擎实时、低延时拥塞控制算法的优化实践
摘要 火山引擎智能拥塞控制算法 VICC(Volcano Intelligent Congestion Control)是一种自适应的拥塞控制算法,旨在解决全球不同网络环境下,不同…
-
Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码
背景介绍 作为语音信号处理研究领域的旗舰国际会议,Interspeech一直代表着声学领域技术最前沿的研究方向,Interspeech 2023 收录了多篇和音频信号语音增强算法相…
-
让文物“活”起来,火山引擎视频云三维重建技术揭秘
中国历史悠久,文化底蕴深厚,文物数目众多,文物作为前人智慧的结晶,其文献价值不言而喻。古籍是记录中华文明的重要载体,也是流传至今的宝贵文化遗产,文物保护也是一项长期重要的基础工作。…
-
多链路传输技术在火山引擎 RTC 的探索和实践
传统的数据传输方式大多是利用一个链路、选择设备的默认网卡进行传输,使用这种方式实现实时音视频通话时,如果默认网络出现问题(如断网、弱网等),用户的通信就会发生中断或者卡顿,影响用户…