大厂Animal的文章 - 实时互动网个人中心 - 实时互动网

大厂Animal认证作者

分享大厂实时互动相关技术

432 文章

7 粉丝

技术文章

CVPR 2026｜Oxygen XR 团队在原生鱼眼高斯泼溅技术上带来新突破

Oxygen XR产品研发团队联合清华大学一起提出了 DirectFisheye-GS 框架，创新性地将鱼眼模型原生嵌入到3D高斯泼溅管线中，实现了对鱼眼图像的直接、无损处理。

大厂Animal
2026年7月29日
技术文章

TF-MossFormer：鱼与熊掌亦可兼得？在单通道语音分离中同时捕捉“局部细节”与“全局依赖”

近年来，单通道语音分离技术犹如一场精彩的接力赛，从 Conv-TasNet 的精巧卷积，DPRNN 的深度循环，到 SepFormer 和 MossFormer 的 Transfo…

大厂Animal
2026年7月27日
技术文章

阿里团队自研 AOQ 协议，为多模态 AI 构建确定性传输底座

随着大模型向多模态全面演进，AI 应用正从云端走向终端。端侧公网“最后一公里”的网络波动与 AI 推理所需要海量数据的实时传输需求之间，存在较大的冲突，会使得模型的推理效果以及用户…

大厂Animal
2026年7月22日
技术文章

阿里通义Wan-Streamer v0.2：响应延迟仅550ms，让 AI 真正与你”面对面”

和 AI 打视频电话，卡顿、延迟、声画不同步，是常态。这本质上就是“语音识别 ➡️ 大模型 ➡️ 语音合成 ➡️ 动画驱动”的流水线拼装。环节越多，延迟越高，割裂感越强。但真正…

大厂Animal
2026年7月17日
技术文章

模型上新｜Qwen-Audio-3.0-Realtime 如何让语音交互“懂倾听，更聪明”？

语音交互的下一个形态是什么？是毫秒级的快速响应？是深度思考的逻辑推理？还是能够感知情绪、像真人般对谈的情感共鸣？如何让语音交互跨越“机械感”走向了“自然和智能”？我们也在持续探索。…

大厂Animal
2026年7月15日
实时音视频

CVPR 2026 | 重思基于扩散模型的视频超分辨率：利用对齐特征的稠密引导 DGAF-VSR

本文提出 DGAF-VSR，一种基于扩散模型的视频超分辨率方法，针对现有技术在感知质量、重建保真度和时序一致性之间难以兼顾的挑战，通过关键观察发现特征域比像素域更适合提供稳定的时序…

大厂Animal
2026年7月10日
即时通讯

搜狐技术：未读消息数系统设计

在互联网海量信息传播的背景下，大数据量、高频率更新场景中的未读消息数计算与提醒，成为考验系统性能与用户体验的关键问题。作者：赵勇来源：搜狐技术产品原文：https://mp.we…

大厂Animal
2026年7月10日
技术文章

阿里视频云：视频点播成本优化实战

为短视频、直播回放、在线教育等业务提供端到端的视频点播成本优化方案，覆盖转码模板配置、存储策略降冷、ABR 播放器集成，帮助在保证播放体验的前提下系统性降低账单支出。作者：逸良来…

大厂Animal
2026年7月9日
技术文章

ICLR 2026 | 基于视觉自回归模型的前馈式主体驱动图像生成算法 EchoGen

中国科学技术大学与淘天集团-音视频技术团队在 ICLR 2026上提出的 EchoGen，作为首个基于视觉自回归模型的前馈式主体驱动图像生成框架，通过创新的双路径主体注入策略（解耦…

大厂Animal
2026年7月8日
技术文章

ICML 2026 Spotlight｜快手联合中科院软件所提出业界首个隐喻视频理解基准与方法

在短视频与社交媒体盛行的今天，越来越多的创作者不再直白地表达观点，而是借助隐喻来传递深层意涵。一段画面里，一群身着燕尾服、戴着法官帽的猪在豪华宴会上大快朵颐，桌子底下的猫却在争抢残…

大厂Animal
2026年7月6日
实时音视频

Netflix 发布 VMAF v1：一场更接近“VMAF 2.0”的更新

如果只看命名，VMAF v1 很容易被误解成一次常规模型迭代。但结合 Netflix 官方技术博客《VMAF v1: Good Is Not Good Enough》和 Netfl…

大厂Animal
2026年7月6日
行业资讯

模型上新：阿里推出 Fun-ASR-Flash，从“听清楚”走向“听明白”

在标准普通话、清晰录音的条件下，语音识别主流模型的准确率早已相当高。现实中的语音很少是“标准”的。它可能是一口浓重的家乡方言，可能中外夹杂、不时蹦出小语种，也可能藏着需要结合上下文…

大厂Animal
2026年6月29日
实时音视频

Meta：在实时通信（RTC）领域大规模采用 AV1

Meta在实时通信中采用AV1是一项历时数年的工作，本文将分享在部署 AV1 和扩大覆盖范围时遇到的技术和运营挑战，以及 Meta 如何解决这些挑战以实现实时通信。

大厂Animal
2026年6月25日
行业资讯

音乐流媒体的下一个“听觉革命”：腾讯音乐NAC通过AVS官方验收

摘要：2026年6月11日至13日，数字音视频编解码技术标准工作组（AVS工作组）第97次全体会议在乌鲁木齐召开。会上，由腾讯音乐娱乐集团（TME）提交的第四代音频编解码技术标准（…

大厂Animal
2026年6月24日
应用场景

沙发搬到线上：火山引擎视频云如何用 RTC+直播打造一场“云上陪看房”？

沙发搬到线上：火山引擎视频云如何用 RTC+直播打造一场“云上陪看房”？不同步，是陪看体验的头号破坏者一个人看球最难受的不是错过精彩镜头，而是情绪来了却没人分享。进球想喊一嗓子…

大厂Animal
2026年6月23日
行业资讯

CVPR NTIRE 2026｜UGC短视频智能修复挑战赛结果出炉！

NTIRE 2026基于生成模型的真实场景UGC短视频修复挑战赛聚焦真实UGC短视频中的复杂降质修复问题，面向全球研究者与开发者开放征集。挑战赛基于全新UGC短视频修复基准数据集K…

大厂Animal
2026年6月9日
行业资讯

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

今天，美团龙猫LongCat在官微宣布正式开源 LongCat-Video-Avatar 1.5，作为一款从开源 SOTA 迈向商业级应用的数字人视频模型。在唇形同步、物理合理性、…

大厂Animal
2026年5月22日
技术文章

下一代大模型推理网络架构：ZCube如何有效破解网络瓶颈？

大模型推理正在重新定义AI基础设施。网络，已不再是过去的支撑性基础设施，而是演变为决定大模型推理系统吞吐、尾时延与MaaS综合成本的关键变量。针对PD分离部署中日益严峻的结构性网…

大厂Animal
2026年5月21日
实时音视频

火山引擎联合中科院声学所在 ICASSP 首届低资源音频编解码器挑战赛中取得佳绩

作为全球首届低资源音频编解码器专项赛事，ICASSP 2026 低资源音频编解码器比赛（2025 Low-Resource Audio Codec Challenge，LRAC C…

大厂Animal
2026年5月19日
即时通讯

重构大模型通信架构：火山引擎 RocketMQ For AI 解决方案

AIGC 技术爆发促使大模型从实验阶段迈向企业级大规模应用，但它任务耗时久、算力成本高、流量波动大、智能体协作复杂这些核心特点，给底层通信和调度基础设施带来了严峻挑战，企业通常会遇…

大厂Animal
2026年5月14日

点击查看更多