-
谷歌推出人工智能通信工具 Beam
谷歌宣布对其 Project Starline 进行重大品牌重塑,将其打造成名为 Beam 的全新3D视频通信平台。Beam在年度I/O开发者大会上宣布,旨在通过将传统的2D视频流…
-
即构实时互动AI Agent 2.1版本发布,支持多用户同时与一个智能体语音互动等功能
近日,即构科技(ZEGO)实时互动 AI Agent 2.1 版本发布,新增多用户 vs 1 智能体、语音识别断句、打断智能体说话等 7 项新功能;同时进一步优化了语音交互体验。 …
-
新研究揭示边缘 AI 成为关键任务时存在的差距
Techstrong Group与Latent AI合作开展的新研究发现,边缘 AI 因其速度、可靠性以及与云系统不同的实时处理数据的能力,对于关键任务操作变得至关重要。 对于边缘…
-
报告:75% 的黑人 Z 世代每天都使用社交媒体应用
社交媒体是年轻美国黑人消费者与媒体娱乐、时事新闻以及他们喜爱的品牌保持联系的强大平台。根据霍洛维茨基金会的年度报告《聚焦下一代》(FOCUS Generation Next),四分…
-
观点:多功能视频编码 (VVC) 准备好进入黄金时代了吗?
诺基亚首席工程师兼媒体编码行业论坛主席 Justin Ridge 报告了多功能视频编码 (VVC) 的发展现状及其在媒体和娱乐领域的应用情况。 视频已成为现代数字生活的重要支柱,从…
-
探索 OBS Studio 音视频推流技术(2):后端设计
OBS Studio 的后端由 libobs 库提供支持。libobs 提供了主处理流程、音视频子系统以及所有插件的通用框架。
-
Google AI 发布 MedGemma:一套针对医学文本和图像理解进行训练的开放模型
在 2025 年 Google I/O 开发者大会上,谷歌推出了 MedGemma,这是一款专为多模态医学文本和图像理解而设计的开放模型套件。MedGemma 基于 Gemma 3…
-
AVOXI 扩展 Webex、Zoom 和 Microsoft Teams 集成,推进统一通信的国际语音
2025年5月20日,联络中心云语音软件供应商 AVOXI 宣布,其国际云语音平台将进一步扩展,为Webex、 Zoom 和 Microsoft Teams提供增强型解决方案。作为…
-
Harmonic 在 ANGA COM 2025 上通过创新提升宽带体验
Harmonic 宣布公司将在 ANGA COM 2025 上展示宽带创新。在 cOS 虚拟化宽带平台的支持下,Harmonic 的 DOCSIS 和光纤解决方案提供了多种途径来提…
-
Canva 和 Nitro 强强联手,挑战企业协作巨头
今年,Canva 在协作领域大放异彩,通过与 PDF 和电子签名提供商 Nitro 合作,扩大了其产品范围,为企业客户提供了同时购买这两个平台的便利和 “极具吸引力的捆绑折扣”。 …
-
VKD3D 1.16 发布,支持 DXIL 着色器
Wine/CodeWeavers 开发者昨日发布了 VKD3D 1.16,这是 Wine 用于在 Linux 上运行 D3D12 Windows 游戏/应用程序的上游 Direct…
-
豆包·语音播客模型来了!
5月20日,火山引擎正式推出豆包·语音播客模型,作为豆包大模型语音语言技术的重大场景化升级成果,该模型基于流式模型构建,实现了从文本创作到双人对话式播客的秒级转化,为用户带来“低成…
-
延迟之战:WHIP 和 MoQ 会取代 RTMP 和 SRT 成为实时流媒体的主流吗?
多年来,RTMP 和 SRT 一直是直播领域的主力。但随着人们对更低延迟和更多互动体验的不懈追求,新的领军者正在崛起。WHIP(WebRTC-HTTP Ingestion Prot…
-
AlgoFace 和 Unigen 将可扩展的人脸 AI 引入边缘,实现实时隐私保护
AlgoFace 与全球嵌入式计算解决方案提供商 Unigen宣布建立战略合作伙伴关系,将可扩展的人脸 AI 基础设施与硬件解决方案相结合。 该合作伙伴关系最近在 ISC West…
-
探索 OBS Studio 音视频推流技术(1):整体框架
这个系列文章我们来介绍一位海外工程师如何探索 OBS Studio 音视频推流技术,对于想要开始学习音视频技术的朋友,这些文章是份不错的入门资料,这是第 1 篇:整体框架。 —— …
-
调查:流媒体捆绑服务赢得美国消费者青睐
过去一年,分销商和流媒体提供商在美国推出的全新流媒体捆绑包将在 2025 年产生强劲回报。这些捆绑包以包含 Disney+ 和 Max 的有线电视套餐为特色,并提供在新捆绑包中直接…
-
Omni-R1:利用文本驱动的强化学习和自动生成的数据推进音频问答
近期进展表明,强化学习可以显著提升 LLM 的推理能力。基于此,本研究旨在改进音频 LLM ——一种处理音频和文本以执行问答等任务的模型。MMAU 基准是一个广泛使用的数据集,旨在…
-
流媒体平台和 CDN:颠覆时刻
长期以来,流媒体平台一直依赖内容分发网络(CDN)来确保用户观看其提供的内容,但这种依赖性正开始削弱。流媒体的蓬勃发展重新定义了人们观看视频的方式,而 CDN 则是实现这一目标的中…
-
F1 TV Premium 推出 UHD HDR 和多视图,开启个性化赛事观看新时代
2025 赛季伊始,F1 TV 迎来了重大升级,推出了 F1 TV Premium,为订阅用户提供了以 4K UHD HDR 观看比赛的机会,并在部分设备上提供新的个性化多视图功能…
-
微软宣布推出 Fabric 数字孪生构建器,将物理世界带入虚拟世界
微软在其 Fabric 平台中宣布推出预览版数字孪生构建器工具,称该工具通过将物理世界带入数字世界,可以“显著增强组织做出明智决策的能力”。 数字孪生作为现实世界物理对象、系统或…