-
机器视觉压缩的三种途径:VCM、FCM 和 V-Nova 通配符
视频内容正越来越多地被专门或主要用于机器分析,典型应用场景包括监控摄像、自动驾驶、工业检测及无人机航拍等。H.264 与 HEVC 等传统编解码标准以人类视觉感知为优化目标,而非机…
-
Ubuntu 计划为所有文本字段添加 AI 语音输入功能
有没有想过直接对着文本框说话而不是打字?Ubuntu 26.10 能听到你的心声,而且是字面意义上的“听到”。 Canonical 的工程副总裁 Jon Seager 在 Ubun…
-
Modulate 为企业用户扩展 Velma 平台,引入原生语音实时对话智能
2026年6月3日,对话式语音智能公司 Modulate 通过其开发者 API 发布了旗舰产品 Velma 模型。此前该模型仅限企业用户使用,现在任何开发者都可以访问并部署这款领先…
-
规模化架构:如何将视频会议从单服务器扩展到高可用系统
扩展视频会议是一个真正困难问题。本文拟将学习如何构建一个在饱和发生前就能做出反应的自适应扩展循环,以及如何通过准入规则在流量突增时保护通话质量。
-
SecureConf 发布可完全定制品牌的网络会议平台
SecureConf 近日宣布,在OpenAI Codex的协助下,其原有的基于Flash的网络会议平台已成功升级为基于浏览器的WebRTC应用程序。 SecureConf 最初旨…
-
在服务端用 Pion + FFmpeg + RNN 做 WebRTC 通话降噪
WebRTC 服务端音频降噪实验应该先从一个很小的验证目标开始。Go 媒体服务能不能用 Pion 收到 Opus 音频,解码成 PCM,再交给 FFmpeg 的 RNN 降噪滤镜处理,并生成可验证的输出。
-
NiCE、Capgemini 和Route 101完成一项价值5亿英镑的交易,旨在实现英国税务海关总署客户服务的现代化
NiCE、Capgemini 和 Route 101 签署了一份价值 5 亿英镑(约合 6.79 亿美元)的合同,旨在实现英国税务机关 HMRC 客户服务运营的现代化。 为此,合作…
-
Google DeepMind 发布 Gemma 4 12B:一款无需编码器的多模态模型,支持原生音频
Google DeepMind 刚刚发布了Gemma 4 12B,这是一个完全摒弃传统编码器的密集型多模态模型。视觉和音频数据直接输入到 LLM 主干网。最终生成的模型可以在配备 …
-
直播间/语聊房AI互动助手如何助力新人主播熬过”开播前3分钟”
晚8黄金档,新人主播晴儿准时开播。开播10分钟,直播间只有3个观众。面对空空如也的弹幕区,她只好默默下播; 另一边,头部主播峰哥的直播间人气爆棚,弹幕快速刷屏中:“主包在玩什么游戏…
-
被遗忘的70%:企业沟通终于开始关注非办公人员
从历史上看,企业通信平台的构建一直基于一个根本不成立的假设:最重要的人都坐在办公桌前,登录着企业系统,可以通过电子邮件、聊天和各种管理设备联系到。然而,这种假设忽略了很大一部分员工…
-
2026年实时音视频如何重塑”一起冥想”体验:纯净人声、空间音效与AI引导的技术落地
“一起冥想”是一种多人在线、同步进行的引导式冥想场景,其核心技术诉求是纯净人声、低延迟同步、沉浸式空间音效与稳定的多人房间。借助即构科技(ZEGO) 实时音…
-
语音增强中的自监督学习:从无配对训练到基础模型先验
语音增强中的 SSL 已经不再只是“监督数据不够时的权宜之计”,SE 的研究范式已经发生明显变化。对于 SE 而言,自监督学习真正带来的,不只是更少标签,而是更强先验与更宽系统设计空间。
-
Elly推出AI招聘助手,将对话式招聘和外联整合到一个招聘系统中
2026年6月2日,AI 原生招聘平台 Elly 宣布正式推出 AI Sourcer,这是一个直接集成到 Elly 平台中的对话式人才搜寻和拓展工作流程。AI Sourcer 将基…
-
从任意视角探索场景:3D体积视频技术突破意味着3D流媒体可能很快成为现实
布朗大学的研究人员公布了一种名为 PackUV 的全新视频处理方法,他们将其描述为实现逼真、可存储的3D 体积视频的“关键一步”,这种视频可以从各个角度观看,并且与目前互联网上大多…
-
苹果和谷歌悄然开发了一种新的HDR标准:Eclipse Video
出人意料的是,继 Eclipsa Audio 之后,苹果、谷歌和 NBCUniversal 与 SMPTE 合作,开发了一种名为 Eclipsa Video 的全新 HDR 视频标…
-
腾讯云与Soniox建立战略合作伙伴关系,共同助力全球多语言语音AI应用发展
今日,腾讯云宣布与总部位于旧金山的语音 AI 公司Soniox建立战略合作伙伴关系。Soniox 专注于开发高精度、低延迟的语音 AI 解决方案。 此次合作将 Soniox 的语…
-
思科发布统一的WEM套件,用于管理人工和AI联络中心座席
思科推出了统一的劳动力互动管理 (WEM) 套件,为 Webex 联系中心内的人工和 AI 代理提供了一个统一的管理平台。 该套件包括劳动力管理 (WFM) 和质量管理 (QM) …
-
分析:AI 助手在回答流媒体可用性查询方面表现不一致
一项针对流媒体影片可用性数据的受控准确率分析发现,在对100部热门美国影片进行人工验证的真实数据进行测试时,ChatGPT的准确率为43.76%,Claude的准确率为50.21%…
-
Lumine Group 达成协议,将从 Synamedia 收购其视频网络业务
2026年6月2日,Lumine Group 是一家专注于长期持有通信及媒体软件业务的全球收购方,今日宣布已通过其子公司签署协议,将从 Synamedia 收购其视频网络业务(Sy…
-
Snowflake 收购 Natoma 以扩展 AI 代理治理
Snowflake上周宣布计划收购企业模型上下文协议平台 Natoma,这是其向智能体企业迈出的最新一步。此次收购将使 Snowflake 的治理范围扩展到 AI 代理和企业工作流…