-
模型上新:阿里推出 Fun-ASR-Flash,从“听清楚”走向“听明白”
在标准普通话、清晰录音的条件下,语音识别主流模型的准确率早已相当高。现实中的语音很少是“标准”的。它可能是一口浓重的家乡方言,可能中外夹杂、不时蹦出小语种,也可能藏着需要结合上下文…
-
Arxiv | MagiCodec:高斯噪声注入与多阶段训练实现高保真可建模音频编码
本文提出 MagiCodec,一个单层、流式Transformer音频编解码器,通过多阶段训练 + 高斯噪声注入 + 隐空间正则化,显式提升token的语义表达能力,同时保持高保真重建。
-
《云视频会议系统概念模型》等12项音视频领域行业标准发布
根据《中华人民共和国工业和信息化部公告》(2026年第12号),由全国音频、视频及多媒体系统与设备标准化技术委员会(简称“音视频标委会”)归口的《云视频会议系统概念模型》等12项行…
-
即构 ZIM 重磅推出社群(Community)能力!
社群(Community)是基于 ZEGO IM(ZIM) 新支持的即时通讯能力,可以协助开发者搭建类 Discord 的实时互动社区。满足游戏玩家、兴趣小组、粉丝运营、教育培训等…
-
通过沉浸式 3D 技术,让观看世界杯栩栩如生
TVBEurope 采访了 Immersiv.io 联合创始人 Emmanuelle Roger,了解该公司如何为英国和日本的球迷带来观看 FIFA 世界杯的全新方式。 借助 FI…
-
【音视频】CameraX 预览帧率波动
CameraX 简化了 Android 相机开发,但也埋了不少坑——预览帧率莫名其妙掉到 15fps、分析帧堆积导致 OOM、后台回来画面卡死。本文用 Claude Code 帮你…
-
StreamVX 和 SyncWords 合作开发用于直播和 OTT 的多语言 AI 字幕管道
StreamVX 和 SyncWords 达成技术合作,旨在可靠地集成 DVB-TTML 字幕。 两家公司表示,随着直播主播越来越依赖人工智能字幕来扩大多语言覆盖范围并满足无障碍需…
-
ZoomMate 如何取代 Zoom 的定制 AI 助手
ZoomMate 及其 AI 生产力套件于 6 月初首次亮相,引发了人们对 Zoom 人工智能产品线的疑问,其中最主要的问题是:ZoomMate 与 Zoom 现有的 AI Com…
-
每个成长型企业都应该了解的 VoIP 安全风险
VoIP系统如今已成为日常业务基础设施的一部分。它们通过基于互联网的通话工具连接员工、客户、销售团队、技术支持部门、远程办公人员和供应商。随着使用量的增长,语音安全漏洞会带来欺诈、…
-
沃达丰、ARD 和 DHBW 测试量子加密电视传输
德国沃达丰公司、德国公共广播公司 ARD 在其地区附属公司 SWR 和巴登符腾堡双元制应用技术大学 (DHBW) 的领导下,成功测试了量子加密电视流的传输。 此次在法兰克福和美因茨…
-
Nourish:一款基于 Vulkan 的全新 Wayland 合成器,支持无限滚动/平移
最新的 Wayland 合成器是 Nourish,它基于 Vulkan,其独特卖点在于提供“无限”缩放和平移,从而实现无限的工作空间。 Nourish 的设计理念是“打造一个不受屏…
-
Shotcut 26.6 发布,HDR 性能提升,支持 Linux 系统上的 Vulkan 显示
Shotcut 26.6 与上周五正式发布,这是这款广受欢迎的跨平台开源视频编辑软件的最新主要功能版本。 Shotcut 26.6 继续改进其高动态范围 (HDR) 显示支持,并能…
-
微软更新 VS Code:新增聊天成本追踪和多方聊天功能
IDE 中的免费 AI 功能正逐渐转向付费模式。VS Code 的最新更新增加了透明的成本跟踪和多聊天工作流,以帮助开发者管理 AI 的使用情况和成本。
-
Datacentrix推出企业级CPaaS平台,旨在简化业务沟通,增强客户互动
高效沟通已成为所有成功企业的基石,对运营效率和客户体验都至关重要。鉴于此,领先的混合信息通信技术系统集成商 Datacentrix 正式推出其通信平台即服务 (CPaaS) 产品,…
-
实时通信是航空公司之间的新战场
实时沟通不再仅仅是提升客户体验的手段,而是航空业新的竞争基准。航空公司如果无法掌控乘客在整个旅程中的沟通,就会在客户忠诚度、运营效率和辅助收入方面遭受损失。如今,竞争的关键在于谁能…
-
Chips&Media 签署下一代 “AV2” 视频 IP 授权协议
2026年6月25日,视频 IP 技术提供商 Chips&Media 宣布,已与一家世界知名的北美大型科技公司签署了下一代高效视频编解码器 AV2(AOMedia Vide…
-
Krisp推出语音安全和语音分析功能,使联络中心能够全面掌控语音渠道
语音人工智能公司 Krisp 每月处理超过 800 亿分钟的语音通话,今日宣布为联络中心推出两项新功能:语音安全和语音分析。这两项功能相结合,可为联络中心提供对语音渠道的全面管控:…
-
Telemundo/Peacock:世界杯流媒体观众人数较2022年增长277%
NBC 环球旗下的 Peacock 和 Telemundo 表示,在 2026 年国际足联世界杯的前两周,平均有 230 万观众观看了他们的部分赛事报道,比 2022 年卡塔尔世界…
-
Five9 研究:AI 在客户体验领域的应用率达到 92%,但消费者信任仍然依赖于人工支持
智能客户体验平台提供商 Five9 发布了《2026 年商业领袖客户体验报告》,揭示了企业如何从 AI 实验转向客户体验的执行。 这项全球研究发现,92% 的企业已经在客户服务领域…
-
ATP Media 采用了 Kinetiq 水印技术
ATP 巡回赛的转播部门 ATP Media 宣布与 Kinetiq 合作,在 ATP 巡回赛赛事转播信号中应用 Teletrax 水印技术,从而让全球广播公司更清楚地了解现场网球…