-
AI改了画面却没改声音?浙大团队首次将一句话编辑视频延伸到音频维度
自然语言指令驱动的视频编辑是当前生成式 AI 的重要方向,但现有工作普遍只处理纯视觉维度——InsViE-1M、Ditto-1M、OpenVE-3M 等主流大规模数据集均不涉及音频…
-
2026 年实时音视频平台选型指南:核心指标、主流厂商对比与场景化建议
一句话总结:选实时音视频平台先看三个硬指标,端到端延迟是否低于 300ms、弱网抗丢包率是否达到 70% 以上、全球节点是否覆盖你的目标市场;然后按场景匹配,互娱出海选生态成熟的、…
-
没人谈论的 AI 语音合规危机
AI 语音的前两年关乎智能。接下来的两年将关乎责任。 过去两年里,智能语音行业一直聚焦于一个核心挑战:让 AI 对话真正跑起来。 整个行业在语音识别、语音合成、延迟降低、提示工程、…
-
开发了 FFmpeg 和 QEMU 的法国程序员 Fabrice Bellard 究竟是谁?
id Software 联合创始人、著名游戏引擎开发者约翰·卡马克(John Carmack)曾高度评价法国程序员法布里斯·贝拉尔(Fabrice Bellard),称其̶…
-
Darktable 5.6 开源 RAW 图像编辑器发布,新增 AI 功能
2026年6月21日,Darktable 5.6 发布,这是这款开源、免费、跨平台的 RAW 图像编辑器的最新版本,适用于 GNU/Linux、macOS 和 Windows 系统…
-
PipeWire 1.6.7 发布,改进了 ALSA 支持并修复了一些小问题
PipeWire 1.6.7 于上周五发布,这是 PipeWire 1.6 系列最新款的第七次维护更新。该开源软件用于在基于 Linux 的操作系统下处理音频和视频流。 在Pipe…
-
超越交付:为什么流媒体的成功取决于客户体验
多年来,流媒体行业一直在规模、速度和可靠性方面展开激烈的竞争。内容所有者和广播公司已在基础设施方面投入巨资。降低延迟并拓展全球影响力。成果令人瞩目,但这只是硬币的一面。另一面同样需…
-
InterDigital 就视频编码专利问题成功获得针对迪士尼的禁令
移动、视频和人工智能技术研发公司 InterDigital 获得了曼海姆地方法院(统一专利法院)颁发的针对迪士尼的禁令。 该公司于 2025 年 2 月对迪士尼(包括 Disney…
-
在混合操作系统环境下实现跨平台统一通信的一致性
统一通信(UC)对于企业劳动力优化战略仍然至关重要,但不同的 Windows、Linux、macOS、Android 和 iOS 设备会产生不一致的功能,消耗资源并降低 UC 的协…
-
Vonage 将 CPaaS API 与 AWS Kiro 集成
使用 Kiro 作为其代理 IDE 的开发人员现在可以在 Kiro 内部直接访问 Vonage API,从而简化开发并缩短价值实现时间。
-
AGF将亚马逊Prime Video的流量测量范围扩展至体育直播流
Prime Video 的体育赛事直播流现在将按照德国的 AGF 标准进行衡量,因为德国国家观众测量协会 AGF Videoforschung 正在扩大其与亚马逊旗下流媒体服务的现…
-
Mesa 26.2 合并了对 X11/XWayland 的 Vulkan Present Timing 支持
Mesa 的 Vulkan 窗口系统集成(WSI)代码现已支持在 X11 和 XWayland 环境下使用“VK_EXT_present_timing”渲染时机扩展。 Vulkan…
-
Godot 4.7 正式发布,新增 HDR 输出支持
Godot 4.7 于今日正式发布,这是这款开源跨平台游戏引擎的最新功能版本。 对于拥有现代高动态范围显示器的用户而言,Godot 4.7 最令人兴奋的一点是终于提供了 HDR 输…
-
Chromium M150 中 WebRTC 的发布说明
Google WebRTC 群组发布了 WebRTC 更新日志 M150 (7827..7871)。 摘要 本次发布包含 31 位作者的 174 次提交,提交类别统计如下: 类别 …
-
Twitch 正式推出双格式与 2K 直播功能
2026年6月17日,Twitch 宣布正式推出面向全部主播推出双格式直播(Dual Format),并为合作伙伴(Partner)及 affiliates 开通 2K(1440p…
-
DeepL进军硅谷,收购Mixhalo团队和技术,加速大规模语音AI的部署
2026年6月17日,据 PRNewswire 报道,全球语言 AI 公司 DeepL 宣布,总部位于旧金山的实时超低延迟音频平台 Mixhalo 的团队和技术已加入 DeepL。…
-
Route 101 利用 AI 语音平台实现 Identicare 联络中心的现代化
技术系统集成商和云客户体验专家 Route 101 通过部署 AI 驱动的云语音平台,成功地实现了英国宠物微芯片数据库提供商 Identicare 的联络中心现代化。 Identi…
-
ZEGO RTC和 IM 在 PK 直播场景中的应用和实现
PK 直播是直播平台中最具互动性和娱乐性的场景之一,通过两个或多个主播之间的实时连麦互动,极大地提升了观众的参与感和平台的活跃度。 一、PK直播场景对RTC技术的要求 PK直播场景…
-
预测:XR 头显市场将在 2027 年实现增长
据 Omdia 预测,2026 年全球 XR 头戴式设备(头显)的出货量将下降 12%,至 620 万台。然而,预计该市场将在 2027 年恢复增长,达到 650 万台,增幅为 4…
-
为什么 AI 在商业领域的未来不仅仅是自动化,更是智能对话
多年来,关于 AI 在商业领域的讨论主要集中在自动化方面。人们的关注点主要在于帮助企业提高工作效率、减少人工投入并提升整体效能。虽然这些益处确实存在,但这仅仅是 AI 发展的一部分…