
AIGC
-
微软发布 VibeVoice-ASR:一种统一的语音转文本模型,旨在一次性处理长达 60 分钟的音频
微软发布了 VibeVoice-ASR,它是 VibeVoice 系列开源前沿语音 AI 模型的一部分。VibeVoice-ASR 被描述为一个统一的语音转文本模型,可以一次性处理…
-
CAMB.AI 发布 MARS8:首个 TTS 架构系列,终结“一刀切”式语音 AI 时代
由苹果公司和卡内基梅隆大学的人工智能研究人员创立的人工智能语音基础设施公司 CAMB.AI 宣布推出 MARS8。这是首个并非设计成单一模型,而是设计成一系列专为实际生产环境而构建…
-
Agentic AI:通往效率和投资回报率的新途径
过去两年间,媒体与娱乐行业的领军者们始终在思索:Agentic AI(智能体AI) 能否在他们的组织中立足?如今这种犹豫正让位于务实态度。到明年此时,Agentic AI 将融入日…
-
NVIDIA发布PersonaPlex-7B-v1:专为自然全双工对话设计的实时语音到语音模型
NVIDIA 研究人员发布了 PersonaPlex-7B-v1,这是一个全双工语音到语音(Speech-to-Speech)对话模型,旨在实现具有精确角色控制的自然语音交互。 从…
-
调查:观众最关心的 AI 问题是模糊现实
在人工智能 (AI) 日益融入创意流程的时代,消费者对人工智能在娱乐领域的作用有何感受的问题,已经从推测变成了迫切需要解决的问题。 Hub Entertainment Resear…
-
NVIDIA AI 发布 Nemotron Speech ASR:全新的开源实时转录模型
NVIDIA 近日发布了其全新的英语实时转录模型(Nemotron Speech ASR),该模型专为低延迟语音助手和实时字幕生成而设计。Hugging Face平台上的测试版本 …
-
Liquid AI发布LFM2.5:专为真实设备端智能体打造的紧凑型 AI 模型系列
Liquid AI 推出了 LFM2.5,这是基于 LFM2 架构构建的新一代小型基础模型,专注于设备和边缘部署。该模型系列包括 LFM2.5-1.2B-Base 和 LFM2.5…
-
更流畅对话、更多语言支持!Nova 2 Sonic让构建语音应用更轻松
2025年4月,亚马逊云科技推出了第一代Amazon Nova Sonic,旨在攻克实现真正流畅语音交互的核心难题——保留声学语境,使语音回复不仅能匹配用户的说话内容,更能契合其表…
-
Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器
Meta 研究人员推出了感知编码器视听模型(PE-AV),作为用于联合音频和视频理解的新型编码器系列。该模型利用对约 1 亿个带有文本字幕的音视频对进行大规模对比训练,在单一嵌入空…
-
美团 LongCat-Video-Avatar 发布,实现开源SOTA级拟真表现
今年 8 月,美团开源的 InfiniteTalk 项目凭借无限长度生成能力与精准的唇形、头部、表情及姿态同步表现,迅速成为语音驱动虚拟人领域的主流工具,吸引全球数十万名开发者的使…
-
Ai2 推出 Molmo 2 开源视频语言模型
Ai2(艾伦人工智能研究所)周二发布了 Molmo 2,这是一套开源视频语言模型。新增的模型以及训练数据表明了这家非营利机构对开源的持续承诺,这对希望更好地控制模型使用的企业来说是…
-
AI 语音数据集如何助力打造自然流畅的语音系统
近年来,AI 的发展早已超越了基于文本的工具。语音如今已成为 AI 的前沿领域,它不仅能够聆听,还能说话、合成甚至克隆人类的声音。 这些进步的核心在于 AI 语音数据集——庞大的、…
-
AI TTS API 通过三种方式可将全球 OTT 内容的配音成本降低 70%
全球OTT和流媒体平台实现市场饱和的主要障碍是本地化。用户希望在内容发布当天就能看到母语版本,而传统的配音速度远远不够。 传统配音需要选角、录音棚录制、导演和混音,这是一个耗时耗力…
-
数据显示:2025 年 GenAI 应用广告支出将达到 8.24 亿美元
AppsFlyer 发布了年度移动应用趋势分析报告,揭示了 AI 在 2025 年如何塑造消费者行为和营销策略。GenAI 在整个应用生态系统中加速普及,iOS和Android平台…
-
Simple CEO 表示情感 AI 教练才是未来,而非单纯追踪与提醒
本文内容来自 Simple 公司的首席执行官兼创始人 Mike Prytkov 关于打造情感 AI 教练的分享。Simple 是一款 AI 驱动的健康和减肥应用程序,提供个性化指导…
-
语音AI编排:大规模构建高质量语音AI代理的关键环节
语音 AI 已从实验演示阶段走向日常运营。如今,企业将诸多职责委托给自动化语音系统,包括预约安排、潜在客户资格审查、后续跟进、支持分流和招聘筛选。Omdia 的《2025 年对话式…
-
TwelveLabs 在 Amazon Bedrock 上推出 Marengo 3.0 视频理解模型
2025年12月1日,TwelveLabs 在 AWS re:Invent 大会上宣布,其迄今为止最先进的视频基础模型Marengo 3.0正式上线。它不仅能观看视频,还能读取视频…
-
AAAI 2026|MARS:基于多模态检索和选择增强的对话LLM语音识别
随着以智能助手为代表的人机语音对话系统和会议转录与纪要等应用的爆发,对话语音识别(Conversational ASR) 技术变得愈发重要。对话语音(Conversational …
-
为何现代人工智能需要网络即服务 (NaaS)
企业和为人工智能提供支持服务的供应商本质上需要人工智能连接即服务。这就是网络即服务 (NaaS) 的用武之地。 在单一数据中心或集中式云设施中运行人工智能的时代已经一去不复返了。现…
-
OpenCV 创始人创立 AI 视频初创公司,挑战 OpenAI 和谷歌
OpenCV 创始人创立的新 AI 初创公司 CraftStory 本周二获得200万美元融资,其技术可生成长达五分钟的逼真以人为中心的视频,这比包括 OpenAI 的 Sora …