
AIGC
-
阻碍企业人工智能发展的客户情境鸿沟
企业人工智能的发展速度超过了大多数组织为其提供可靠客户背景信息的能力。 如今的挑战不再是人工智能能否生成内容、推荐、预测或决策,而是这些输出结果是否基于对客户的准确理解。 在许多企…
-
Zyphra发布Zamba2-VL:混合Mamba2-Transformer视觉语言模型
Zyphra 发布了 Zamba2-VL,这是一系列开放的视觉语言模型。该版本涵盖三种规模:12 亿、27 亿和 70 亿参数。每个模型都基于 Zamba2 混合 SSM-Tran…
-
SmoothConv & DuplexConv:面向对话式 AI的大规模中文全双工语音数据集开源!
在语音大模型与具身智能快速发展的今天,全双工人机交互正成为学术界与工业界关注的焦点。构建高拟人度、支持实时中断与流式响应的口语对话系统,关键在于是否拥有具备“真实交互动态”与“富含…
-
Google AI 发布 DiffusionGemma:基于文本扩散的 260 亿 MoE 开放模型,生成速度可提升 4 倍
谷歌 AI 团队(包括谷歌DeepMind的研究人员)刚刚发布了DiffusionGemma,这是一个用于文本生成的实验性开源模型。它使用文本扩散而非标准的自回归解码。该模型采用宽…
-
Google 发布 Gemini 3.5 Live Translate:一款支持 70 多种语言的流式语音翻译音频模型
谷歌刚发布了 Gemini 3.5 实时翻译。这是他们最新的实时语音翻译音频模型。语音翻译是指输入语音,然后输出翻译后的语音。该模型可以自动检测 70 多种语言并生成翻译后的语音。…
-
2030年对话式AI的收入预计达到85亿美元,将对电信和媒体行业产生巨大影响
未来五年,对话式 AI 市场将呈现显著增长;服务收入将从 2026 年的 24 亿美元增长 250% 以上,到 2030 年达到 85 亿美元。 Juniper Research …
-
NVIDIA 发布 Nemotron 3.5 ASR:一个拥有 6 亿参数、支持缓存的流式转录模型,可实时转录 40 种语言区域设置
NVIDIA 的 Nemotron Speech 团队发布了Nemotron 3.5 ASR。这是一个拥有 6 亿参数的流式自动语音识别 (ASR) 模型。单个检查点即可实时转录 …
-
Miso Labs发布MisoTTS:一款拥有开放权重的80亿情感文本转语音模型
Miso Labs 发布了 MisoTTS,这是一款开放权重、拥有 80 亿参数的文本转语音模型。它能够根据文本和音频上下文生成富有表现力的语音。该模型采用残差矢量量化 (RVQ)…
-
Google DeepMind 发布 Gemma 4 12B:一款无需编码器的多模态模型,支持原生音频
Google DeepMind 刚刚发布了Gemma 4 12B,这是一个完全摒弃传统编码器的密集型多模态模型。视觉和音频数据直接输入到 LLM 主干网。最终生成的模型可以在配备 …
-
语音 AI 如何从新奇事物发展成为核心基础设施
在每项技术的部署过程中,总会有一刻,人们不再纠结于“它能否运作?”,而是开始思考“我们能否以此运营业务?” 我在酒店科技领域深耕十年,亲眼见证了这一转变:先是物业管理系统,接着是收…
-
AI语音机器人被播客、MP3文件和YouTube视频中的“隐藏”声音劫持
安全研究人员展示了一种新型攻击,该攻击利用隐藏的音频信号操纵语音助手,使其在用户不知情的情况下执行未经授权的操作。 在一种理论场景中,一名员工参加了一个 Zoom 会议,会议中播放…
-
生成式 AI 备受追捧,而 Agentic AI 将在体育赛事直播中承担重任
过去两年间,体育界关于 AI 的讨论主要围绕生成式 AI 展开。由 AI 生成的精彩集锦、AI解说、AI图形,以及仅凭简单提示就能创造几乎任何内容的工具。公平地说,其中一些确实令人…
-
2026 年的海外 AI 语音模型:实时翻译与语音克隆
AI 语音模型正在飞速发展,为各行各业的通信和自动化带来了突破性进展。MattVidPro 最近的一份分析报告重点关注了该领域的一些领军企业,包括 OpenAI、Google、XA…
-
Thinking Machines 展示了近乎实时的AI语音和视频对话预览,并采用了新的交互模型
AI 是否正在告别“回合制”聊天时代? 目前,我们这些经常在工作或生活中使用 AI 模型的人都知道,文本、图像、音频和视频的基本交互模式仍然相同:人类用户提供输入,等待几毫秒到几分…
-
OpenAI 在 Realtime API 中发布了三个实时音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper
OpenAI 通过其 Realtime API 发布了三个全新的音频模型,分别针对实时语音应用中的不同功能:GPT-Realtime-2 用于具备推理能力的语音代理,GPT-Rea…
-
OpenMOSS发布MOSS-Audio:一个用于语音、声音、音乐和时间感知音频推理的开源基础模型
理解音频片段的内容其实是一个难度极高的问题。转录语音只是其中一部分。一个真正强大的系统还需要识别说话者是谁,检测其情绪状态,解读背景声音,分析音乐内容,并回答诸如“说话者在2分钟时…
-
xAI 发布 grok-voice-think-fast-1.0:τ-voice 基准测试成绩高达 67.3%,超越 Gemini、GPT Realtime 等
构建一个生产级语音 AI 代理,是当今应用机器学习领域最艰巨的工程挑战之一。这不仅仅关乎转录准确率。你需要一个系统,它能够贯穿五分钟的对话保持上下文连贯性,在通话过程中调用外部AP…
-
Hugging Face 发布 ml-intern:一款可自动化 LLM 训练后工作流程的开源 AI 代理
Hugging Face 发布了ml-intern,这是一款开源 AI 代理,旨在自动化大型语言模型 (LLM) 的端到端训练后工作流程。该工具基于 Hugging Face 的s…
-
xAI推出独立的Grok语音转文本和文本转语音API,目标用户为企业语音开发人员
埃隆·马斯克的 AI 公司 xAI 发布了两款独立的音频API:语音转文本(STT)API和文本转语音(TTS)API。这两款 API 均基于与移动应用、特斯拉汽车和 Starli…
-
Google AI 发布 Gemini 3.1 Flash TTS:表现力强、可控性高的 AI 语音技术新标杆
谷歌推出了Gemini 3.1 Flash TTS,这是一个预览版文本转语音模型,旨在提升语音质量、增强表达控制并改进多语言生成功能。与之前侧重于简单转换的版本不同,此版本强调自然…