
AIGC
-
OpenMOSS发布MOSS-Audio:一个用于语音、声音、音乐和时间感知音频推理的开源基础模型
理解音频片段的内容其实是一个难度极高的问题。转录语音只是其中一部分。一个真正强大的系统还需要识别说话者是谁,检测其情绪状态,解读背景声音,分析音乐内容,并回答诸如“说话者在2分钟时…
-
xAI 发布 grok-voice-think-fast-1.0:τ-voice 基准测试成绩高达 67.3%,超越 Gemini、GPT Realtime 等
构建一个生产级语音 AI 代理,是当今应用机器学习领域最艰巨的工程挑战之一。这不仅仅关乎转录准确率。你需要一个系统,它能够贯穿五分钟的对话保持上下文连贯性,在通话过程中调用外部AP…
-
Hugging Face 发布 ml-intern:一款可自动化 LLM 训练后工作流程的开源 AI 代理
Hugging Face 发布了ml-intern,这是一款开源 AI 代理,旨在自动化大型语言模型 (LLM) 的端到端训练后工作流程。该工具基于 Hugging Face 的s…
-
xAI推出独立的Grok语音转文本和文本转语音API,目标用户为企业语音开发人员
埃隆·马斯克的 AI 公司 xAI 发布了两款独立的音频API:语音转文本(STT)API和文本转语音(TTS)API。这两款 API 均基于与移动应用、特斯拉汽车和 Starli…
-
Google AI 发布 Gemini 3.1 Flash TTS:表现力强、可控性高的 AI 语音技术新标杆
谷歌推出了Gemini 3.1 Flash TTS,这是一个预览版文本转语音模型,旨在提升语音质量、增强表达控制并改进多语言生成功能。与之前侧重于简单转换的版本不同,此版本强调自然…
-
NVIDIA 和马里兰大学发布 Audio Flamingo Next (AF-Next):一个功能强大且开放的大型音频语言模型
理解音频一直是多模态领域中落后于视觉的前沿阵地。虽然图像语言模型已经迅速扩展到实际应用,但构建能够稳健地推理语音、环境声音和音乐(尤其是长音频)的开放模型仍然非常困难。NVIDIA…
-
W3C Voice Agent 报告:碎片化与隐私缺口问题凸显
背景 万维网联盟(W3C)于2026年3月31日正式发布了《Voice Agent 研讨会》报告。该研讨会为期三天(2026年2月25-27日),以线上虚拟形式举行,汇聚了语音平台…
-
Meta AI发布EUPE:一款参数量低于1亿的紧凑型视觉编码器,可同时处理各种视觉任务
在智能手机上运行强大的 AI 不仅仅是硬件问题,更是模型架构问题。大多数最先进的视觉编码器体积庞大,当为了适应边缘设备而将其精简时,它们会失去原本使其发挥作用的功能。更糟糕的是,专…
-
微软 发布全新的多语言嵌入模型 Harrier-OSS-v1,为多种语言提供高质量的语义表示
微软宣布推出Harrier-OSS-v1,这是一套包含三种多语言文本嵌入模型的系列产品,旨在为多种语言提供高质量的语义表示。该版本包含三种不同规模的模型:2.7 亿参数模型、6 亿…
-
Salesforce AI 研究院发布 VoiceAgentRAG:一款双代理内存路由器,可将语音 RAG 检索延迟降低 316 倍
在语音 AI 领域,有效助手和尴尬交互之间的差别往往以毫秒计。基于文本的检索增强生成(RAG)系统可以容忍几秒钟的“思考”时间,而语音代理必须在200毫秒的预算内做出响应,才能保持…
-
谷歌发布 Gemini 3.1 Flash Live:面向AI代理的实时多模态语音模型
谷歌已通过 Google AI Studio 中的 Gemini Live API 向开发者发布了 Gemini 3.1 Flash Live 预览版。该模型旨在实现低延迟、更自然…
-
Luma Labs推出Uni-1:一种在生成图像前能够推理意图的自回归Transformer模型
在生成式 AI 媒体领域,行业正从纯粹的概率像素合成转向能够进行结构推理的模型。Luma Labs 近日发布了Uni-1,这是一款基础图像模型,旨在解决标准扩散流程中固有的“意图鸿…
-
Google AI 发布 WAXAL:用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集
语音技术仍然面临数据分布问题。自动语音识别 (ASR) 和文本转语音 (TTS) 系统在高资源语言方面取得了快速发展,但许多非洲语言在开放语料库中的代表性仍然不足。谷歌及其合作者组…
-
Mistral AI 发布 Mistral Small 4:一款拥有 1190 亿参数的 MoE 模型
Mistral AI 发布了 Mistral Small 4,这是 Mistral Small 系列的新模型,旨在将之前多个独立的功能整合到一个单一的部署目标中。Mistral 团…
-
报告:57%的高管要求在几周内看到人工智能投资回报
如今,企业面临着前所未有的压力,需要证明其人工智能投资能够带来切实回报。Extreme Networks 的研究表明,高管和 IT 团队正在逐步建立对人工智能的信任,现在是时候交付…
-
CVPR 2026 | 多模态通用的轻量化无损压缩方法
本文为上海交通大学与蚂蚁集团的合作工作,主要关注多模态数据的统一高效无损压缩。无损压缩是数据存储与传输的基石,但在多模态协同的大数据时代,现有压缩器要么仅针对单模态设计导致部署冗余…
-
从提示工程到意图工程:人机交互通信的演变
过去几年间,提示工程已成为 AI 时代最重要的技能之一。围绕它开设了课程,为此创造了职位名称,甚至形成了专门的社群,人们在此分享如何构造完美句子以让语言模型精准执行指令的技巧。提示…
-
Sakana AI推出Doc-to-LoRa和Text-to-LoRa:能够即时理解长上下文并通过零样本自然语言调整LLM的超网络
目前,大型语言模型 (LLM) 的定制面临着一个重要的工程权衡:一方面是上下文学习 (ICL)的灵活性,另一方面是上下文蒸馏 (CD)或监督微调 (SFT)的效率。总部位于东京的 …
-
小红书发布FireRed-Image-Edit:图像编辑新SOTA
昨日,小红书基础模型 FireRed-Image-Edit 正式亮相 GitHub。 作为小红书 Super Intelligence Team 在图像生成与编辑领域的一次重要探索…
-
Mistral 发布 Voxtral Transcribe 2,一款成本极低的开源语音模型
总部位于巴黎的初创公司 Mistral AI 自诩为欧洲的 OpenAI,该公司于周三发布了两款语音转文本模型。该公司表示,这两款模型能够比市场上任何其他产品更快、更准确、更便宜地…