
AIGC
-
Mistral AI 发布 Mistral Small 4:一款拥有 1190 亿参数的 MoE 模型
Mistral AI 发布了 Mistral Small 4,这是 Mistral Small 系列的新模型,旨在将之前多个独立的功能整合到一个单一的部署目标中。Mistral 团…
-
报告:57%的高管要求在几周内看到人工智能投资回报
如今,企业面临着前所未有的压力,需要证明其人工智能投资能够带来切实回报。Extreme Networks 的研究表明,高管和 IT 团队正在逐步建立对人工智能的信任,现在是时候交付…
-
CVPR 2026 | 多模态通用的轻量化无损压缩方法
本文为上海交通大学与蚂蚁集团的合作工作,主要关注多模态数据的统一高效无损压缩。无损压缩是数据存储与传输的基石,但在多模态协同的大数据时代,现有压缩器要么仅针对单模态设计导致部署冗余…
-
从提示工程到意图工程:人机交互通信的演变
过去几年间,提示工程已成为 AI 时代最重要的技能之一。围绕它开设了课程,为此创造了职位名称,甚至形成了专门的社群,人们在此分享如何构造完美句子以让语言模型精准执行指令的技巧。提示…
-
Sakana AI推出Doc-to-LoRa和Text-to-LoRa:能够即时理解长上下文并通过零样本自然语言调整LLM的超网络
目前,大型语言模型 (LLM) 的定制面临着一个重要的工程权衡:一方面是上下文学习 (ICL)的灵活性,另一方面是上下文蒸馏 (CD)或监督微调 (SFT)的效率。总部位于东京的 …
-
小红书发布FireRed-Image-Edit:图像编辑新SOTA
昨日,小红书基础模型 FireRed-Image-Edit 正式亮相 GitHub。 作为小红书 Super Intelligence Team 在图像生成与编辑领域的一次重要探索…
-
Mistral 发布 Voxtral Transcribe 2,一款成本极低的开源语音模型
总部位于巴黎的初创公司 Mistral AI 自诩为欧洲的 OpenAI,该公司于周三发布了两款语音转文本模型。该公司表示,这两款模型能够比市场上任何其他产品更快、更准确、更便宜地…
-
Persona Vectors:语言模型中角色特征的监控与调控
本文介绍了一种名为“人格向量”(Persona Vectors)的创新方法。通过提取和利用大语言模型(LLM)内部激活空间中与特定人格特质(如谄媚、幻觉、邪恶)相对应的向量,该方法…
-
微软发布 VibeVoice-ASR:一种统一的语音转文本模型,旨在一次性处理长达 60 分钟的音频
微软发布了 VibeVoice-ASR,它是 VibeVoice 系列开源前沿语音 AI 模型的一部分。VibeVoice-ASR 被描述为一个统一的语音转文本模型,可以一次性处理…
-
CAMB.AI 发布 MARS8:首个 TTS 架构系列,终结“一刀切”式语音 AI 时代
由苹果公司和卡内基梅隆大学的人工智能研究人员创立的人工智能语音基础设施公司 CAMB.AI 宣布推出 MARS8。这是首个并非设计成单一模型,而是设计成一系列专为实际生产环境而构建…
-
Agentic AI:通往效率和投资回报率的新途径
过去两年间,媒体与娱乐行业的领军者们始终在思索:Agentic AI(智能体AI) 能否在他们的组织中立足?如今这种犹豫正让位于务实态度。到明年此时,Agentic AI 将融入日…
-
NVIDIA发布PersonaPlex-7B-v1:专为自然全双工对话设计的实时语音到语音模型
NVIDIA 研究人员发布了 PersonaPlex-7B-v1,这是一个全双工语音到语音(Speech-to-Speech)对话模型,旨在实现具有精确角色控制的自然语音交互。 从…
-
调查:观众最关心的 AI 问题是模糊现实
在人工智能 (AI) 日益融入创意流程的时代,消费者对人工智能在娱乐领域的作用有何感受的问题,已经从推测变成了迫切需要解决的问题。 Hub Entertainment Resear…
-
NVIDIA AI 发布 Nemotron Speech ASR:全新的开源实时转录模型
NVIDIA 近日发布了其全新的英语实时转录模型(Nemotron Speech ASR),该模型专为低延迟语音助手和实时字幕生成而设计。Hugging Face平台上的测试版本 …
-
Liquid AI发布LFM2.5:专为真实设备端智能体打造的紧凑型 AI 模型系列
Liquid AI 推出了 LFM2.5,这是基于 LFM2 架构构建的新一代小型基础模型,专注于设备和边缘部署。该模型系列包括 LFM2.5-1.2B-Base 和 LFM2.5…
-
更流畅对话、更多语言支持!Nova 2 Sonic让构建语音应用更轻松
2025年4月,亚马逊云科技推出了第一代Amazon Nova Sonic,旨在攻克实现真正流畅语音交互的核心难题——保留声学语境,使语音回复不仅能匹配用户的说话内容,更能契合其表…
-
Meta AI开源感知编码器视听(PE-AV):为SAM音频和多模态检索提供支持的视听编码器
Meta 研究人员推出了感知编码器视听模型(PE-AV),作为用于联合音频和视频理解的新型编码器系列。该模型利用对约 1 亿个带有文本字幕的音视频对进行大规模对比训练,在单一嵌入空…
-
美团 LongCat-Video-Avatar 发布,实现开源SOTA级拟真表现
今年 8 月,美团开源的 InfiniteTalk 项目凭借无限长度生成能力与精准的唇形、头部、表情及姿态同步表现,迅速成为语音驱动虚拟人领域的主流工具,吸引全球数十万名开发者的使…
-
Ai2 推出 Molmo 2 开源视频语言模型
Ai2(艾伦人工智能研究所)周二发布了 Molmo 2,这是一套开源视频语言模型。新增的模型以及训练数据表明了这家非营利机构对开源的持续承诺,这对希望更好地控制模型使用的企业来说是…
-
AI 语音数据集如何助力打造自然流畅的语音系统
近年来,AI 的发展早已超越了基于文本的工具。语音如今已成为 AI 的前沿领域,它不仅能够聆听,还能说话、合成甚至克隆人类的声音。 这些进步的核心在于 AI 语音数据集——庞大的、…