Thinking Machines 展示了近乎实时的AI语音和视频对话预览,并采用了新的交互模型

AI 是否正在告别“回合制”聊天时代?

目前,我们这些经常在工作或生活中使用 AI 模型的人都知道,文本、图像、音频和视频的基本交互模式仍然相同:人类用户提供输入,等待几毫秒到几分钟(或者在某些情况下,对于特别棘手的查询,等待几小时甚至几天),然后 AI 模型提供输出。

但如果 AI 要真正承担起需要自然交互的工作,它需要做的不仅仅是提供这种“回合制”交互。它最终需要对人类输入做出更流畅、更自然的回应,甚至在处理下一个人类输入(无论是文本还是其他格式)的同时做出回应。

至少,AI 初创公司 Thinking Machines 似乎持这种观点。该公司由前 OpenAI 首席技术官 Mira Murati 和前 OpenAI 研究员兼联合创始人 John Schulman 等人于去年创立。

5月11日,该公司宣布了一项研究预览,展示了其所谓的“交互模型”,这是一种新型的原生多模态系统,它将交互性视为模型架构中的一等公民,而不是外部软件“工具”,因此在第三方基准测试中取得了一些令人印象深刻的进步,并降低了延迟。

然而,这些模型目前尚未向公众甚至企业开放。该公司在其公告博客文章中表示: “在接下来的几个月里,我们将开放有限的研究预览以收集反馈,并在今年晚些时候进行更广泛的发布。”

Thinking Machines 展示了近乎实时的AI语音和视频对话预览,并采用了新的交互模型
图片来源:VentureBeat,使用 ChatGPT-Images-2.0 制作

全双工同步输入/输出处理

这项公告的核心在于 AI 感知时间和存在方式的根本性转变。目前的前沿模型通常以单线程方式体验现实;它们会等待用户完成输入后才开始处理,并且在生成响应时感知会处于冻结状态。

在他们的博客文章中,“Thinking Machines”的研究人员将现状描述为一种限制,迫使人类“扭曲自己”以适应 AI 界面,像写电子邮件一样提出问题,并将他们的想法批量处理。

为了解决这种“协作瓶颈”,Thinking Machines 放弃了标准的交替令牌序列。

相反,他们采用多流、微转弯设计,同时处理 200 毫秒的输入和输出数据块。

这种“全双工”架构使模型能够实时监听、对话和观察,从而在用户说话时进行反向通信,或在注意到视觉线索(例如用户在代码片段中编写错误代码或朋友进入视频帧)时进行插话。从技术上讲,该模型采用了无编码器早期融合技术。

该系统不依赖像 Whisper 这样的大型独立编码器来处理音频,而是通过轻量级嵌入层接收原始音频信号(dMel)和图像块(40×40),并在 Transformer 中从头开始共同训练所有组件。

双模系统

该研究预览介绍了TML-Interaction-Small,这是一个拥有2760 亿个参数的混合专家 (MoE)模型,其中 120 亿个为活跃参数。由于实时交互需要近乎瞬时的响应时间,这通常与深度推理相冲突,因此该公司设计了一个由两部分组成的系统:

  1. 交互模型:与用户保持持续交流,处理对话管理、在线状态和即时跟进。
  2. 背景模型:一个异步代理,负责处理持续推理、网页浏览或复杂的工具调用,并将结果流式传输回交互模型,以便自然地融入对话中。

这种设置使 AI 能够执行实时翻译或生成用户界面图表等任务,同时继续听取用户反馈。这一功能在公告视频中得到了演示,该模型在生成条形图的同时,提供了各种提示的典型人类反应时间。

主要基准测试

为了验证该方法的有效性,实验室采用了FD-bench,这是一个专门用于衡量交互质量而非仅仅原始智能的基准测试工具。结果表明,该方法TML-Interaction-Small显著优于现有的实时系统:

  • 响应速度:其转弯延迟为0.40 秒,而 Gemini-3.1-flash-live 为 0.57 秒,GPT-realtime-2.0(最小)为 1.18 秒。
  • 交互质量:在 FD-bench V1.5 测试中,它获得了77.8分,几乎是其主要竞争对手得分的两倍(GPT-realtime-2.0 minimal 得分为 46.8 分)。
  • 视觉主动性:在RepCount-A(计算视频中的身体重复次数)和ProactiveVideoQA等专门测试中,Thinking Machines 的模型成功地与视觉世界互动,而其他前沿模型则保持沉默或提供错误答案。
指标TML-交互-小型GPT-realtime-2.0(分钟)Gemini-3.1-flash-live(分钟)
轮流发言延迟(秒)0.401.180.57
交互质量(平均值)77.846.854.3
IFEval(VoiceBench)82.181.767.6
Harmbench(拒绝率)99.099.599.0

一旦这些模型可用,对企业来说可能将是一笔巨大的财富

如果将 Thinking Machines 的交互模型提供给企业界,这将从根本上改变企业将 AI 融入其运营工作流程的方式。

像 TML-Interaction-Small 这样的原生交互模型能够实现一些目前标准多模态模型无法实现或非常脆弱的企业级功能:

当前企业级 AI 需要完成一个“回合”才能分析数据。而在制造或实验室环境中,原生交互模型可以监控视频流,并在检测到安全违规或偏离操作规程时主动介入,无需等待工人提出反馈。

该模型在 RepCount-A(准确计数重复次数)和 ProactiveVideoQA(在出现视觉证据时回答问题)等视觉基准测试中的成功表明,它可以作为高风险体力任务的实时审核员。

语音客服的主要障碍在于2026年标准API中常见的1-2秒“处理”延迟。Thinking Machines的模型实现了0.40秒的轮流对话延迟,大致相当于自然人际对话的速度。

由于企业支持机器人能够原生处理同步语音,因此它可以倾听客户的抱怨,提供“辅助渠道”提示(如“我明白了”或“嗯”),而不会打断用户,并提供感觉像自然对话而不是一系列不连贯的录音的实时翻译。

标准逻辑逻辑模型(LLM)没有内部时钟;它们只有在文本提示中提供时间信息时才能“感知”时间。交互模型本身就具有时间感知能力,因此能够管理对时间敏感的流程,例如“每 4 分钟提醒我检查温度”或“如果此流程耗时比上一个流程长,则发出警报”。这对于工业维护和药物研发等对时间要求极高的领域至关重要。

Thinking Machines 背景

此次发布标志着 Thinking Machines 继2025 年 10 月推出 Tinker之后的第二个重大里程碑。Tinker 是一个用于微调语言模型的托管 API,它允许研究人员和开发人员控制他们的数据和训练方法,而 Thinking Machines 则负责处理分布式训练的基础设施负担。

该公司表示,Tinker 支持小型和大型开放权重模型,包括专家混合模型,早期用户包括普林斯顿大学、斯坦福大学、伯克利大学和 Redwood Research 的研究团队。

Thinking Machines 在 2025 年初成立时,将自己定位为一家人工智能研究和产品公司,致力于使先进的人工智能系统“更容易被理解、更可定制、更强大”。

2025 年 7 月,Thinking Machines 宣布,在由 Andreessen Horowitz 领投的一轮融资中,公司以120 亿美元的估值筹集了约 20 亿美元资金,Nvidia、Accel、ServiceNow、Cisco、AMD 和 Jane Street 也参与了投资。WIRED杂志称这是历史上规模最大的种子轮融资。

《华尔街日报》 2025 年 8 月报道称,竞争对手科技公司 CEO 马克·扎克伯格曾与 Murati 接洽,商讨收购 Thinking Machines Lab 的事宜,在 Murati 拒绝后,Meta 公司又对这家初创公司约 50 名员工中的十几名展开了攻势。

2026 年 3 月和 4 月,该公司也因其计算雄心而闻名:它宣布与英伟达合作,部署至少 1 吉瓦的下一代 Vera Rubin 系统,然后扩大了与谷歌云的合作关系,将谷歌的 AI 超级计算机基础设施与英伟达 GB300 系统结合使用,用于模型研究、强化学习工作负载、前沿模型训练和 Tinker。

据Business Insider 2026 年 4 月报道, Meta 已从 Thinking Machines 挖走了七位创始成员,包括 Mark Jen 和 Yinghai Lu,另一位 Thinking Machines 研究员 Tianyi Zhang 也加入了 Meta。该报道还指出,曾参与 Thinking Machines 旗舰微调产品 Tinker 开发的 Joshua Gross 也加入了 Meta Superintelligence Labs,尽管有人离职,该公司员工人数仍增长至约 130 人。

然而,Thinking Machines 并非只是人员流失:它还聘请了 Meta 的资深人士、PyTorch 的创建者 Soumith Chintala 担任首席技术官,并吸纳了 Neal Wu 等其他知名技术人才。TechCrunch在2026年 4 月的另一篇报道中指出,在 Meta 工作了八年、从事多模态感知系统研究的 Weiyao Wang 也加入了 Thinking Machines,这表明人才流动并非单向的。

Thinking Machines此前曾表示,公司致力于在其版本中加入“重要的开源组件”,以赋能研究界。目前尚不清楚这些新的交互模型是否会遵循同样的理念和发布条款。

但有一点可以肯定:Thinking Machines 认为,通过将交互性融入模型本身,扩展模型规模将使其更智能,并成为更有效的协作工具。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/66632.html

(0)

相关推荐