OpenAI正朝着音频优先的未来迈进。一份最新报告显示,该公司计划在其首款硬件产品上市之前,就推出ChatGPT的升级版音频模型。这些改进旨在让语音对话更快、更自然,并更适合日常使用。
这项工作的核心理念很简单。如果 OpenAI 希望人们依赖语音设备,ChatGPT 就必须听起来更智能,也更容易让人产生共鸣。目前,它的语音回复速度和准确度都落后于文本回复。OpenAI 希望弥合这一差距。
这份报告来自The Information,详细介绍了 OpenAI 如何围绕音频 AI 重组团队。报告称,该公司在过去两个月里一直在调整工程、研究和产品团队,以在其首款设备发布前提升语音性能。
一位知情人士透露,OpenAI正在采取措施改进其音频AI模型,为最终发布一款AI驱动的个人设备做准备。三位知情人士表示,该设备预计主要基于音频功能。
这种对音频的重视体现在模型升级本身:
“全新的音频模型架构能够产生更自然、更富情感的回应,并提供更准确、更深入的解答。此外,新的音频模型还能与用户同步说话,这是现有模型无法做到的,并且能够更好地应对中断情况。”
OpenAI计划于2026年第一季度发布这款全新的音频模型。首款硬件设备距离上市还有大约一年时间。即便如此,该公司认为,在产品正式发布之前,提升语音交互体验是必不可少的一步。
OpenAI 押注语音技术

许多 OpenAI 研究人员认为,语音是人们最自然的交互方式。说话比打字或点击屏幕更省力。一些人还认为,移除屏幕可以减少注意力分散和沉迷。这种观点与乔纳森·艾维 (Jony Ive) 的言论不谋而合,他目前正与 OpenAI 合作进行硬件设计,并曾公开谈论如何解决以往设备带来的危害。
OpenAI 并非只打造一款产品。报告称,该公司计划逐步推出一系列以音频为中心的设备,包括智能眼镜和无显示屏的智能音箱。这些产品旨在成为用户的贴心伙伴,提供主动帮助,而不仅仅是按需解答。
为了支持这一转变,OpenAI 在幕后进行了人员扩充。语音研究、多模态产品团队和基础设施团队的领导者们现在专注于音频领域。今年早些时候,OpenAI 还收购了由艾维联合创立的硬件公司 io,以支持设备设计。
目前,首要任务很明确。OpenAI 希望 ChatGPT 能说得更好、听得更清楚,并且听起来更自然。硬件方面可以稍后再考虑。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/64061.html