OpenAI希望在首款硬件设备发布前，让ChatGPT的声音更接近人类语音

OpenAI正朝着音频优先的未来迈进。一份最新报告显示，该公司计划在其首款硬件产品上市之前，就推出ChatGPT的升级版音频模型。这些改进旨在让语音对话更快、更自然，并更适合日常使用。

这项工作的核心理念很简单。如果 OpenAI 希望人们依赖语音设备，ChatGPT 就必须听起来更智能，也更容易让人产生共鸣。目前，它的语音回复速度和准确度都落后于文本回复。OpenAI 希望弥合这一差距。

这份报告来自The Information，详细介绍了 OpenAI 如何围绕音频 AI 重组团队。报告称，该公司在过去两个月里一直在调整工程、研究和产品团队，以在其首款设备发布前提升语音性能。

一位知情人士透露，OpenAI正在采取措施改进其音频AI模型，为最终发布一款AI驱动的个人设备做准备。三位知情人士表示，该设备预计主要基于音频功能。

这种对音频的重视体现在模型升级本身：

“全新的音频模型架构能够产生更自然、更富情感的回应，并提供更准确、更深入的解答。此外，新的音频模型还能与用户同步说话，这是现有模型无法做到的，并且能够更好地应对中断情况。”

OpenAI计划于2026年第一季度发布这款全新的音频模型。首款硬件设备距离上市还有大约一年时间。即便如此，该公司认为，在产品正式发布之前，提升语音交互体验是必不可少的一步。

OpenAI 押注语音技术

许多 OpenAI 研究人员认为，语音是人们最自然的交互方式。说话比打字或点击屏幕更省力。一些人还认为，移除屏幕可以减少注意力分散和沉迷。这种观点与乔纳森·艾维 (Jony Ive) 的言论不谋而合，他目前正与 OpenAI 合作进行硬件设计，并曾公开谈论如何解决以往设备带来的危害。

OpenAI 并非只打造一款产品。报告称，该公司计划逐步推出一系列以音频为中心的设备，包括智能眼镜和无显示屏的智能音箱。这些产品旨在成为用户的贴心伙伴，提供主动帮助，而不仅仅是按需解答。

为了支持这一转变，OpenAI 在幕后进行了人员扩充。语音研究、多模态产品团队和基础设施团队的领导者们现在专注于音频领域。今年早些时候，OpenAI 还收购了由艾维联合创立的硬件公司 io，以支持设备设计。

目前，首要任务很明确。OpenAI 希望 ChatGPT 能说得更好、听得更清楚，并且听起来更自然。硬件方面可以稍后再考虑。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/zixun/64061.html