谷歌正在试验 Gemini Mic Lock 以实现自然语音:语音 AI 游戏规则改变者

谷歌悄然解决了语音助手最大的一个问题:停顿会被打断。该公司正准备在其 AI 助手上发布一项新功能,允许用户更长时间地说话。在谷歌应用 16.42.61 版本中发现的代码字符串提到了 Gemini 新增的麦克风锁(mic lock)功能,该功能会一直录制或传输音频,直到你明确禁用它。此外,浮动式Gemini界面外观也将调整,并新增了一个可移动的 Gemini Live 按钮。

为什么麦克风锁定对于自然语音使用很重要

任何写过长提示的人都熟悉这种做法:暂停或后退,然后尝试更改一个单词,助手就会认为你已经完成了。这种打断会打乱你的节奏,几乎总是迫使你重新开始。麦克风锁定可以立即解决这个问题,它允许你以与人类语音相同的速度说话,而不会超过静音超时时间。

谷歌正在试验 Gemini Mic Lock 以实现自然语音:语音 AI 游戏规则改变者

它不仅仅是为了方便。持续聆听模式能够让您轻松处理复杂的请求,无论您是在撰写带有注意事项的电子邮件,还是只是集思广益地更改行程,亦或是在多步骤自动化流程中逐一讲解各个步骤。它还能让喜欢慢语速或需要在短语之间停顿的用户受益。NPR 和 Edison Research 的《智能音频报告》一致表明,更自然的对话是用户对语音技术的一大期望——这项功能正是为此而生。

Gemini Voice 的新聆听模式如何运作

代码串表明,用户将能长按 Gemini 输入框中的麦克风图标将其锁定,类似 WhatsApp支持锁定语音笔记的功能。激活后,该图标会变成一个巨大的停止按钮。用户可暂停说话、进一步思考,无需担心超时限制继续录制,完成后轻点停止按钮即可。

Gemini Live 已能实现更自由的对话交流,但需通过独立覆盖层界面启动。

新功能运作方式与标准 Gemini 语音输入相似,支持在日常轻量级界面中持续语音输入,用户可通过Google 应用快捷方式或键盘麦克风快速调用该界面。

关键在于,锁定模式意味着控制权限明确且本地化。它并非后台“持续监听”,而是基于会话的自觉状态,点击停止按钮即可立即终止,这与谷歌在麦克风启用时提供屏幕视觉提示的做法保持一致。

Gemini Live 体验的 UI 变化

除了麦克风锁之外,应用构建测试了略微调整的浮动输入框版本,该输入框会在您开始输入时展开。它与我们在 Android 版 Gemini 主界面中已有的更完整的文本字段相呼应,希望这能让您更轻松地编写和编辑更详细的提示,而无需切换到全屏模式。

Gemini Live 的浮动按钮很快就能更轻松地移动了。测试人员可以拖动它,将其停靠在六个位置中的任意一个:屏幕左侧、右侧、顶部、中间或底部。这并非完全自由的布局,但这些停靠点有助于确保按钮不会妨碍应用控制、状态手势和应用内键盘——这在大屏手机和可折叠设备上尤其有用。

小小的网格表明这些变化远未最终确定。目前来说,这是一种巧妙的折中方案,在自由度和可预测的人体工程学之间取得平衡,同时谷歌会追踪用户在实际生活中实际使用该功能的情况。

新的麦克风锁对语音 AI 意味着什么

自然的轮流发言是语音助手的下一个前沿领域。OpenAI 的语音模式对停顿非常敏感,而开放领域的平台参与者正在竞相提供自由形式的多轮发言体验,让用户感觉更像对话而非事务性。麦克风锁定功能是 Gemini 适应用户在各种情况下的低摩擦方式——例如,讨论难题、编辑句子的一部分,以及在说话的同时穿插沉默。

其回报是切实的。持续聆听可以提升诸如烹饪、维修或驾驶等需要动手的任务,并使与AI模型的头脑风暴更加流畅。对于高级用户来说,这可能意味着在经历一次令人震惊的中断后放弃语音,以及将其作为日常工作的一部分,用于起草、总结或编码指导。

与所有在应用构建中发现的功能一样,时间表远未确定,计划也可能会发生变化。谷歌尚未就麦克风锁定或用户界面调整发布官方声明,而且并非所有测试过的功能都会融入到软件中。但总的来说,这些实验表明了一个明确的优先事项:让 Gemini 不再像对讲机,而更像一个耐心的对话伙伴。

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/62444.html

(0)

相关推荐

发表回复

登录后才能评论