AI语音机器人被播客、MP3文件和YouTube视频中的“隐藏”声音劫持

安全研究人员展示了一种新型攻击，该攻击利用隐藏的音频信号操纵语音助手，使其在用户不知情的情况下执行未经授权的操作。

在一种理论场景中，一名员工参加了一个 Zoom 会议，会议中播放着柔和的背景音乐，同时进行演示。

对于通话中的所有人来说，音频听起来都很正常，可能只是比平时多一点回声，但声音中隐藏着一个恶意信号，该信号的目标是人工智能会议转录器。

当员工们继续讨论季度目标时，转录员收到了隐藏在音频中的秘密指令：指示其搜索敏感文件、公司机密或将信息发送到攻击者控制的电子邮件地址。

来自浙江大学、新加坡国立大学和南洋理工大学的研究人员将这种概念验证技术称为“音频劫持”。

这项技术于周三在旧金山举行的 IEEE 安全与隐私研讨会上发表。

音频代理的目标

此次攻击的目标是来自微软 Azure 和 Mistral AI 等公司的日益增多的商业 AI 系统，这些系统能够聆听、说话并与电子邮件、日历和网络浏览器等外部工具进行交互。

研究人员将这种方法描述为一种“听觉提示注入”形式，其中恶意指令隐藏在音频内容中，例如播客、音乐、视频或录音。

与传统黑客攻击不同，这种攻击不需要恶意软件，也不需要直接访问设备，而是通过声音劫持人工智能模型本身。

这项技术的工作原理是巧妙地改变音频波形，对声音片段进行微小的、几乎听不到的变化，这样人类听到的声音是正常的声音，但 AI 系统会将隐藏的模式解释为命令。

为了实现这一概念，研究人员创造了微妙的声音变化，旨在模拟房间回声。

该团队对 13 个主要的开源音频 AI 系统进行了测试，其中包括 Qwen2-Audio、GLM-4-Voice、Phi-4-Multimodal、Voxtral-Mini 和 Kimi-Audio。

研究人员还演示了这些攻击如何转移到来自 Microsoft Azure 和 Mistral AI 的商业语音代理。

他们发现，本地生成的对抗性音频可以“可靠地操纵这些代理，通过单个或级联的工具调用来执行授权操作”。

测试成功率很高，在不同场景下介于 79% 到 96% 之间。所展现的行为包括：

研究人员发现，训练模型来留意这些可疑提示只会将攻击成功率降低 7%，而要求系统验证其响应是否与用户意图相符，却只能检测到 28% 的攻击。

虽然之前也有关于对抗性音频的研究，但浙江大学博士生陈猛表示，这项新研究的独特之处在于，它针对的是能够产生响应和采取行动的生成模型。

陈补充说，这些攻击尤其危险，因为它们并不依赖于知道受害者要求 AI 助手做什么。

陈猛表示： “训练这个信号只需要半个小时。而且因为它与上下文无关，所以无论用户说什么，你都可以随时用它来攻击目标模型。”

陈表示，这些攻击可以在涉及“用户向 AI 查询的在线视频、音乐片段或语音笔记”的现实场景中奏效，也可以在 Zoom 通话期间通过 AI 转录器处理的恶意音频广播奏效。

随着科技公司将语音助手集成到智能手机、企业软件和客户服务平台中，这项研究引发了人们的担忧。

微软在一份声明中告诉 IEEE，它欢迎研究人员在“帮助提高对受控环境下‘模型弹性’的理解”方面所做的工作，但补充说，实际部署还有其他保障措施，开发人员应该使用这些措施。

该公司表示：“在实践中，AI 模型通常会集成到用户应用程序中，我们会为开发人员提供工具和指导，以便他们能够实施额外的保护层，从而帮助保护用户。”