AudioHijack攻击在音频中隐藏人耳听不见的指令以操纵AI语音模型
浙江大学的研究人员开发了一种名为 AudioHijack 的新型攻击,将人耳不可察觉的指令嵌入音频片段中,以操纵大型音频语言模型(LALM)。该攻击在13个开源模型上达到79-96%的成功率,并同样作用于微软和Mistral的商业系统。与传统提示注入不同,AudioHijack 直接修改音频波形,绕过了针对文本攻击的防御措施。被操纵的音频可导致模型拒绝请求、传播虚假信息、插入有害链接、改变人格,或执行未经授权的操作,如网络搜索、文件下载和发送电子邮件。攻击可通过在线视频、音乐片段、语音笔记或Zoom通话音频传播。最有效的防御措施(监控内部注意力机制)可通过降低操纵强度部分规避。研究人员目前正在研究该技术是否能通过共享的开源音频组件扩展到OpenAI和Anthropic的封闭模型。
关键事实
- AudioHijack在音频中嵌入听不见的指令,对AI语音模型成功率达96%。
- 攻击影响13个开源LALM及微软和Mistral的商业系统。
- 标准防御仅阻止少量攻击;监控注意力机制最有效。
- 攻击可通过在线视频、音乐片段、语音笔记和Zoom通话音频传播。
- 研究人员探索将攻击扩展到OpenAI和Anthropic的封闭模型。
KeyAudit 数据视角
📊 KeyAudit data: Base historical leak records: 513754