欢迎来到 黑吧安全网 聚焦网络安全前沿资讯,精华内容,交流技术心得!

机器学习对抗性攻击报告

来源:本站整理 作者:佚名 时间:2017-01-11 TAG: 我要投稿
2.3 Hidden Voice Commands

图5 攻击语音识别场景
来自美国Georgetown University的Tavish Vaidya博士分享了隐匿的语音命令这一工作。
对抗性语音攻击则是攻击者构造一段语音,使人耳和语音识别机器识别的类型不同。语音攻击和图像攻击最大的不同在于,它希望保证对抗性语音和原语音差距越远越好,而不是保持对抗性语音和原语音的相似性。该团队依据现实情况,分别提出了黑盒攻击和白盒攻击两种类型。在他们的实验中,扬声器发出一段人类无法辨认的噪音,却能够在三星Galaxy S4以及iPhone 6上面被正确识别为相对应的语音命令,达到让手机切换飞行模式、拨打911等行为 [3]。
黑盒攻击(语音识别):
在黑盒攻击模型中,攻击者并不知道机器学习的算法,攻击者唯一的知识是该机器使用了MFC算法。MFC算法是将音频从高维度转化到低纬度的一个变换,从而过滤掉一些噪声,同时保证机器学习能够操作这些输入。但是从高维到低维的转化过程中,不可避免地会丢失一些信息。相对应的,从低维到高维的转化,也会多添加一些噪声。黑盒攻击的原理正是攻击者通过迭代,不断调整MFCC的参数并对声音进行MFCC变换和逆变换,过滤掉那些机器不需要,而人类所必须的信息,从而构造出一段混淆的语音。因为MFC算法被大量用于语音识别这个场景,所以该攻击模型仍保证了很强的通用性。该具体步骤如图4所示,感兴趣的读者可以参见他们的论文 [3].

图6 对抗性语音黑盒攻击模型[3]
在实验中,作者发现使用的语音识别系统只能识别3.5米之内的语音命令。在扬声器和手机的距离控制在3米的情况下,表4统计了人类和机器对不同命令的识别的比例。平均情况下,85%正常语音命令能被语音识别。在他们的混淆版本中,仍有60%的语音命令能被正常识别。在人类识别类别中,作者使用Amazon Mechanical Turk服务,通过crowd sourcing的形式让检查员猜测语音的内容。在这种情况下不同的命令混淆的效果也不尽相同。对于”OK Google”和”Turn on airplane mode”命令,低于25%的混淆命令能够被人类正确识别。其中,94%的”Call 911”混淆版本被人类正常识别比较异常。作者分析了两个主要原因。1是该命令太过熟悉。2是测试员可多次重复播放语音,从而增加了猜测成功的概率。

表4 对抗性语音黑盒攻击结果。[3]
白盒攻击(语音识别):
在白盒子攻击中,该团队对抗的目标机器学习算法是开源的CMU Sphinx speech recognition system [4]。在整个系统中,CMU Sphinx首先将整段语音切分成一系列重叠的帧(frame), 然后对各帧使用Mel-Frequency Cepstrum (MFC)转换,将音频输入减少到更小的一个维度空间,即图7中的特征提取。然后,CMU Sphinx使用了Gaussian Mixture Model(GMM)来计算特定音频到特定音素(phoneme)的一个概率。最后通过Hidden Markov Model(HMM),Sphinx可以使用这些音素(phoneme)的概率转化为最有可能的文字。这里GMM和HMM都属于图7中的机器学习算法。

图7 CMU Sphinx speech recognition system模型[4]
在Tavish的白盒攻击模型中,他分别提出了两个方法:1.simple approach 2. Improved attack. 第一个方法和黑盒方法的不同点在于,它已知了MFCC的各参数,从而可以使用梯度下降更有针对性地只保留对机器识别关键的一些关键值。在整个梯度下降的过程中,input frame不断地逼近机器识别的目标y,同时人类识别所需的一些多余信息就被不可避免地被剔除了。
第二类白盒攻击的基本原理是依据机器和人对音高低起伏变化(音素)的敏感性不同,通过减少每个音素对应的帧(frame)的个数,让这段声音只能被机器识别,而人类只能听到一段扁平混乱的噪音。这些特征值再经过MFCC逆变换,最终成为一段音频,传到人们耳中。具体的方法和语音相关的知识更密切一下,有兴趣的读者可以看他们的论文了解具体的方法。表5展示了他们的攻击效果。

表5 对抗性语音白盒攻击效果。[3]
2.4  对抗性数据的防护
虽然对抗性数据攻击的发现很巧妙,但是在当前图像语音识别应用的场合上,有效的防御并不困难。主要有以下几类:
1. 增加人类交互认证,例如机器可以简单地发出一声警报、或请求输入音频验证码等方式。
2. 增强对抗性数据作为机器学习模型的输入的难度。例如语音识别系统可以使用声纹识别、音频滤波器等方式过滤掉大部分恶意语音。
3. 从机器学习模型本身训练其辨别良性、恶意数据的能力。这时候,这些已知的对抗性数据就提供了珍贵的训练数据。
4. 宾州州立大学还提出Distillation的方法 [5],从深度神经网络提取一些指纹来保护自己。
随着人工智能深入人们的生活,人类将越发依赖人工智能带来的高效与便捷。同时,它也成为攻击者的目标,导致应用机器学习的产品和网络服务不可依赖。GeekPwn2016硅谷分会场所揭示的是顶级安全专家对机器学习安全方面的担忧。随着一个个应用场景被轻易的攻破,尽管目前只是在语音,图像识别等场景下,我们可以清醒的认识到,当这些场景与其他服务相结合的时候,攻击成功的严重后果。人工智能作为未来智能自动化服务不可缺少的一个重要部分,已然是安全行业与黑产攻击者抗争的新战场。

上一页  [1] [2] [3] [4]  下一页

【声明】:黑吧安全网(http://www.myhack58.com)登载此文出于传递更多信息之目的,并不代表本站赞同其观点和对其真实性负责,仅适于网络安全技术爱好者学习研究使用,学习中请遵循国家相关法律法规。如有问题请联系我们,联系邮箱admin@myhack58.com,我们会在最短的时间内进行处理。
  • 最新更新
    • 相关阅读
      • 本类热门
        • 最近下载