欢迎来到 黑吧安全网 聚焦网络安全前沿资讯,精华内容,交流技术心得!

机器学习对抗性攻击报告

来源:本站整理 作者:佚名 时间:2017-01-11 TAG: 我要投稿

从12月29日起,神秘的账号Master在弈城、野狐等围棋对战平台上轮番挑战各大围棋高手,并取得了不可思议的多连胜。1月4日,聂卫平、常昊、周睿羊等高手接连输给Master,到目前截止它已获得60连胜。Master在与古力的对决之前终于揭晓了自己的身份,果然就是去年大出风头的AlphaGo(升级版),而对阵古力,也提前声明了会是最后一战。
我们不妨将Master的60连胜视为人工智能与人类交锋的信号和警报,在人工智能时代人类如何完成自身的“刷新升级”值得每个人思考。同时其带来的安全问题也急需安全专家去突破。
科技的发展使人工智能离人类的生活越来越近,其中隐含的安全问题也渐渐引起顶级安全专家们的关注。
本文由百度安全实验室专家撰写,详细介绍了在GeekPwn2016硅谷分会场上,顶尖安全专家们针对当前流行的人工智能图形对象识别、语音识别的场景所采用的构造攻击数据方式和攻击演示。
百度安全实验室的专家对这些攻击方式提出了独到见解,并对未来趋势进行了预测。
随着人工智能和机器学习技术在互联网的各个领域的广泛应用,其受攻击的可能性,以及其是否具备强抗打击能力一直是安全界一直关注的。之前关于机器学习模型攻击的探讨常常局限于对训练数据的污染。由于其模型经常趋向于封闭式的部署,该手段在真实的情况中并不实际可行。在GeekPwn2016硅谷分会场上,来自北美工业界和学术界的顶尖安全专家们针对当前流行的图形对象识别、语音识别的场景,为大家揭示了如何通过构造对抗性攻击数据,要么让其与源数据的差别细微到人类无法通过感官辨识到,要么该差别对人类感知没有本质变化,而机器学习模型可以接受并做出错误的分类决定,并且同时做了攻击演示。以下将详细介绍专家们的攻击手段。
1. 攻击图像语音识别系统
目前人工智能和机器学习技术被广泛应用在人机交互,推荐系统,安全防护等各个领域。具体场景包括语音,图像识别,信用评估,防止欺诈,过滤恶意邮件,抵抗恶意代码攻击,网络攻击等等。攻击者也试图通过各种手段绕过,或直接对机器学习模型进行攻击达到对抗目的。特别是在人机交互这一环节,随着语音、图像作为新兴的人机输入手段,其便捷和实用性被大众所欢迎。同时随着移动设备的普及,以及移动设备对这些新兴的输入手段的集成,使得这项技术被大多数人所亲身体验。而语音、图像的识别的准确性对机器理解并执行用户指令的有效性至关重要。与此同时,这一环节也是最容易被攻击者利用,通过对数据源的细微修改,达到用户感知不到,而机器接受了该数据后做出错误的后续操作的目的。并会导致计算设备被入侵,错误命令被执行,以及执行后的连锁反应造成的严重后果。本文基于这个特定的场景,首先简单介绍下白盒黑盒攻击模型,然后结合专家们的研究成果,进一步介绍攻击场景,对抗数据构造攻击手段,以及攻击效果。
1.1 攻击模型
和其他攻击不同,对抗性攻击主要发生在构造对抗性数据的时候,之后该对抗性数据就如正常数据一样输入机器学习模型并得到欺骗的识别结果。在构造对抗性数据的过程中,无论是图像识别系统还是语音识别系统,根据攻击者掌握机器学习模型信息的多少,可以分为如下两种情况:
· 白盒攻击
攻击者能够获知机器学习所使用的算法,以及算法所使用的参数。攻击者在产生对抗性攻击数据的过程中能够与机器学习的系统有所交互。
· 黑盒攻击
攻击者并不知道机器学习所使用的算法和参数,但攻击者仍能与机器学习的系统有所交互,比如可以通过传入任意输入观察输出,判断输出。
2. GeekPwn现场机器学习对抗性攻击
2.1 Physical Adversarial Examples
在GeekPwn2016硅谷分会场上,来自OpenAI的Ian Goodfellow和谷歌大脑的Alexey Kurakin分享了“对抗性图像”在现实物理世界欺骗机器学习的效果。值得一提的是,Ian Goodfellow正是生成式对抗神经网络模型的发明者。
首先先简单介绍一下对抗性图像攻击。对抗性图像攻击是攻击者构造一张对抗性图像,使人眼和图像识别机器识别的类型不同。比如攻击者可以针对使用图像识别的无人车,构造出一个图片,在人眼看来是一个stopsign,但是在汽车看来是一个限速60的标志。

图1 攻击图像识别场景
在会上,Ian和Alexey指出过去的对抗性图像工作都基于如下的攻击模型,即攻击者可以直接向机器学习模型输入数据,从而保证攻击者可以随心所欲地对任意粒度的图片进行修改,而不需要考虑灯光,图片角度,以及设备在读取图片时对对抗性图像攻击效果产生变化。因此,他们尝试了对抗性图片在真实物理世界的表现效果,即对抗性图片在传入机器学习模型之前,还经过了打印、外部环境、摄像头处理等一系列不可控转变。相对于直接给计算机传送一张无损的图片文件,该攻击更具有现实意义。
在如何构造对抗性攻击图片上,他们使用了非定向类攻击中的FGS和FGS迭代方法,和定向类的FGS迭代方法 [1]。其中,非定向类攻击是指攻击者只追求对抗图像和原图像不同,而不在意识别的结果是什么。定向类攻击则是指攻击者在构造图像时已经预定目标机器学习模型识别的结果。
在定向类攻击中,作者首先根据条件概率找出给定源图像,最不可能(least-likely)被识别的类型y值,表示为(该种类通常和原种类完全不同)。然后采用定向类攻击方法中的FGS迭代方法,产生对抗性图片。其中非定向类攻击方法在类型种类比较少并且类型种类差距较大的数据库里,比较有效。但是一旦类型之间比较相关,该攻击图像有极大的可能只会在同一个大类中偏移。这时候定向类攻击方法就会有效很多。

图2 对抗性图像在现实物理世界欺骗机器学习过程

[1] [2] [3] [4]  下一页

【声明】:黑吧安全网(http://www.myhack58.com)登载此文出于传递更多信息之目的,并不代表本站赞同其观点和对其真实性负责,仅适于网络安全技术爱好者学习研究使用,学习中请遵循国家相关法律法规。如有问题请联系我们,联系邮箱admin@myhack58.com,我们会在最短的时间内进行处理。
  • 最新更新
    • 相关阅读
      • 本类热门
        • 最近下载