欢迎来到 黑吧安全网 聚焦网络安全前沿资讯,精华内容,交流技术心得!

基于时间和地域构建一个网络诈骗形势模型

来源:本站整理 作者:西角边的MR 时间:2017-06-08 TAG: 我要投稿

电信诈骗,网络诈骗层出不穷,花样翻新,是当前公安部重点打击的对象。本文从网络中爬取相关的新闻,通过对时域和数量的统计与分析,实现对网络诈骗模型中时间参量的优化,进而达到提高对于网络诈骗的识别效果的目的。
一、数据的准备
对于网络电信诈骗的发生率,作者要通过新闻中对其提及的次数和对应日期进行统计,以此来表示当前社会对电信网络诈骗的关注热度。首先作者确定统计的参量——时间和地域。对于时间参量,作者以月为分度值,对于地域参量,作者以省为分度值。作者使用正则表达式并计算匹配的次数来对文本进行统计,正则表达式的构成是由设置的时间列表和地域列表单独和两两组合构成。
具体文本可以参照前两篇文章:
如何从新闻中识别骗子的小套路
如何构建一个反电信网络诈骗基础模型
下面是统计结果和部分代码:


统计的总内容:

二、数据分析及模型构建
作者对获取的数据进行了归纳,并以月份为单位计算同比增长率,环比增长率,以此来分析网络电信诈骗的特性,从而通过对增长率的分析来构建一个关于时间序列和增长程度的模型。
这是实现增长率统计的部分代码和结果:


图表的具体内容可以参见tableau public中的图表:tableau public
为了能够更加精确的确定电信网络诈骗不同月份之间的相互联系,作者决定对环比增长率进行聚类分析,对时间序列进行回归分析。
首先作者对增长率进行了聚类分析,将其分为五类,对应四级预警模式,由低到高分别为正常、蓝色预警、黄色预警、橙色预警和红色预警。由于在网络诈骗案件中,当前月份和前一月份之间存在一定的联系,所以作者使用无监督聚类的Kmeans算法,保留数据之间的相关性。具体实现方法是将增长率为负的月份确定为正常类别,将增长率大于0的月份分为低速增长,中速增长和高速增长,并进行聚类,下图是实现代码:


对于时间序列的模型构建,首先作者对不同月份增长之间的相互影响进行了分析

通过分析作者发现当正增长率大于1的时候,在下一个月往往会出现负增长情况,当负增长率绝对值大于0.5时,在下一个月往往会出现正增长。因此,作者对比使用了普通最小二乘法(OLS)模型和加权最小二乘法模型(WLS)模型。在WLS模型中,经过不断测试,确定约束条件为当正增长率大于1和负增长率绝对值大0.5时将 其权值缩小为原来的100倍,对于其他情况则以当月增长率为权值,下图为测试结果:

下面是实现代码:

经确定,WLS模型更接近统计平均值,预测值为0.21左右。
三、数据可视化
图表数据不能直观的反映出电信诈骗的地域分布特点,为了确定电信诈骗的分布地域情况,作者使用了excel中的power map和tableau进行可视化统计。Power map和tableau的使用方法可以参照它们的说明。下面是作者的可视化模型:



不同颜色深度代表了网络电信诈骗不同的关注程度。
接下来作者对预警模型进行可视化处理:

[1] [2]  下一页

【声明】:黑吧安全网(http://www.myhack58.com)登载此文出于传递更多信息之目的,并不代表本站赞同其观点和对其真实性负责,仅适于网络安全技术爱好者学习研究使用,学习中请遵循国家相关法律法规。如有问题请联系我们,联系邮箱admin@myhack58.com,我们会在最短的时间内进行处理。
  • 最新更新
    • 相关阅读
      • 本类热门
        • 最近下载