如何构建一个反电信网络诈骗基础模型

36大数据 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

如何构建一个反电信网络诈骗基础模型

作者：西角边的MR

网络诈骗，电信诈骗层出不穷，花样翻新，防不胜防，伤害普通百姓利益。本文通过对目前社会上关于网络电信诈骗新闻进行提取，从中分析当前网络诈骗发展趋势和关键因素，进而构建合理的反诈骗模型。

如何构建一个反电信网络诈骗基础模型

一、对关键词的分析

爬虫获取网站关于电信诈骗的新闻。

如何构建一个反电信网络诈骗基础模型

其中keyword是通过jieba对文本进行分词得到的。对于关键词的分析主要从两个方面考虑，一个是关键词之间是否有诈骗逻辑，第二是对具有诈骗逻辑的关键词进一步分析，分为消极词汇（例如你被法院传讯了）和积极词汇（例如你又双叒叕成为幸运观众了），这两种词汇在诈骗中对受害者产生的心理影响是不同的。

1、首先笔者构建一个词语出现的频率表（指标矩阵）。

由于爬虫爬取的时间格式具体到秒，要以天为单位进行的关键词统计，实现方法是以时间为索引构建时间和关键词词典。

如何构建一个反电信网络诈骗基础模型

时间和关键词的指标矩阵如上图所示，并将它存为csv文件以便后续处理。

通过构建指标矩阵可以大致得知这些关键词出现的日期和频率，为后期构建关键词词组打下基础。

2、对于关键词分析

接下来用pandas读取上述csv文件，获得一个Dataframe类型的变量来处理。

假设对于同一天出现在同一篇文章的关键词具有相关性。

Dataframe里有自定义的函数corr可以求得每个column之间的相关系数，经过index转换后得到一张相关性系数表。

经过计算后，笔者发现这里面的相关性系数有正有负，当相关性系数大于0时，可以认为这个词组存在诈骗逻辑。

对于变量大于0的情况，还要进一步分类，计算它们的情感态度值。通过查阅资料，笔者发现需要许多数据才能构成一张情感态度分值表，所以笔者使用了现成的snowNLP的工具包来获得其态度值，并以0.5为界限进行积极和消极分类，可视化展示如下：

如何构建一个反电信网络诈骗基础模型

以csv的形式存储获取的数据，这个比例以后会用于计算诈骗概率。

从中我们便获取了具有假设网络诈骗逻辑的词组。

二、对关键词是否具有相关性的判断

对于用于判断新的文本中提取出来的关键词是否具有电信网络诈骗的相关性，我们可以尝试如下方法

1、概率计算

对关键词的相关性统计如下：

如何构建一个反电信网络诈骗基础模型

从图中可以知道大部分词语之间都是不能构成诈骗逻辑，在0.5，0.75和1左右只有很少一部分词语。如果数据量够大的话或许可以采用这种方法。所以并不建议使用此类方法。

2、分类方法

对于获取的词组，可以分为有相关性（>0）和没有相关性的（<0）两类，构建为机器学习样本（{word1:value,word2:value,word3:value}，class:value）。然后将样本分为训练集和测试集。这里笔者分别使用了朴素贝叶斯的方法和决策树的方法并进行了比较。这个分类器可以自己尝试写，也可以使用nltk里的自带函数来处理。

如何构建一个反电信网络诈骗基础模型