面对让人深恶痛绝的骗子,从事互联网的我们能做什么

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

半个月前,整个网络被掀翻了,一名学生被受骗,因压力过大去世。事隔两天,又一名学生因被骗,心脏骤停去世。对于电信诈骗,我们可能无从下手,对于预防,我们完全可以通过自己的力量来创造相应的“骗子模型”,不管是事先提示无辜用户,还是用来作为自己内部参考,甚至之后是否可以实现这部分的数据共享,各公司之间的打通,汇总整理后统一交给公安机关进行处理,都是可以尝试的。

显而易见已经有相当多的软件和公司正在做这件事,最常见的浏览网页的时候,危险网页会被标记,提示是否要打开,在接收短信的时候也会被提示疑似诈骗短信请谨慎,那么我们应该依据哪些数据进行建模呢?

抄录一段场景,作为引入的开始:我们有时候每天购买50条,有时候购买100条数据,然后打印下来,分给我的“小弟”进行电话联系。当然我们是有分工的,同样有几个“小弟”已经守候在ATM门口,一有到账,及时转走。我的“小弟”在得手之后,马上将手机关机,电话卡拿出砸碎扔掉,换上新的电话卡继续开展业务,打一枪换一炮当然是为了安全,并且我们的手机都是诺基亚的,没人知道为什么,从我“师傅”那辈就这么传下来的。好了不跟你说了,财务给我打电话了,我要去拿分成了,拜拜。

有可笑,但并不可笑;有幽默,则多为心酸;互道一声珍重,莫贪小便宜。

一、IP

毋庸置疑最重要的就是通过IP数据来看,也是最直接的。IP所揭示的风险几何?可以从以下几个角度来判断:

1 代理IP

网上每天有许多公开的代理IP,代理IP的目的是为了隐藏自己的真实IP,所以使用代理的,基本上可以判断为有欺诈嫌疑,并且从技术角度来说,就算使用代理,也是可以深挖出真实IP。我们可以通过每天的自动爬虫,爬取互联网上的代理IP作为黑名单。

Tips:HTTP头的X-Forwarded-For:这个字段只有在通过了HTTP 代理时才会添加,如果带有XFF,那就是代理了;以及带有Proxy-Connection: Keep-Alive的报文,毫无疑问是代理。

2 IDCIP

一般的APP或者网页,跑来注册的IP是云服务器的IP,这正常吗?显然不正常。事实上很多就是被黑的服务器,或干脆就是自己租的服务器来达到恶意目的。这里就要去做一些收集,各大云服务商、各大IDC服务器段。可以维护下来作为黑名单。

3 技术手段

  • 反向探测对端端口开放情况:代理常用端口是80和8080,如果对端IP开启了这些端口,显然是不正常的,一个家用IP地址是不大会开放这些端口的。
  • 源端口:大于10000的源端口有两种情况,不是代理就是大型机构,所以会有误伤,建议判断权重在50%。

二、手机号码

用户在注册或者提交资料时候的手机号码,也是一个可以验证的维度。这里也可以通过一些方法收集所谓“黑名单”建立自己的高风险库,可以有以下几种途径:

1 收码平台

欺诈分子通过在收码平台上开项目,可以使用大批量的不同号码来注册。通过爬虫定期爬取,收集号段,可以得到这些信息,加入到风险库中即可。

2 小号

目前有一些小号软件,可以虚拟一个号码出来,这些号码像正常电话一样,可以打出去,接听,收发短信。在网上搜索:小号,即可找到大量类似平台。把这些号码爬取下来作为黑名单库。

3 撞库法

利用注册用户的手机号码,去各类平台上注册,如果提示号码已被注册,则说明该用户对某方向有较强需求。

Tips:金融类平台尤为注意,一旦被式出目标手机,诈骗分子很可能通过电话,直接拨打给用户“我是xxx平台赔给您的理财经理……”后果不堪设想。并且这种模式实际在前台并无提交,所以一般也都是产品忽略的地方,不会做限制,也就让诈骗分子无门槛尽情碰撞数据库中的手机号了。

4 定向爬虫

在一些分类信息网站上爬取中介的手机号码,或者对应搜索号码爬取关键字,以及及时接入微信电话本、xx通讯录的公开数据源,作为高风险库。

三、设备指纹

世界上没有完全相同的两台设备,每台设备都是独一无二的,与人类的指纹一样。我们可以通过抓取用户手机上的一些特征,形成一个特征编码,这就是“设备指纹”。

通过设备指纹,可以判断同一台设备,注册了多少账户,登陆了多少账户,是从设备角度进行判断的一个重要手段。

同样,欺诈分子在对抗中也逐渐在升级。欺诈分子也开发出了诸如008神器、海马玩等软件,可以一键修改设备相关信息,来以此绕过设备指纹。针对欺诈分子的工具,可以通过作弊软件识别、冷门信息算法。所谓作弊软件识别,市面上很多作弊软件,都是通过同一框架进行开发,因此可以加入对这个框架的识别,来判断是否使用了作弊。

而冷门信息算法,则是抓取一些欺诈分子没有注意到的地方,例如传感器的某些信息,例如蓝牙、电池、音乐排序、网卡生产商的某些信息来组成算法,对欺诈分子在修改时不注意的这些地方进行判断,找寻蛛丝马迹。

四、GPS

位置数据主要使用GPS进行判断,需要用户授权。位置数据可以有多种使用方式:

  • 定期调取GPS,以此来判断工作地址和家庭地址,与进件资料作比对,看用户是否包装资料。
  • 活动环境位置,用户经常在一些不良场所活动,例如赌场、夜店活动,说明此人可能有不良习惯,可以加入疑似库优先处理。
  • GPS移动异常:可以根据用户的GPS移动距离计算,例如1小时前在上海,1小时候在北京,则有GPS造假可能。
  • 相同GPS:同一位置有很多操作,说明有欺诈嫌疑。
  • 多台设备同一GPS,说明设备之间有关系,可以作为关联欺诈的判断,升级为诈骗网络判断依据标准之一。

五、APP数据

对用户的APP数据进行采集,实际侵犯了用户隐私,请慎重!我们可以探测用户的APP列表,如果存在大量某种类APP,则说明用户对某种需求及其强烈。同样,如果用户手机没有其他APP,则说明该设备可能用来欺诈。

如果探测到安装有模拟器类、GPS伪造类,说明用户有欺诈可能。

六、设备账户信息

该类数据采集也是对用户隐私的严重侵犯,请慎重!在设备上还可以采集到OS和其它APP的用户名,以此来建立用户名与设备之间的关系,同一个APP存在3个以上的用户(退出重登),则说明该设备有盗账户嫌疑。

其它APP账户与业务申请吻合,则可以对该账户一个较高信任分数。

Tips:如果第三方OS开放部分数据,对于这块工作将会进行的十分便利。例如某用户在小米OS上注册用户名为mystic,某APP同样是mystic,重合APP越多,则该用户可信度相对较高,反之亦然。

七、通讯录数据

通讯录数据也是严重侵犯用户隐私的行为,比之前的都敏感。对通讯录信息的获取,可以防止欺诈关系圈。有几种情况:

  • 通讯录为空,说明该设备有欺诈嫌疑。
  • 通讯录内容,可以形成关系,作为关联欺诈的一个重要判断。
  • 通讯录名称标识,可以通过社交关系信用过判断本人信用,并且关联疑似诈骗网络,为日后连窝端做准备。

八、设备关系数据

相同WiFi:两个设备多次出现在同一WiFi下,则说明设备之间有关系。出现次数越多,关系越强。

蓝牙配对:蓝牙配对记录的采集,可以获得两台设备的关系。

GPS:前文已说过,同一GPS出现的设备,说明设备有关系。

通话记录数据:通过通讯录、通话记录可以得到关系数据,而且可以根据通讯录名称直接标明关系。

九、其它

技术手段:此手段针对某一个体适用,也就是已确认该用户为诈骗分子,并已造成较严重后果,联合公安机关通过技术手段完成追查,具体什么手段我也不知道,毕竟新闻一般统称“技术手段”。

电信手段:通过请求与电信公司的数据开放,可完成追查,同样该项手段极其敏感,一般非政府机构无权调用,仅提供思路。

最大的Tips

以上仅是被动手段,我们技术、产品人员尽量杜绝漏洞、BUG,不给诈骗分子任何可乘之机,尽量构思完善。在一切关键数据必须模糊处理,并且必须只有高级权限领导层才能详细查看关键数据,每一次导出、查询必须留下记录(说实话我认为导详细联系方式的人都有问题,互联网看数据看的是趋势,而不是某一个体,看个体你能看出什么?无非满足你的好奇心而已,闹不好还沾一身腥)。一定在数据泄露和有可能发生漏洞的环节仔细排查,从自身内因找起,再做外部策略建模(如果要是在国家保密部门外泄数据,早被崩了好吗,有真实案例支撑,有兴趣的可以查查。民法还是太清,多死几个,才重视,有毛用?)。

好了,以上就是我今天构思的“骗子模型”相关的指标的剥离,具体量化,需要各家根据自己具体情况具体分析,不过也有可能都是废话,大家可能早都再用了的。当然,如果真的诈骗分子只用诺基亚,抱歉,我只好对各位说一声保重,祝你好运……

顺便再打个广告(编辑求别删,谢谢),依旧在看机会,目前人在家里自学推荐、权重及分词算法理论、原理,对数据、用户研究、推荐、模型、策略有深入研究,希望得到相关工作机会(准备进行R语言学习)。

作者:MysTic(微信号mystic326531548),3年产品经理工作经验,失业中,寻坑,坐标北京。

本文被转载3次

首发媒体 产品壹佰 | 转发媒体

随意打赏

互联网改变我们的生活互联网金融是什么互联网创业项目互联网能做什么
提交建议
微信扫一扫,分享给好友吧。