百度外卖风控负责人:大数据如何让黑产无处遁形?
做得一手好川菜的老徐,终于在 40岁时拥有了自己的小饭馆,从打工仔摇身一变成小老板,经过20年的打拼,北京这座城市终于让他有了一点归属感。
之所以敢下决心自己干,还要得益于这两年做的风生水起的外卖业,在用餐高峰期,这个看起来不足20平米的小饭馆流水非常可观,门口总是挤满的各路外卖小哥的电动车,有时店里的外卖小哥比用餐顾客还多。
这也不难理解,由于老徐的餐馆在几个外卖平台都有满 50 减 30 的优惠,点外卖要比来店里吃划算的多,老徐看了账目,心中盘算,辛苦一年基本就能收回成本了。
直到前不久,他接到一个陌生的电话,对方声称可以让他有一个快速赚钱的方法,老徐动心了。
商户、骑士、买家、推广BD 可能是同一人
电话那头的陌生人是通过外卖平台的“商家信息”得到老徐的联系方式,他介绍商家在外卖平台上其实有一些空子可钻,而且已经有其他的商家在不付出任何成本的情况下,赚了不少钱。
对方所说的空子,其实就是各大外卖平台“烧钱火拼”的补贴政策。
按照正常情况来说,买家在平台上选择自己喜欢的商家和菜品进行下单,商家收到下单请求后确认,这时骑手会收到派送任务,把餐取过来之后交给用户。
那在这个过程中 如何来钻空子?
对方以老徐饭馆的“满 50 减 30 ”为例,当买家选够 50 块钱的菜品之后,不考虑包装费和配送费,只需要支付20块,但是商家依然能收到50块,这30块就是平台补贴给商家的。
那现在如果商家找一个人伪装成买家,下单之后商家不需要出餐,从50块中抽去20块给“假买家”,就可以不花任何成本的赚到补贴的30块,这时商家也可以从中再分给“假买家”一些钱,实现双赢!
那如果骑士跑来取餐怎么办?
对方等的就是这个问题!
“你可以跟骑士说买家自己取走了,或者更方便的是,自己找骑士伪装成买家直接下单,这样骑士不仅可以白赚配送费,还可以拿到补贴分成”!
听到这里,老徐醍醐灌顶, 原来商家、骑士、买家可以是同一个人!
对方告诉老徐,更重要的角色其实是“BD”,即负责外卖平台推广的人员,他们负责把商户和买家用户吸引到自家的外卖平台中,比如商户如果入驻到某个外卖平台,是需要把资料提交给BD审核,于此同时,BD还能左右满减的额度,如果能认识内部的BD,说不定还能满 50 减 40!
老徐一盘算,如果 BD 开一家饭馆,然后自己来同时充当商家、买家和骑士,就可以妥妥的无成本赚取补贴,还可以给自己刷销量,写好评……
-----讲正事分割线-----
上面的剧情雷锋网改编自百度外卖风控技术负责人王永会的一场演讲,其中的每一个环节都在现实中真正发生过。
宅宅终于知道为什么某些商家的饭巨难吃,但销量和好评却很高的原因了!长此以往,可以想象会为外卖行业造成怎样的伤害。
雷锋网发现,目前骗取平台补贴和刷单的黑产从业者已经布下了比较完整的产业链,除了上面提到关系复杂的各路角色,还有提供专业“装备”的黑产从业者,他们通过提供的海量手机卡、刷机软件、接码平台等,模拟出正常的用户来上平台“薅羊毛”,有些黑客甚至以出卖教程而获利不少。
面对各路黑产从业者所组成的产业链条,如何构建严密的风控体系就成为摆在王永会和团队面前的难题。
在演讲现场,王永会介绍了百度外卖的多角色的健康度模型。
百度外卖风控最主要的特点,是覆盖了多个角色和渗透到业务各个角落的健康度体系,这个健康度体系包含很多,像商户健康度,用户健康度,还有骑士、BD、订单、平台等等。 重点是如何把结果应用到整个业务产品线的各个链条里面去 ,这样才能形成一个完整的生态。比如我们把商户的结果同步到推荐系统,同步到检索系统,这样的如果商家有一定问题,就会在你的推荐排名上提现出来。还有用户的健康度,会同步到相关的营销中。
换句话说,检测出异常行为的商家,就休想再获得好的推荐位置。用户出现异常行为,对不起,优惠没有了!
那风控体系究竟是如何揪出这些异常的用户和商户的?
针对用户:如何揪出谁在刷单?
不知攻,焉知防。
先来看 “机刷” 的套路。
由于各大外卖平台对于新用户都会有一个力度比较大的优惠,所以黑产从业者也盯上了这块“肥肉”。
我们通常在外卖平台下单时,需要注册账号,一般都是手机号,如果你已经用自己的手机号下过订单了,再想刷新用户怎么办?
有需求就有市场,一个名为“ 接码平台 ”的系统应运而生,“羊毛党”在这里不仅可以获得一个手机号,还可以得到平台返回的验证码。
但你就一部手机,平台也会检测到设备是不是出现过。
这时,一个名为“ 手机模拟器 ”的软件就出现了,它可以生成一份新的手机参数,企图绕过对设备指纹的检测。
再来看看“ 人刷 ”的套路。
这是某个QQ群中“羊头”的指示:
打开××外卖,定位徐州人家小区,搜索柱子把子肉,随便点一份餐,大概20元左右,收货地址写:徐州人家5-1-201,必须选择货到付款,20分钟后确认收货,必须5分好评,好评不用很麻烦,比如很优惠、好好吃、划算……好评截图给我就可以结款,不用垫付一毛钱,收藏店铺。
如果“机刷”还得有找模拟器、绕过设备指纹等步骤,人刷直接面对的一个个真实的人,面对这些大量的QQ群和微信群,又该如何识别这些团伙?
王永会对雷锋网 (公众号:雷锋网) 介绍,对于用户的风控,系统会从设备指纹、规则引擎、机器学习模型等三个层次分级分析,层层过滤。
用户的风险控制一共有三道防线,第一个是设备惟一性,设备指纹主要就是解决机刷的手段,我们目前已经研发了超过38条以上的 多维签发的设备,来绕过刷单软件 。同时我们会做一些刷新软件的识别,识别手机上这个东西是不是刷新软件,是不是采用一些模拟器(在PC上装一个模拟器,就可以生成像手机一样的东西)。
第二道防线就是大家常见的叫 规则引擎 的方式,这个业界也是非常主流的做法,其实规则的方非常有效,和监控搭配可以非常高效、灵活的做一些事情,尤其是突发事件的应对。
其实前面两个防线可以把机刷和少部分的人刷控制住,第三道防线就是采用机器学习的方式,我们把用户的行为研究,像他的浏览行为和操作行为,订单分析,用户画像相关的,结合用户在前两道防线上留下的痕迹,来获取样本,进行特征训练,评估模型。
如何识别一个QQ群中的多个“羊毛党”?王永会用“齐步走”来解释如何根据行为来构造用户关系网络。
其实这些人在群里都是有组织有纪律的,步调往往一致,可以通过这种行为来构建用户的关系网络,根据大小,以及牵扯的其他的业务属性,量化它的风险,从而筹建一个健康度。
比如中间的小图,圆圈表示用户,方块表示商家, 为什么用户异常(红色),而商家很好(绿色)?这就是刷排名,或者刷销量的方式。
这也是第三道防线的“威力”所在。
它能在在识别用户风险上,综合个体、分身和群体的识别结果,并将结果应用于营销活动、用户画像、实时拦截等环节。
针对商户:防止BD 联合商户骗取补贴
一般商户风险有三种形式,一个是刷补贴,一个是刷销量(刷排名),另外一个就是虚假店。
前两项在老徐的故事中应该有所体现了,针对这种情况,可以根据每个商户的用户、订单、物流、商户菜品等维度进行深度挖掘,建立风控模型,最后根据模型结果建立自动化的分级处罚机制。
对于第三个虚假店,其实识别是个很复杂的过程,王永会在演讲中以“商户上传假图片”为例。
换句话说,如果你想开家饭店,也许只需要一个技能------PS。
对于虚假商家的问题,BD 在帮着商家提交资料的过程当中,有一项资料是提交商家的门口照片。
王永会说,当商家入驻到平台时,审核人员看到的只是其中一张图,还不是三张,这时候更难分辨哪个是真的,哪个是假的,这就需要做盗图检测和PS识别,针对盗图的技术方案已经非常成熟。
我们目前能够做到准确率达到99%,这个东西必须要与PS检测结合起来,PS检测不幸的是也是一个非常难的题,现在没有针对PS的针对解决方案,前段时间网上发酵了一个薛之谦事件,很多网友说他是P的,他认为你P图跟原图压缩之后不一样,我们内部做PS检测的时候也有类似的方案。
其实,如果风控直接做在审核环节,像上面的虚假商家,在审核图片环节就可直接拦截。
最后,对于整体的外卖风控工作,王永会总结,其实数据是根本,模型是工具,理解业务是关键。只有掌握了用户、商户、骑士等各方面的数据后,才能建立模型对异常用户进行识别,这个过程中最大的挑战就是业务渗透,百度外卖的健康度模型之所以效果不错,还是得益于与业务团队的合作,把风控渗透到了各个业务角度当中。
本文部分内容来自2017TOP100全球软件案例研究峰会 数据科学/人工智能专场。
演讲人:百度外卖风控技术负责人 王永会
。