针对游戏行业的欺诈难题,DataVisor 的无监督算法可以做什么
“根据全球顶尖营销数据分析平台TUNE的数据统计,每年有数百万乃至上千万美金被用于游戏应用的安装推广,随着用户群和收入的快速增长,游戏公司已成为欺诈份子的主要获利对象之一,仅2018年,便有超过十亿美金的营销资金被欺诈份子所获取。”
在不久前刚刚结束的中国国际数码互动娱乐展览会(ChinaJoy)上,来自大数据反欺诈公司“DataVisor”的技术副总裁 David Ting ,带来了上面一组数据。
此前,David 曾在游戏行业有多年的工作经历,担任过多款游戏的出品负责人,在游戏的推广过程中,他切身感受到了来自黑产欺诈份子的威胁。
▲David Ting
以一家在线运营免费游戏的公司为例,它的主要营收来源之一是吸引玩家来在游戏过程中进行消费。换句话说,虽然游戏下载安装是免费的,但如果想要过更多的关卡或者进行更深入的体验,则需要在游戏内购买装备进行消费。
对于游戏公司来说,为了吸引玩家来持续进行消费,他们会做两件事情。
投入相应的研发成本不断提升游戏的吸引力,使部分玩家愿意持续进行购买。
不断投入资金进行线上线下的推广,吸引更多玩家加入。
按照预想的结果,在推广方面进行投入可以吸引更多的用户来玩游戏,这其中一定比例的“土豪”用户会在游戏中砸重金进行装备的采购,而游戏公司再用这部分收入来研发更高质量的游戏,并继续在推广方面进行投入。
对于游戏行业来说,这本是一个健康的循环,但近年来由于黑产的加入,虚假流量已经成为困扰诸多游戏厂商的难题。
为了更快更多地赚取推广费用,黑产已经渗入各大推广渠道,游戏厂商根本无法识别这些新增的用户是否为健康的用户,砸了大把银子进行的推广,最终却收效甚微,长此以往,对于行业的发展非常不利。
为了彻底弄明白黑产的套路并找到遏制黑产的方法, 曾在游戏行业有过多年工作经历的 David Ting 加入了大数据反欺诈公司“DataVisor ”,此前,这家公司已经与全球知名游戏公司IGG合作,解决用户的虚假注册问题。
欺诈分子是如何获利的?
放眼全球的游戏行业,中国近几年属于用户增长最为迅速的地区之一, David 告诉雷锋网,2015、2016年属于用户剧增的两年,从去年开始,在庞大的基数下,增速开始放缓,市场趋于饱和。在竞争日益激烈的现状下,各大游戏公司都砸重金进行游戏推广,以最大限度的争取用户。
除了竞争对手,让游戏公司更为头疼是“虚假流量”的困扰,游戏开发者在获取新用户时,根本无法辨别真实的渠道情况,无法对获客 ROI(投资回报率)有真实的掌控。
举个比较极端的例子,A公司的一款游戏花了 100 万在各种渠道进行推广后,发现有 10 万的新增用户,老板很满意。通常情况下,这 10 万用户中,会有 5 万的普通用户(如一周会有两三天上线),2万的活跃用户(一周有六天上线),200个消费用户(会在游戏内消费),20个土豪用户(会花巨款来充值)。
但真实情况却是,这10万的新增用户在一周后,活跃用户不多,消费用户也很少,土豪用户更是一个也没出现过,100万的推广费用就跟打了水漂似的。
出现这种情况的背后,是欺诈分子与各路渠道商联手策划的日益复杂的欺诈手法。
据雷锋网 (公众号:雷锋网) 了解,移动广告生态系统极为复杂,其包含大量广告商、发行商以及成千上万负责寻求市场供求匹配的经纪人与中间商。由于存在着供应分散、涉及经纪人极多且交易速度极快等天然特性,导致从业者很难甚至根本不可能彻底将恶意人士屏蔽在生态系统之外。
欺诈分子以 伪造下级发行商身份的方式介入广告供应链中 , 同时通过一系列策略与技术手段批量生成或者窃取点击与安装成果,具体包括:
安装农场:由大量操作人员组成,负责以手动方式对成千上万台设备中的应用进行安装、启动、交 互以及卸载;
移动设备模拟器:允许欺诈分子在同一硬件上模拟大量不同移动设备;
点击注入应用,生成虚假点击,并将设备之上的安装操作声明为正常确认;
云数据中心:负责托管用于生成虚假安装、打开应用以及其它大规模应用内行为的脚本;
代理服务器:用于实施位置欺诈,允许欺诈分子在任意地点以远程方式进行相关操作。
欺诈性的下级发行商通过多层发布体系与广告网络模糊自身供应链,导致上游中间商与广告商难以轻松区分流量的真伪。
传统风控所面临的挑战
道高一尺,魔高一丈,这是游戏行业目前所面临的欺诈现状。
据 David 透露,今年业内的数据显示,有 7.8% 的安装是属于欺诈性质的,这个数字去年还只有 6%,短短一年就增加了两个点,他预计往后这个比例可能还会升高。
更加严重的是,为了成功获取欺诈性安装的推广费用,欺诈分子的伪装行为日益复杂且越来越接近真实用户,大大增加了游戏公司对真实和欺诈用户有效识别的难度。
由于营销人员已经意识到部分 CPI 活动尽管能够带来极高的用户数量,但留存率却极为低下,因此他们开始尝试将支出投入到 CPE 活动中——即仅在新用户达到特定参与度或者留存值时,才会为相关广告服务支付费用。然而,欺诈分子也开始快速适应这种付费模式,并利用“参与度农场”及各类脚本完成营销人员的各种考核。
打个比方,之前黑产可能在注册完 1 万个虚假用户后,第二天就撤走了,但目前的情况是,黑产可以在一周之内把效果做出跟真实用户一样的效果,广告主在看第一周的数据后,会看到不错的活跃用户甚至不少消费用户,也许还会蹦出一两个土豪用户,这时你坚信这个推广渠道绝对靠谱,然后把钱付给了推广的渠道商(欺诈份子)。
但真实的情况是,黑产份子根据相应的风控规则进行了巧妙的躲避,游戏开发者看到了活跃用户和土豪用户,虽然数量不多, 这时他会误以为是自己的游戏不够有趣或是设置的难度有问题,但实际上这些少量的活跃用户和土豪用户是欺诈份子所用的“障眼法”,这不仅导致广告费用的巨大损失,同时也破坏了企业长期吸引高质量、有价值用户的能力。
David 告诉雷锋网,初阶的欺诈高度依赖于成本低廉的人力劳动,例如手动安装农场和移动设备模拟器。而中阶的欺诈行为则主要部署在用户自身行为,通过虚拟机以及脚本等方式伪装来自不同设备的登录活动。高阶的欺诈行为则更为复杂,能够欺骗现有的检测规则,模仿真实用户的行为,进而生成虚假安装与活动。
时至今日,由复杂欺诈者生成的安装与操作与合法用户区别很小。依靠简单规则(例如点击安装时间阈值或者 IP/设备黑名单)的传统解决方案在识别欺诈活动与合法操作领域已经无法提供理想的效果。
所以,为了保护自身投资并最大程度提升回报率,目前摆在游戏厂商面前的迫切问题是,如何采用能够持续适应高水平欺诈行为的检测解决方案,并利用现代机器学习技术彻底改变这类风险对业务的影响。
DataVisor 的无监督算法可以做什么
要识别欺诈者,首先得找出他们身上有何共通之处,这就需要他们的样本量要足够大。
据 David 介绍, DataVisor 会通过全球智能信誉库将其收集的来自全球的信息加以汇总,规模覆盖全球超过 40 亿用户,根据 DataVisor2017 年发布的移动应用安装推广调研报告,目前的覆盖范围如下:
1.4 亿次应用安装
110 亿次用户事件
491 个广告网盟与发行商
2.2 亿个 IP 地址
27.7 万种设备类型
549 家云托管与代理服务供应商
搜集到庞大的数据后,就要用机器学习对海量数据进行关联分析,传统的风控通常利用规则系统设备指纹黑名单和有标签的机器学习系统来识别欺诈,但无论是规则引擎、设备指纹、有监督机器学习还是半监督机器学习,都有一个共同的局限性, 就是需要在攻击发生后,根据已知攻击模式和样本,检测未来的攻击。”
与其他算法所不同的是,DataVisor 独创了人工智能无监督学习反欺诈算法。
▲无监督算法将复杂的恶意行为联系在一起
区别于传统的设备指纹、黑白名单、规则系统或有监督机器学习的检测方法, 无需标签或训练数据,即可对所有用户的帐户与事件进行自动聚类和关联分析,在安装中寻找出可疑事件的隐藏关联,从而检测出整个欺诈安装群组。大大提升检测覆盖率和准确度,帮助广告主了解真实安装情况。
目前,DataVisor的数据统计对安装渠道进行了详细分类,客户能够通过对不同媒体和渠道的比较,制定更为合理和明智的广告投放决策,不仅帮助广告主防止财务损失、提高投资回报率,同时保证了用户群的健康增长。
在我们与一家全球顶级移动手游开发公司的合作中,DataVisor发现其移动营销资金因欺诈安装而遭受大量损失。当时使用的检测工具仅能检测到10%的欺诈行为,无法有效制止这一欺诈危机。DataVisor的无监督机器学习解决方案应用之后,该公司每月能检测出30万-40万的欺诈安装推广。
除了在游戏行业,这个解决方案已经落地到了社交、电商、金融等领域的机构的40亿账户中,截至目前合作的公司有 IGG、Funplus、猎豹移动、智明星通、今日头条、陌陌等。
David透露,未来,DataVisor 将在自动化的广告投放上进行市场拓展,这是一种可以实时计算的广告投放策略,他们会在效果好的情况下实时进行更多的投放,在效果不好的时候则收回一些投放,自动识别一个渠道的好坏。
不过他也坦言,与欺诈份子的斗争本就是一个动态的过程,真正做到万无一失其实很难,对方也在不断的变化攻击的策略,未来道阻且长,他们并不会止步于今天的成果,而是会不断研究升级算法。
。