前Capital One高管粘旻环:打造线上大数据风控,我们发现了这三个坑
今年10月,我在罗敏的邀请下从美国回到了国内,在这之前,我一直都在美国的商业银行Capital One工作。
在美国期间,我也在关注中国的消费金融市场。一方面,中国这几年在Fintech领域的突破令全世界都叹为观止,对全球的金融机构来说,“中国Fintech”都是一个很好的研究样本。另一方面,有很多我在美国的同事在近几年陆陆续续的回国投身到了金融创新的大潮中,我们有一个微信群,也会经常在群里面交流,这也成了我了解中国金融现状的另外一个通道。
在回国的这一个多月里,我跟我现在的同事有过很多的交流。这是一个很能打仗的团队,他们在一年半的时间内已经基本上完成了将线下风控搬到线上的目标。
风控由线下转到线上是一个大趋势,对这一点我在之后的文章会探讨。但线上大数据风控的搭建需要长期的完善过程,不论从我们个体还是整个行业来看,大数据风控都还有许多的坑需要我们去填。
目前国内的信用市场,反欺诈仍然是头号难题,而授信将会被作为长期的目标逐步完善。当然,我提到中国特色反欺诈并不意味国外就没有欺诈,只不过各地的犯罪分子会“因地制宜”的制定不同的欺诈策略使得欺诈更容易得手。
在Capital One的时候,我们会对欺诈进行分类,比如说有first-party fraud以及third-party fraud。
所谓的。在美国,曾经很常用的一种first-party fraud手段是虚假信息养号。
美国的银行调用传统征信机构数据时,如果能发现某个人的信用记录,那就会默认这个人存在。犯罪分子会利用这一点,先制造多个假的名字和身份去申请信用贷款或成为主账号的授权用户,初期他们很可能会被拒绝,但这些假的身份信息已经被记录在案,而且他的信用等级也有可能会随着时间的推移而逐渐好转。接下来,他可能会去申请一些小额的次级信贷,比如抵押300美元,获得500美元的贷款,如果他表现良好,信用等级会进一步提高。在把账号逐渐养肥了以后,这些犯罪分子会申请高额度的贷款然后跑路。
而。在国外最猖獗的一种欺诈方式是交易欺诈,比如说信用卡盗用。国外的信用卡非常普及,犯罪分子可能会利用黑客技术去盗用信息复制卡片,然后刷卡跑路。这种诈骗的危险性很高,如果你不在交易当时就阻止他,之后就很难追回被欺诈的钱款。这种欺诈在国内也有过相关的记录,但数量比较少。
针对first-party fraud,我们现在有比较完善的解决方案,主要是。但有的诈骗老手可能已经知道自己在黑名单里面了,他在填写信息时会采用更改敏感信息的方式来欺骗数据库,这个时候我们需要用到机器学习里面的模糊匹配,。更高级的方式是进行用户网络画像,根据用户的地址、电话、社交圈等等属性,以一个个人为点,形成一个复杂的用户网络。每个人在他的网络里会有一些活跃的因素,如果你的网络里面欺诈的指数比其他的网络要高,那就可以判断你的欺诈指数比较高。
真正棘手的问题在于团伙作案的third-party fraud。比较常见的一种方式是刷单诈骗:诈骗分子以付费刷单为由找到我们的用户,让用户下单以后将借到的钱或买的货转给他,并保证借款不需要由用户来还,但事实上,诈骗分子在拿到借款以后就会跑路,还款以及逾期都压到了用户的头上。这样的案例,跟银行储蓄用户被欺诈转账实际上是同样的性质,行业内的多家企业都已经受到侵害,从根本上看,这不仅仅是线上风控的问题,线下风控团队也难以规避,因为找到我们借款的用户用的都是真实的信息,我们给用户的额度也在合理的范围内,这样的诈骗方式会让平台处于很被动的处境。
现在的处理方式只能是发现一起就抓一起,发生之后处理的速度是关键。但之后,我们会采用更主动的方式来防御。目前,我们在搜集我们自己和同行们遇到的相关案例,寻找这部分容易被利用的人群身上的共性。在有足够的样本以后,我们可以梳理出这些用户的画像,并建立相关的风控模型。在以后,我们将不仅仅是守株待兔,更可以主动出击,对有被欺诈风险的用户主动做出提醒、沟通确认或暂缓贷款的规避措施。
硬件产品在出厂之前往往要经过压力测试,例如苹果手机在发布前会抽样进行摔落、重压、扭曲、敲击等一系列的折磨,以保障产品在真实使用过程中的高度可靠。
风控系统也一样,我们在搭建风控系统时,以保障风控的有效性。而我们的大数据概念,是近几年才建立起来的,。这个时候,更多的是需要风控专家的经验,保证风控系统在经济环境发生变化时不会突然失控。
我在Capital One的时候,曾经经历过风控突然失灵的状况。我们在搭建风控模型初期,曾经把刚毕业的用户是否申请了学生贷款作为一个重要的参数。理论上来说,学生申请学生贷款,通常是为了就读高花费的学位,例如MBA。毕业后,这些学生也往往能获得华尔街和硅谷名企的offer,是一个受到高等教育同时拥有高收入的群体,因此风险相对较小。在很长的一段时间内,他们的风控表现的确符合我们的逾期。
然而,这个参数在2008年金融危机时期突然失效了,虽然那段时间美国整体的逾期率都有上升,但这部分曾经的优质用户逾期率上升幅度远大于平均值。我们在分析时发现,这部分用户在双重经济压力下导致信用崩溃。美国失业率在2009年10月上升到10.2%,是1983年以来的最高失业率,是危机前失业率的两倍。而这部分高学历学生所向往的金融行业是失业高发行业,他们在毕业后面临着非常严苛的就业环境,同时,他们在毕业后也面临着偿还高额的学生贷款。双重压力使他们的还款能力大幅下降。
我们发现这个问题后也想做一些模型上的改动,但发现这将会牵扯太多的因素,修改周期内也会产生更多的损失,最后我们强行加了一个算法,。
我们国内的风控也面临着同样甚至更大的风险,美国经历过的金融危机我们并没有经历过,但这不能保证以后不会发生。这要求我们在做风控时要但这件事情同时也充满了挑战,大数据的维度太多,要在哪些维度上深入探究才能起到最好的防范效果,需要进行长期的测试。
中国的Fintech市场经历过一段抢用户的时期,高速的增长意味着我们没有时间先给风控体系做出规划,而往往是走一步,看需要什么样的算法,然后进行开发、测试。
这样的风控做法很符合互联网思维:快速试错、快速纠偏。我们能这样做也是基于现在业务小额、短周期的特点,而这样的打法也有利于我们快速的做出决策。从逾期率等一系列业务指标来看,这样的风控很适合我们现在的业务模式。但从长期来看,长期的、中大额的借贷肯定是我们要发展的方向,在开展这类业务时,目前的风控将面临很多的问题。
首先,我们的系统不是一个有条理性的系统。我们在用户的注册、审核、消费等阶段都会有反欺诈。现在的做法是,如果发现风控结果有偏差,就会逐个阶段去测试相关参数,用第三方的数据加在上面,去看结果。然而,我们在打造风控时并没有按照一个逻辑顺序来设计,而是需要什么算法,就在外面嵌套一层,从结构上来看,就像一锅大杂烩,所有的算法都混杂在一起,没有主次优先。
其次,这个系统是庞杂而混乱的,我们没有一个人能完完整整的推理出目前风控系统的逻辑,它是如何运转的,又是怎样实现这样的算法。这导致的问题是,一旦我们的业务转向长期和大额,在遇到问题时去调整时会很吃力,效率也会很低。因为你要看的不只是未来的一两个月,而是未来一两年,甚至更长的风控状况。我们不知道哪些数据是在紧急情况中最核心的,我们也不知道一个策略会产生一个什么样的影响。
为了解决这个问题,我们已经开始着手进行系统梳理。我们要做的是把现在的风控引擎进行拆分,梳理出所有的策略模型,然后用模块化的方式架构起来。之后,每个风控模块有自己独立的功能,模块之间的架构也不是一层套一层,而是像积木一样,以API的形式来连接。当主体逻辑判断某个用户的审核需要某个模块时,引擎会自己调用。
首先,在每个客户每个阶段的风控审核中,风控引擎的作用将会非常明晰,有利于对用户分级的进一步细化。现在,我们根据多个维度给用户做了近千层的分级,但这样的分级还是太过粗略,我们真正的目标是要做到微分层,细化到每个用户个体,这可以通过每个用户调用不同的模块实现。
其次,风控系统出现问题时,我们可以快速定位出现问题的模块,修改将会更有目的性。
最后,系统的进化将更为便捷快速。新的算法和模块可以独立开发,即插即用,而不会出现牵一发而动全身的情况。
这三个坑是我回国以后需要解决的课题,从目前的情况来看,国内的Fintech行业前景还是非常乐观。中国的大数据风控不论在实用性还是开放性上,都要优于国外,企业也愿意投入更多的资金来促进技术的进步,这都为我们行业的发展提供了充足的动力。
2016年度CEO峰会暨猎云网创投颁奖盛典,参选评奖及参会报名火爆开启,详情 点击这里 ——猎云网
本文为转载,转载请注意真实来源