江南愤青:别扯了,大数据根本无法解答风控命题

亿欧网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  
江南愤青:别扯了,大数据根本无法解答风控命题

【编者按】 陈宇,笔名“江南愤青”,江南1535茶馆创始人,聚秀资本合伙人,目前投资近两百家互联网企业,担任了京东金融、挖财等多家知名互联网金融企业的首席战略顾问。他认为大数据是无法解决风控难题的,而大数据即使成功,也必然只是个别案例,不具备普遍性。因为对于同一数据,不同的机构对其有效应用的能力必然是不同的,而这种应用能力,才是机构之间竞争的关键。

本文在2014年10月 发于 互金派,作者江南愤青;经亿欧编辑,供行业人士参考。


现在很多人在扯大数据能解决风控难题,事实上都是一厢情愿,不现实也不可能!

诚然, 大数据 可以优化管理、提高 风控 效率、降低风控成本,但是无法决定风控质量,金融机构的风控质量永远是个一揽子系统工程 。不同金融机构面对同一风险等级的客户,它们的风控往往不是同一个水平。因为不同的金融机构有不同的风险承受能力,自然会形成不同的风险定价,存在差异性。

所以,我曾说,很多 互联网金融 公司提出来的征信系统接口如何开放的问题,其实是无法解答风控命题的。不是说征信系统开放了,你风控就OK了,这是不可能的。因为全行业都面对同一个征信系统,最终的使用效率、定价能力,还是取决于你自己的能力。 越是公开透明的市场,其实竞争的难度越大,单纯开放征信系统不能解决风控问题。

仔细分析下 为什么大数据无效,我的理由是多方面的——

大数据无法预测系统性风险

第一个理由就是,金融其实是看天吃饭的。 我一直坚持认为—— 金融是被经济形势所决定的 ,在经济形势低迷的情况下,金融机构无论怎么折腾都很难玩出特别好的花样。2008年金融危机一来,覆巢之下安有完卵,就是这么简单的道理。系统性风险是任何一家金融机构都必须面临的现实问题,大数据风控在系统性风险面前,毫无意义。

那么,大数据能否预测经济形势,即预测系统性风险呢?很多人说大数据可以做到,我觉得都是扯淡。 过去是无法有效推演未来的!

就个人而言,是否有通过数据分析形成准确判断的可能性?这个很难说,有人一叶而知秋,有人一叶而障目,都是个人能力的结果。 个人能力很难说是一种模式的核心竞争力,也缺乏可持续性。

经营性贷款无法进行大数据风控

第二个理由是,金融行业其实不完全符合大数据所要求的逻辑前提。 大数据的核心逻辑前提是统计学, 有两个要素:一是样本筛选 ,就是通过数据筛选出相同特征的群体出现违约的概率; 二是需要足够数量来覆盖统计学里的偶发性特征。 两者是统一而不可分割的。

因为大数据的相关性必然是建立在足够大样本量基础上的,仅仅是个体相关不足以成为推断相关性的基础。也就是说,在金融业务操作的时候,也必须覆盖足够大的人群,但足够大是多少? 对于单一金融机构而言,“足够大”已经是个绝对致命的难题了。

另外,这里其实还隐含一个基础逻辑,就是每个操作的业务群体还要呈现独立非相关,否则也没啥意义。

这里我们做个小讨论:经营性贷款能否做大数据风控?我认为, 经营性需求很难使用数据来进行模型化。 为什么呢?先从企业主来看。什么人会成为企业主?事实上,只要成为企业主,无论是大是小,他们都自动从普通人群里独立出来了。再小的企业主,其实都是社会的另类,成功的是精英,失败的是脑残,唯一不可能的就是社会公众。所以这类人本身就是异类,个个都充满极大的不确定性和变数,很难被量化和模型化。

这里还有一个问题, 相同的人群在不同场合呈现的特征是不一样的, 尤其是目前人们在线上、线下割裂的状态,其行为方式往往会出现强烈的反差。因此,对于同一个人,根据单一维度数据对其进行判断的意义是很有限的,不同维度的数据会反映出极为不同的特征,这时候全数据就显得异常重要。

所谓全数据,就是N=所有,这个概念是牛津大学互联网中心的维克托迈尔-舍恩伯格教授提出的,他最喜欢的对于大数据集合的定义是“N=所有”,这里不再需要采样,因为我们有整个人群的数据。这就好比选举监察人不会找几张有代表性的选票来估计选举的结果,他们会记点每一张选票。 当“N=所有”的时候,确实不再有采样偏差的问题,因为采样已经包含了所有人。

这个说法很有意思,因为互联网的海量容纳数据的可能性,的确给了全数据一个很好的假设前提,但是这个命题很容易回归到假设的前提上去, 在未实现全数据之前,就别谈大数据了,毫无意义!

金融行业会“未来改变现在”

第三个理由是,大数据的前提——“过去决定未来”,并不总是成立的。 现实中往往会出现未来改变过去的情况。这个有点难以理解,啥意思呢?其实很简单,就是一个人某些特征值的改变,会改变系统对他过去的数据所形成的基本特征的认定。

比如我们经常说“男人有钱就变坏”,这里隐含的逻辑是,过去判断一个男人是好人,是建立在他没钱的基础上的。而一旦这个基础被破坏,这个男人变成有钱人的时候,他就已经脱离了最早的系统判定,进入另外一个范畴了。因此, 这个未来的变化,直接把过去建立的逻辑给打破了。

这种现象其实是一个循环函数的概念, 带有变量值的东西往往是无法建模型的。 我们在金融运作中经常发现这样的现象:给钱之后的企业跟给钱之前的企业,是有绝对不同的基础性特征的。过去往往被未来给改变了。

以前也碰到过有人谈所谓的“量化炒股”,设定各种各样的模型来实现炒股的自动化。这种方法,在你规模不大的情况下,我认为还真是有一定的成功概率的。但是一旦你的规模足够大,你自己也成为了市场的重要角色的时候,你就会发现你所有模型失效了,因为你进入了死循环。《银河帝国》里面给了一条重要的假设,就是所有成为统计样本的样本主体,并不知道自己是被统计的样本,否则就会失去统计意义。

前段时间碰到一朋友,谈到大数据风控,我们无法在大数据是否可以建立风控模型上达成一致。最后,退而求其次,我就说,好吧,假设你的模型能成立,事实上 ,你会面临一个非常严重和致命的问题,就是你的客户群体,会变得让你越来越不认识。

为什么呢?因为一旦某互联网金融公司采取大数据的量化放贷,在市场就会出现大量的放贷机构,依附在这个互联网金融公司之上,进行尾随和跟踪放贷。 也就是在这个金融公司放贷的基础之上,再配置20%左右的贷款,期限比其更短。 在这种情况下,这个金融公司之前所设定的所谓模型,会全部失去效应。事实上,在传统信贷中,浙江大量股份制银行就是采用如此策略,使得大银行的所谓风控审核都形同虚设。

“风险滞后”使风控无法数据模型化

第四个理由是,金融业还有一个与其他行业不同的地方,就是风险滞后。 风险滞后意味着什么呢?意味着由过去数据所推导的模型,会在过去和未来之间留有一段缝隙,这个缝隙中所发生的任何变化,都让你无法有效调整风险的认定。简单举例,我们根据餐饮企业的大量数据推导出某一风控模型之后,进行批量化的业务操作,等着贷款回收。

这期间,银行基本无主动权,你要回收贷款,人家第一要有钱,第二要配合。实际上,贷前你是老大,贷后你就是孙子了。而突然某一天政府发文要求降低三公消费,你就等着傻眼吧! 所有的数据都会因为期间任何一个偶发性变化而发生实质性变化,而你却丧失了主动权。

所以,我们哪怕撇开目前大数据受限制于数据孤岛等一系列的现实问题(全维度数据的成本极高、难度极大,美国政府的棱镜计划有点这个意思,但那几乎是集中了一个国家的资源),就单一大数据风控而言,实现风控的数据模型化只是美好的设想,是脱离了社会现实的一种自我意淫的产物。除非体系内不存在市场博弈行为,毫无竞争对手。不过,真到了市场毫无竞争对手的情况,你需要风控模型么?闭着眼睛做就行了。

大数据的现实意义

当然,我这里并非是全盘否认大数据的现实意义。大数据可以有效地提升效率,降低管理成本,作为金融机构,效率的提升和管理成本的下降,最终都是提升了对抗风险的能力。因此,大数据虽然不能直接提高风控能力,但也具备重要的现实意义。

我在看金融史和马克思的《资本论》时,会设想一个奇怪的命题:大数据能否让计划经济回归?这个说法其实最早是胡晓明先生提出来的,我后来越想越有道理。

马克思等人提出,社会总是生产出那些高于实际需要的产品,牛奶宁愿倒掉也不给予普通民众,说明市场的生产是过度的。为什么如此?虽然从结果来看,市场经济是高效的资源配置方式,但从过程来看,市场经济的弊端也是非常明显的, 它高效的背后其实是巨大的资源浪费 。一个成功企业的背后是倒下的无数个类似企业,这些都是要计入的社会成本 。因此,市场经济高效率的背后其实是整个社会的低效率。

在这种情况下,计划经济从其出发点来看,力图构建一个体系,让市场需求能被有效计算,然后以需定产,从而最大程度地降低社会成本。理论无限美好,但现实中却往往发现,需求是无法统计和计算的。缺乏有效的统计手段,从而使得理想也只是理想。计划经济的失败,让前苏联的生产和实际需求产生了极大的错位,重工业泛滥而轻工业不足。

那么, 现在大数据匹配 云计算 ,是否可以解决这个问题呢?理论上是否可能让计划经济回归或者部分回归? 呵呵,很有意思的问题。

不扯远的了。可能很多专家会认为我的理解过于肤浅,但是,从金融运行实践来看,我对自己的结论还是抱有极大信心的。其实,大数据即使成功,也必然只是个别案例,不具备普遍性。 因为对于同一数据,不同的机构对其有效应用的能力必然是不同的,而这种应用能力,才是机构之间竞争的关键。

随意打赏

江南愤青互联网金融大数据风控系统大数据风控平台大数据风控江南愤青
提交建议
微信扫一扫,分享给好友吧。