ZestFinance,错误的信息也是信用数据
互联网金融峰会印象二:ZestFinance如何构建信用评估体系?
ZestFinance是国内许多做数据分析的公司欲效仿和对标的对象之一。是一个利用机器学习和大数据分析来评估客户资质的平台,由前 Google CIO 及工程副总裁的 Douglas Merrill 创立。ZestFinance 前不久在 C 轮融资中获得了 2000 万美元资金。目前为止,该公司共已获得 1 亿美金融资。
目前,ZestFinance可在几秒间为用户提供分析结果。它的数千种原始数据包括来自第三方(如电话账单和租赁历史等)和借贷者本身提供的数据。通过有十几个评估模型,这些信息被转化为几万个测量指标,如诈骗几率、长期和短期内的信用风险和偿还能力。最后各模型的结果被整合成最终结果。
顾凌云现在是Turbo Finanical Group的首席风险官,曾在ZestFinance全面负责模型组的研发工作,专注于将大数据领域的算法与创新技术应用在个人和企业信用评级领域。他分享了ZestFinance信用评估体系的构建经验,看起来跟我们以往听起来的标准有很大不同:
1.一切数据皆为信用数据。没有什么东西不重要,数据可以汇流成海。
举两个例子,在美国申请信用卡,姓名有可能全部小写,也有可能全部大写。这在我们看来信用完全不一样的,一个人如果能力知道何时大小写他的姓名,从某种程度来说姓名指数更好,这跟教育背景形成正相关。
还比如,看客户开什么样车,并不是希望通过开什么样车判断车价值或者最后怎么样,而是开什么样车跟还款能力有很大关系。开一辆本田、尼桑风险程度不一样。开尼桑往往更激进,还款程度来说更快一些。
2、所有信息看关联不看因果。很多人都认为我总要看到因果关系是什么?没有因果关系不愿意做出判断。实际上,只看关联不看因果从某种程度来说更好的。
举一个例子,大家看身高以后判断出体重,但有时个子高体重并不一定很重,因为可能肌肉松紧不一样。数据也是一样的道理。
3、每一条自己写错信息也是关键信息。用户给我信息就可以,至于是不是说谎或有意隐藏信息都没关系,全收,信息之间可以相互佐证。比如一个人写收入多少、月收入多少,都是一条信息。
ZestFinance的数据工作包括特征变换,特征提取,独立模型建立和合成模型这四个部分。
特征选取。从某种程度上大数据,在所有信息中选取特征,有时候会出错误,这个人最近搬家次数,每个都是独立特征。如果只是用积极选取,只能选出其中一类这是不合理,把信息全部串联起来,像搬家次数明显加快,还是降低,从信用角度来说有巨大区别。在人工当中如何进行选取和变换也是非常重要。
ZestFinance个人信用评级和中小企业信用评级都做,尤其现在做中小企业评级。引入了社交网络数据,这些企业在上面有比较多的信息,什么时候做了促销客户群什么样子。网络分析数据,你IP地址哪里来,用什么电脑,玩不玩游戏这些东西在ZestFinance的信用评价都很重要。
最后分析出来想要解决是什么?信用评估两点。第一有没有还款意愿,有没有还款能力就是信用。二者之间不能完美解决,原因很简单,因为有一个滞后性,公司解决办法希望把离散的变成是连续的,把离散的变成连续的,在我印象当中有完美世界,对我来说希望最终产生的版本每分每秒改变,根据不同进来数据源,每分每秒都在变,不是等两三个月信息才改变一次。