百度王辉:剑指智能金融,数据红利期互联网巨头的着眼与发力
雷锋网 (公众号:雷锋网) AI金融评论报道,10月27日,为期一周的第二届香港金融科技周落幕。在27日以“智能金融,会取代华尔街吗”为题目的智能金融论坛上,百度金融战略管理负责人王辉分享了百度在智能金融时代,对于人工智能等科技与金融交流融合的战略思考,和对未来以流量实现价值变现的全新商业模式发展愿景的描绘。
他提出,金融和技术一脉相承的发展历程,到了今天已经步入了人工智能为主的深度合作新阶段。在人工智能科技主导的大背景下,百度通过利用大数据、区块链等技术手段,着眼在智能金融时代特征所所孕育萌发的拓展用户人群、提升效率、资产配置和金融业务线上化等四大机遇,并根据这四大机会为当今互联网巨头布局智能金融提出了四方面能力的新要求:
1.独有数据去验证价值的能力。
2.流量到服务转化的能力。
3.新的技术能够通过工程化、产品化和商业化的能力。
4.软性的。两拨不同的人,在跨界里面能不能形成非常好的文化,成为一个核心的竞争力。
据雷锋网AI金融评论在现场了解,在论及具体的数据应用方面,王辉特别提到,针对那些广大缺乏央行征信数据的人群,百度利用积累的线上大数据对传统金融机构进行补充说明及验证,由此构建大数据风控体系;甚至于更进一步,在进行用户边界扩展的时候,他认为,过度追求千人千面在目前技术现状之下不具有太大现实意义,百度尝试通过对已有大数据的深度分析,发现不同指标之间的内在联系,为用户的风险画像做出贡献,从而为这群潜在用户拟合征信数据。
以下为王辉演讲全文,雷锋网作了不改变原意的编辑:
如果从金融角度来看,其实金融的发展跟技术的发展是一脉相承的,其实金融的发展就是技术不断发展的历程。最早的时候,我们第一波是看到了电子化,原来都是打算盘,手工记账,慢慢的把所有的报告(report)都能够线上化,电子化的一个过程。
第二个阶段,移动化。移动化这个阶段,在中国的大陆其实已经蓬勃兴起,不管是移动支付也好,还是电商也好,不管是在借钱也好,还是在网上买投资理财的产品也好,可以看到,移动化的进程,伴随着2012年到2016年,移动互联网时代的到来,其实是非常有益的。
自从AlphaGo跟人类下棋赢了之后,在2016年的时候,我们就进入了人工智能的时代。我们的董事长李彦宏先生也宣布百度从一家移动互联网的公司,转变成了一家人工智能的公司,正式揭开了人工智能的大幕。但是,人工智能的基础也会推动金融,进入到这样新的时代,我们内部叫做智能金融的时代。
以人为本的智能金融时代:大数据和AI为核心创造价值
围绕“以人为本”凸显四大机会
这个时代会有什么样的特征呢?我们发现,前两个时代其实更多是以效率为核心的,不管是电子化还是移动化,基本上大部分的时间都在解决效率的问题:我如何能够支付得更快更便捷;我的线上的购买如何能够更加顺畅等等,更多地是在渠道层面、效率层面还有流程层面的一些变革,不管是基础设施的系统还是业务建造等等。但是真正到了人工智能时代之后,我们会发现人工智能的技术,帮助金融真正能够实现以人为中心。
什么叫以人为中心呢?就是大家俗称的千人千面,每个人在网上得到的服务,其实是不一样的。我们可以在市面上看到,多多少少都有或成熟或不成熟的一些应用,能够去体现以人为中心的概念。比如说图像识别,其实可以让大家去做大型的申请验证、身份证的核验,实名的认证可以通过图像识别的技术来实现。
ID Mapping ,其实是我们在内部推的一个理念,当大家在虚拟世界里面,有多个(身份)identity的时候,可以通过这样的技术把所有的东西关联起来,能够去识别你是谁(who you are)。
我们经常说,在互联网特别是PC互联网时代,你不知道对面聊天的是谁,但在人工智能时代是可以的。因为这些信息的关联可以真正的让你证明你是你。所以,在虚拟世界里面,在人工智能的世界里面,“证明你是你”,这是一个非常重要的话题。
机器学习 ,智能服务其实可以帮助我们实现千人千面的理财的服务,因为每个人的风险偏好,每个人的投资和理财的需求是不一样的。
人脸识别 。现在在百度的大厦里面,不管是移动的售卖机也好,还是食堂买饭也好,基本上都可以刷脸支付了。
区块链 。其实百度发布了第一单基于区块链的ABS,区块链是一个底层的技术,它可以把非常长的涉及到多方的ABS交易架设到链上,能够让我们的认证和交易变得更加的便捷。
LBS 我们也在探索,(还有)真正的UBI,对于保险科技(Insurtech)来说还比较遥远。但是LBS和UBI技术确实可以帮助机构去判定你的驾驶行为,从而能够产生出个性化的保险,每个人的保险的保费应该是不一样的。我们在畅想未来的保险是什么样子的时候,基于LBS和UBI的保险一定是一个不可脱离的话题。
所以,当人工智能的技术在往前发展的时候,我们会发现,原来相对比较大同小异的金融服务,会因为技术而变得更加以人为本。这是我们对于智能金融的理解。
往前看,在整个中国市场上,人工智能和金融的结合,也就是智能金融时代会有哪些机会?给大家分享一下我们的一些心得。
1、 争取人群拓展的机会 。我们可以看到,在整个中国,有8亿的经济活跃人口,但是真正在央行里面有征信报告的只有3亿人,所以有60-70%的机会。
我们的确看到,争取人群的拓展是一个巨大的机会。如果回到中小企业上面来,可以看到50%的中小企业是得不到贷款的。所以,随着征信人群的建设,这些都是在中国非常大的,能够帮助服务变现、能拓展的机会。
2、 资产配置的机会。 我们看这个市场,中国国人可投资的资产规模只有差不多160万亿,其中,大众富裕,也就是个人可投资的资产占60万以上的,占2000万人。如果从结构的角度来看,中国的整个资产配置里面,金融的资产占比重的12%,美国比我们差不多36%。很多人就说,比例的差异有非常多的房产的因素在里面,但是这个差距仍然太大了。
所以整个中国的资产配置,特别是针对于中产阶级的资产配置是一个巨大的机会。在原来,大众的理财产品基本上是被满足的特别好,银行理财20多万亿元,有年化5-6%的收益率。私人银行其实也被服务的特别好,非常多的银行都有私人银行,但中间这层,新兴的中产阶级(新秀)其实没有得到差异化的服务。
右边我们可以看,中国的保险市场,应该是仅次于美国,但是从保险的密度和保险的深度来讲,离发达国家还有很大的差距。
在香港推广书里面,保险科技也被列为一个重要的发展方向。可以看到,保险在中国的发展前景是非常大的,是我们碰到的第二个机会。
3、线上化的机会 。刚才讲了一个关于移动支付的问题,其实在支付领域线上化已经很全了,但是我们在金融领域看到了更大的市场:线上化的比例是非常低的。所有的互联网公司都会从线上化找机会,因为现在流量非常贵,有了流量做基础的话,不仅可以创造很多业务上的奇迹,也可以创造很多基本市场的奇迹。
所以,就线上化的机会而言,对于流量的巨头,其实还有很多跟金融结合的空间。其中,理财是最高的,因为我们可以看到,银行理财除了第一次要线下面签以外,后续的购买都可以在网上去实现,所以理财的购买,包括陆金所还有其他的一些互联网巨头,反而线上化达到10%。
信贷其实还没有那么高,只有6%。保险更低,保险基本上是一些标准化的产品,像意外险或者是一些在现场购买的标准化的产品,寿险还相对比较难。这个数字一定会有巨大的提升。
4、效率提升的机会 。中国内地所有的银行、保险等等这些上市公司,去看他们的成份,运营和客服加起来应该有万亿级的成本。我们内部粗算了一下,如果这些成本通过技术的手段、用新的技术来继续提升他们的效率,可以被压缩50%以上。
在百度,我们在内部做了一些关于智能客服的测试。发现差不多80%的标准化的问题,都可以通过智能客服的手段去解决;还有70%的质检的工作,可以通过智能质检的方式来解决。判断一个客服人员的回答是不是标准,是不是符合规范,超过70%的都可以通过技术的手段来去解决。这个进一步说明了,新的技术如何去压缩成本,提高效率。
所以,在整个金融市场上,我们看到,会有拓展征信人群的机会,让更多的人可以享受到金融服务,会有资产配置的机会,也会有线上化的机会,更有进一步的效率提升的机会。
智能金融时代互联网巨头的四大发力点
为了去把握这四个机会,其实我们认为有四个方面的能力是非常关键的。
能力一:相对独特的数据 。在人工智能的时代里面,所有人都在讲,数据是非常重要的资产,有没有独特的数据,以及这个数据能不能在你从事的领域,比如说金融领域得到发挥,是一个非常关键的话题。
在百度,我们做股份金融和人群拓展的时候,用我们的数据做了非常多的维度的画像。我们可以把一个申请人的学历、职业、年龄、资产和收入都进行画像(基本上在百度的记忆的账号里面),通过去识别你是谁,以及你从事什么样的工作,你是什么样的年龄段,以及有什么样的资产,什么样的收入,基本的规模可以拿到差不多E级的水平,准确率都是在80%以上。
这个其实可以从另外一个角度去证明: 即使你没有在传统的征信体系里面有记录,但如果你是有这些比较重要的风控表现的标签的话,你仍然可以去做到非常好的信用的水平。 然后,我们可以把这些人进行不同的分层,我们会把他们分成A、B、C、D、E,不同的层级代表了不同的方向的标签,也会得到不同的利率和不同的额度。
目前看起来,我们能够去拟合出来的名单已经达到了2亿。这2亿不仅包括了有央行征信的记录,还有相当的一部分是没有央行记录,或者是央行记录相对有些瑕疵、或者比较薄的一些人群,这些其实是我们能够去做普惠金融的非常重要的一个基础。所以,(获取)独有的数据、进行风险标签的拟合,(从而)去判断风险水平,然后再开展业务是非常重要的基础,这是第一个能力。 (详见下文)
能力二:流量劳动服务的转化能力 。所有的人都在想一个问题,关于流量,不管是搜索也好,还是点击也好,这个东西怎么能够去生成一个金融的资产,中间的路径其实是非常长的。有一些公司已经明白这点了,有一些给传统金融机构倒流的公司,其实可以走到中间这一段,就是从流量能够形成一个有效的申请,把所有的基本信息填下来之后,再把用户的基本信息倒给金融机构。
这其实只是做了中间这一段,后面这段资产生成的部分其实是金融机构在做的。那如果我们从互联网的角度再往前看一步,如何能够从一个有效的申请再到资产生成的过程,中间还是要走非常多的步骤:
第一个被验证的价值是关于智能获客的价值 。非常多的传统金融机构会有一个很大的痛点,这个痛点是相对比较低频的金融服务,我不知道什么时候我会买房,我也不知道什么时候我会买车。保险也会非常低频,包括教育、医疗、美容、装修和旅游,它不像支付每天都在发生,具有低频的特性。
所以,在什么时间能够把握住这个人的需求会变得非常重要,在我们内部叫做响应。当你出现一个需求的时候,你会对某个金融服务产生响应,这件事情就变得异常的重要。传统的金融机构会受限于他们的门店,也受限于他们对客户的生命周期的把控,在寻找时点的时候,会变得非常头疼,这是他们一个很大的痛点。
当我们每天打开微信或者是其他的移动互联网的APP的时候,我们都是在互联网进行一些需求的表达。当你能够表达出这个需求的时候,就能够通过大数据和人工智能的技术更好地来去捕捉这个时点。
内部百度有一个响应的模型,这个模型的最下层是刚才我们把不同的人按信用进行的分布。你可以把它简单理解为信用好的人和信用相对差一点的人。传统金融机构里面,一个比较大的痛点就是,信用相对比较好的人,或者相对比较有钱的人,他的需求是非常不易捕捉的。而我们通过响应模型去看,他对于某一个金融产品的响应的率能够超过10%,就意味着每来100个类似于这个评级的人,我能够捕捉到超过10个有潜在的金融的需求的人。这比你在线下茫茫大海去找这样一个人,和找他这样的时点会轻松。这是第一个被验证的价值,就是如何能够更加智能地去获取客户,捕捉他们的需求。
第二个价值,我们内部有一张癌症图,每一个节点都代表一个机构,是正常的表现的话会看到,分布相对比较均匀。不同的节点之间连起来有一些异常现象的话,都会用彩色标注出来。
在正常的表现里面,其实人和人之间没有那么多的异常现象。所以你会发现,这其实存在欺诈,欺诈基本上都是线下行为,通过某一些线上化表现,不管是通过电话也好,短信也好,还是通过其他的行为也好,把所有这些异常的人都联系起来,如果其中的一个节点我们判断为有黑或者疑似黑的特征,一串的人都会拉出来。所以,正中间的话,我们会发现某一些机构就会存在欺诈,而且它扩展的范围有多少。
最后,把所有存在异常的机构放出来,看它们的预期表现,就能看到这些机构欺诈的程度。而这个反欺诈的网络,我们内部叫福尔摩斯,基本上是抓坏蛋的。
所以,在我们在跟机构合作借助服务的分期贷款的时候,对于机构风险的把控我们会建设成一个巨大的关联网络,而且这个关联网络是在线上实时运行的,它可以保证我们在第一时间对一些潜在的欺诈风险进行预警,从而去避免更多的损失,这是第二个被验证的价值。
在中国的市场,欺诈的风险和信用的风险的比例是8:2,在成熟的市场是2:8,是倒过来的。所以, 在中国反欺诈和反黑,其实是更重要的一个话题。
第三个价值,信用的风险 。我们一直在尝试证明一件事情,就是百度的互联网的数据,跟央行的征信数据之间到底有什么样的关系,他们之间叠加能不能产生比例关系(delta),能不能产生额外价值贡献(extra value contribution)。
央行征信数据,关于风险已经是非常强的的状况说明,每提升哪怕千分之一的比重都是非常难的。在我们内部的实验证明,互联网的数据和传统的数据之间是有化学反应的。他们之间可以创造出更多的delta出来,对于那些没有央行征信的人群,我们内部的模型线和KS值能够超过30%,这已经是相当不错的水平了。
所以,对于没有央行征信的,通过互联网的行为数据,可以拟合出来一个你的征信水平,从而使金融有了至少一个可能性,这个是第三个价值。
所以,当我们在讲从流量到金融资产的时候,中间路程其实是非常漫长的。它会经过画像,我得知道你是谁;知道响应,在某个时点,对于某个金融产品,会有比较好的表达;会通过有效的渠道找到客户,然后去验证你是你,再往上证明你真的是你,去做反欺诈和风控;最后,把不同的产品匹配给客户,完成整个过程。
只有管理者能把这整个过程所有的能力一层一层建设起来,才能够真正地把流量--互联网上哪怕一个点击的行为,转化成最后的金融服务,这是我们在尝试去做的非常重要的一个能力。
能力三:是从工程化到产品化到商业化的过程 。这个是什么意思?就是有非常多的金融科技的概念还停留在基础层面,但是从技术到真正的应用,能够跟产品融为一体还是需要相对比较长的过程,我们内部把它叫做“能用”、“好用”和“真用”。
“能用”是从基础层面上,能解决非常多的问题。比如说,人脸识别里面,光线变暗的时候,你去加点底;照片模糊的时候,你去保存照片;脸部遮挡的时候,你可以体现语音提示播报,这些都是feature层面的。
“好用”的意思是说,在我们内部的场景里面,因为大家有信任,相对来说保证这些金融科技的概念顺畅好用。
“真用”是什么?是金融机构能够为此而付钱,能够形成一个商业化的合同。
所以,从能用到好用到真用,是整个科技能够形成真正的生产力必不可少的过程,也是金融科技能够嵌在从流量到服务里面去建立能力(capability)的非常重要的路径。但是这个能力并不容易去打造,因为互联网和金融的结合本身就是两拨人在共同创造一个新生事物,在这里面会存在非常多的沟通成本,和大家互相去学习和借鉴的地方。
能力四:文化 。我们常讲,互联网人是一帮野蛮人,他们都在讲网络效应,做事都非常大胆,也敢试错,讲究个体的成长,很熟悉互联网,非常务实。而金融人,我们会觉得他们是文明人,都觉得风险是有边界的,所有的收益都会有滞后效应的,讲究目标和规划的,一定要把房子搭好。所以,当一帮野蛮人和一帮文明人放在一起的时候,文化的磨合就会变得特别重要。
在过去的两年里面,我们的金融和人工智能的会议室基本上算是百度最吵闹的会议室,有非常多的人在里面争论。但是经过这样一个过程,双方都在互相学习和成长,能够更加开放,更加学习向上的文化,在今天,这会成为交叉学科和跨界非常重要的核心竞争力。
所以,总体而言,在中国市场上会有四个机会,为了把握这四个机会,也会有四个非常重要的能力:
-
1.独有数据去验证价值的能力。
-
2.流量到服务转化的能力。
-
3.新的技术能够通过工程化、产品化和商业化的能力。
-
4.软性的。两拨不同的人,在跨界里面能不能形成非常好的文化,成为一个核心的竞争力。
全新的商业模式:流量通过服务价值变现
在今天的金融科技或者是智能金融领域里面,我们在验证一种新的商业模式。如果你去看互联网里面的变现,有两种模式被证明了,一种是广告,一种是游戏。如果今天从流量能够去生成资产,生成资金,在线上真的能够去完成一个全闭环的金融服务的时候,我们真的是创造了一种新的,按照服务来进行价值变现的一种新的商业模式,它不是简单的广告,也不是简单的变现。
人工智能时代数据红利期下的大数据风控体系构筑
线上数据与传统数据的互补
在中国相对成熟的经济体系下,人工智能有一个红利期。流量的红利期大家认为已经过去了,但数据的红利期还在持续。数据的红利期持续背后有几个原因:第一个原因,整个中国的移动互联网的发展领先于其他国家,所以数据的沉淀本身在新兴领域更加丰富;另外一个,有好有不好,监管还没出台更严苛的措施。
在这样的前提下来看,为什么BATJ这样的大公司会去大规模地去投资很多新兴的公司?其实是在买入和实践的背后积累很多数据的资源。数据是实现AI的必经途径,没有了数据,AI就是无源之水,没有办法去做。
再回到大数据的风控。其实我们在内部,一直在回答两个问题: 百度的数据,能否和央行的征信数据、传统金融机构积累的金融数据产生化学效应? 如果不能产生化学效应,产生delta,是没有办法形成差异化优势的。我们证明是有的,一个人非常多的行为,是能够说明(Indicate)这个人的。当你的征信是有瑕疵的时候,这些行为是能够补充说明他的一些特征。比如说,搜索行为、交易行为、阅读行为等等,当用户为了得到一个金融服务,授权(服务商)这些行为,去证明(prove)在防范意愿和防范能力上是有潜力(potential)的时候,它们是能和传统金融数据产生互补效应。这是我们内部在进行数据应用回答的第一个问题。
设定风险强标签拟合征信数据
第二,当我们在进行(用户)人群边界拓展的时候,我们能不能对于那些没有征信的人群模拟出他们的征信状况来?也是可以的 。LBS等可以定义一个人(something about you),我们发现,同样的年龄、同样学历的人群,比如都是大专学历,年龄基于25至30岁之间,大概模拟出他们同样的收入水平,工作的稳定性是非常重要的一个指标(indicator)。
我们发现,有的人是相对典型的两点一线,有相对比较稳定的工作;有的人在整个行为轨迹上是非常的飘忽随机(random),这样我们就不太能判断这群人的工作稳定性,在一段时间里面拉长的表现,比如说半年,这群人的(还贷)逾期率就是工作稳定性的三倍。所以这些(指标)都可以拟合一个人的风险画像,从而能够判断他的额度和利率水平。
百度也做不到具体到每个人去做风险定价,过度去做千人千面也没太大效果,一个人的年化收益率是10.21或者10.22其实没有太大差别(difference)。 但百度一定会针对某一个客群,在他们的风控里面设定一个强标签。比如上述提到的工作稳定性,什么是稳定的?我们会设定一个预值,然后把它映射(map)到个人行为上面去,(对于这个群体而言),这样一个细分的处理结果(settlement)具体到每个间隔区间(granularity)的时候,是可以做到精准识别(identify)的,如果要继续到个体上的划分(differentiate),就没有意义了。
正如开始所说的,在中国,目前因为监管(regulation)的关系,因为移动互联网和AI的发展的关系,还处在数据的红利期。数据的红利期还能继续往前推进一段时间,但是所有公司都负有保护用户隐私、合理应用数据以及公众教育的义务。在这个基础上,正确地应用这些数据、更好地去刻画一个人的风险水平,才能够去让普惠金融“普遍惠及”的愿景得到实现。
。