王冉冉博士:大数据在金融行业的创新应用
分享嘉宾:王冉冉 博士
北京大数据研究院金融研究中心 研究员,美国华盛顿大学统计学 博士
王冉冉:我主要跟大家介绍一下大数据,和我们现在所说的非常火的人工智能进行一些介绍,以及在金融行业中的一些创新应用。
首先,说一下大数据,或者是人工智能这个概念。我比较喜欢用一个,并不是金融行业,是一个老中医的概念。人脑在形成知识,或者形成智慧的过程,其实很多都是基于历史的经验,我们通过人脑来形成规律,然后归纳总结。来了一个新的问题,这个问题输入到我们的人脑里,其实我们就会对它形成一定的认知,然后把这些知识都关联起来,然后我们来做出决策。
我们拿一个老中医的例子来说,我看了成百上千的病人,通过望闻问切各种方式来采集数据,然后产生认知,来了一个新的病人,我们就可以知道他有没有生病,或者是得了什么样的病。对于机器来说,这个认知的过程,我们把经验转变成了数据,也就是说我们会基于历史数据,通过计算机的算法语言,我们来形成模型,有新的样本、数据给到我们的时候,我们就可以形成关联、预测,然后得到我们对未来的认知。这个过程也是我们今天说的,大数据分析、机器学习的模式、过程。
说一个简单的例子,云计算、大数据,包括人工智能,对于我们,或者是对于世界的改变,说一个非常有名的公司,也就是谷歌。
谷歌是做搜索引擎的,搜索引擎的模式,其实是通过一种自动加载网页,然后来抓取链接,抓取信息的方式,然后形成一个对于全网数据的抓取,之后通过搜索引擎,对关键词形成检索。在这个之上,因为需要对全网的数据进行检索,进行抓取,进行存储,在这个之上,就开始有了新的技术,那就是针对文本的数据,需要通过分布式、云计算这样的技术。因为数据量太大了,包括现在互联网的数据,它是一个信息爆炸的时代,数据量太大,我们就需要新的存储的方式来存这些数据,来处理这些数据,来解析这些数据
现在说的非常多的,比如说Hodoop这个大数据分布式的生态系统,最开始也是来源于谷歌,在这之上再衍生出来这样一套存储和数据处理的技术。这就是云计算。
在这之上,我们需要对信息有所检索,搜索的技术得到优化。2000年初的时候为什么有很多做搜索引擎的公司脱颖而出?其实就是因为算法。从一篇网页会关联到下一个网页,然后形成关联式的快速检索的机制。这个是通过算法来优化它整个的搜索引擎、数据处理的机制。这其实就是从大数据、云计算的技术一直到算法,形成了这样一个非常有效的机制。
谷歌还做了什么?更多做的还是一个创新的模式。它本身的收入来源其实是来自于它的广告。它是通过用户在搜索引擎端基于搜索,和用户行为的数据进行匹配、进行广告推荐。这占到了它90%以上的收入来源。而且这样一个体系、商业模式的创新也造就了现在计算广告学这样一个学科。通过商业模式的创新,形成非常丰厚的收益。再就是人工智能技术的创新,包括我们现在说的阿尔法狗,通过智能算法进行了创新,相当于是加速我们进入到人工智能的时代。
这是大数据、人工智能时代非常重要的几个要素,首先是信息化,我们需要数据。无论是网络爬虫,还是现在移动互联网时代,其实我们的手机端也可以搜集到非常多的数据,包括一些地理遥感的数据,车联网、物联网的数据,其实这些都是我们的数据来源。通过信息化系统的建设,然后形成我们的数据来源。在这之后,我们就需要数据化,包括数据的存储、数据的处理机制,以及在算法之上,我们是需要用大数据的技术对这个海量的数据形成存储,然后实时运算,以及分析预测的一些机制。
我们说到大数据的时候,一方面是基于历史经验、历史数据来获得知识、获得智慧,然后有了一个学习的过程,现在的深度学习、增强学习,在研究院也看到了我们很多的科研实验室,在这之上,其实是通过智能的一些算法,让机器有了更多的智慧,它有了自主思考的能力,而不是完全依赖于历史经验,其实,这也是一步一步,通过我们的信息化、数据化,以及智能化的升级,然后给我们带来的这样一些改变。
在金融的场景应用里有什么样的应用?今天主要是给大家介绍几个方面。因为,今天来的都是我们银行业的很多专家。今天,主要跟大家介绍一下大数据征信以及风险评估,再就是大数据如何应用在智能反欺诈,尤其是像银行,我们每天面临着大量的交易数据,我们如何针对这种交易端的欺诈行为进行一些识别。再就是在这些数据的沉淀之上。包括我们商业银行自己也沉淀了非常海量的数据,现在很多的金融机构也通过和第三方的合作采集到了数据,我们怎么通过这些做一些用户画像、营销分析,再就是我们需要大数据平台的底层技术来支撑。
今天,跟大家简单介绍一下这方面创新的科研成果,包括我们研究中心本身也在跟一些金融机构合作的应用成果的落地。
首先,说一下大数据和信用风险评估。这也是目前说的比较多的,应用的一个领域。这几年,我们从银行业,从以前传统的对公业务转向零售业务,尤其是在信贷环节,现在的消费贷,消费金额的兴起和小额信贷的兴起。比如说传统银行,申请一张信用卡需要2、3周以上的时间,但是在现在消费金融的场景下,每一笔小额的贷款实际上是支付不起这样的人力成本,然后我们就去进行人工审批。在这样的场景之下,我们一定要用到数据以及模型的,然后来帮助我们的审批流程得到效率上的升级。再就是准确率,也就是风险管控的性能升级。
目前,在信用评分、风险评估上也已经得到了非常广泛的应用。大数据征信的数据来源,运营商、银联、用户行为、黑名单的数据,这些在市场上已经有了非常多的征信机构。通过这样的海量数据,以及我们行内自己本身可以采集到的申请数据、征信报告的数据,我们结合起来,然后准确的对申请人进行一个信用评估。
在贷中以及贷后端,我们需要知道用户持续的行为,比如说还款行为,持续的征信信息。通过算法我们如何来提升这个模型的准确率,同时,增加我们的建模效率,这其实都是一些非常值得深入研究的课题。
在这个之上,我们把这样一些流程描述一下,在这个过程中,我们用到的数据来源包括银行的征信报告,这是我们作为银行金融机构非常有效、可靠的对于申请人信用情况的一份数据来源,我们行内内部的申请信息、客户的资产信息,代发工资客户的资产信息,信用卡客户消费的信息都可以作为我们的数据来源,还有外部的数据,资产类的信息、行为类的数据,这些都可以成为我们做大数据分析的数据来源。我们首先通过信息化来解决数据来源的问题,然后把这些数据放在我们的数据处理的平台和系统里。它对于我们的风险准入、欺诈识别、信用评分,以及在授信审批的过程中通过不同的模型来实现这样的一个决策辅助的功效。
建模的过程就像我刚才说的一样,比如说信用评分这样的建模过程,实际上就是在建立一个预测模型,它的机理是说,申请人来的时点,我们用他之前所有产生的信用历史、资产类、消费类的数据,对他未来12个月、24个月是否违约的行为进行预测,我们在建立这个预测模型的过程中,就需要用到历史数据,这就是行内,比如说我们已有的实际发生的客户的还款的历史记录,然后就可以成为我们学习的变量,在这个过程中,我们需要对数据进行预处理、数据提取,还有算法的使用,具体的技术细节我就不多说了。
在这里主要介绍一下我们大数据研究院和中国人民银行征信中心建立的一个合作,通过一个数字化模型、模型化的方式来帮助我们在信审的过程中来衡量申请人的信用水平。
人民银行是跟FICO进行合作的。FICO使用的建模算法相对来说比较陈旧,应用到国内的征信场景也会有一些问题。在中国征信市场的成熟度是不够的,很多客户,尤其是在银行拥有征信记录的话,这个区分度并不是很高,可能每个人都是一个车贷,一个房贷,几张信用卡。通过这样传统的模型是不容易把客户的风险等级做一个比较好的区分的。同时,这个模型的建立过程非常久,包括在中间的一些变量,被审贷人员、申请人解读的话,也会存在一些刷分的漏洞。我需要提升哪方面的指标,才可以使得我这个信用分数更高,这样的做法,也就会更容易形成刷分的漏洞。
我们和人民银行征信中心合作的过程中,其实是用了3.7亿的个人征信报告,在这之上使用了很多先进的基于大数据、机器学习的算法,基于决策数的一些基层算法。在这之上,我们对这个模型的效果也有了一个比较明确的优化,包括对于正常还款和信用违约人群的区分度,我们可以提升大概10%到20%。这对于我们整个的资产规模来说(银行),其实也是一个非常有效的提升。
这边是我们跟国外的有名的P2PLendingClub的合作,在这里除了传统的信用数据之外,还有个人的一些申请信息,其实还有很多的互联网端的,比如说社交网络、网购、一些行为特征的数据。在互联网的数据是比较脏的(用比较专业的话来说),本身的缺失率比较高,噪音也比较大。在这样的场景之下,就更需要用我们基于大数据的算法来帮助提升模型预测的准确率。经过优化建模之后,而且拿了平台的全量数据进行回测时发现坏账率同比减少将近40%。
现在银行主要还是基于对公的业务,在这样的场景下,首先是数据/员源可以辅助我们的信贷审批的过程,包括税务,一些互联网舆情,其实都可以帮助我们去提升对于这个企业风险的一些判断,包括一些公民链、担保圈等。
我们最近在拿一些商业银行,他通过和税务数据合作的数据来建立对于小微企业,基本上是在授信规模50万到150万左右的小微企业做风险模型,基于电子发票来看他上下游的供应商、采购商的稳定度。这也是通过大数据的分析,数据和分析手段,帮助我们认识到这些。
再简单说一下智能反欺诈。随着电子渠道端、手机银行、网银的兴起,还有直销银行,这样一个业务的兴起,这样和传统的业务是不同的,我们的数据来源除了客户的一些申请数据,和他本身的交易数据之外,我们也可以从终端的行为数据采集到很多用户的行为数据(PC)。在这个行为之上怎么来帮助我们识别一些欺诈风险?传统的方式,比如说信用卡,交易反欺诈,很多都是通过专家规则的方式,专家规则也有很大的问题,就是在于它本身更新的机制比较慢,专家规则的误报率比较高。包括人行支付清算协会去年下的文件,现在已经明确规定商业银行需要建立反欺诈平台,同时使用机器学习的算法,来持续监控这样的一些交易风险。
这边是一些具体算法上的东西。
我讲一个案例,这是跟一个全国股份制银行做的基于电子渠道端异常交易识别的一个项目。刚才我说的电子渠道端,现在银行还遇到了一个很大的问题,我们刚才说的信用评估的场景里是有正常还款的人群、违约的人群建立的一个模型。但是在电子渠道,其实很多商业银行是没有坏样本的,他其实不知道哪些客户是欺诈客户,这是我们坏样本少的问题。同时,这个数据质量也比较差。另外,交易数据一天都是几十万、百万级的大规模的数据。所以,我们是需要大数据的存储和基础技术,同时,我们也需要创新的算法,来帮助我们识别异常。
我们通过一些欺诈规则的生成和梳理,再通过机器学习的算法来做,这是我们识别异常交易,以及异常账户的办法。在异常交易合异常账户之上,我们又可以去跟正常客户去进行对比、建模,从而生成更多的欺诈规则,然后形成这个闭环,就可以持续在这个平台上去监测异常交易,通过新的规则来进行实时的处理机制。这也是大数据的处理手段和智能算法帮助我们提升业务提升的办法。
大家可以看一下,这也是通过我们的算法跑出来的,我们可以明显的看到,它有一个非常频繁的电子支付、跨行转账的交易行为,它的IP地址也发生了超越物理范围之外的变动。整合在一起,我们就通过我们这个系统的模型,就可以跑出一些客户的异常信息。
这是在移动安全端采集到的很多基于这些设备、我们的环境的数据,然后把这些整合起来,辅助我们进行大数据的处理手段。
现在还有团伙欺诈,这个是需要通过账户之间的一些关联、转账之间的关联,比如说图数据库、图算法这样一些新的分析方式来帮我们实现这样的一个操作。整体来说,我们现在面对的是数据源的丰富、算法丰富,我们通过这样的平台就可以实现银行交易类的场景的反欺诈。
再简单提一下,基于消费数据,就是交易数据、账户信息、中间业务的数据,其实也可以对我们行内的零售客户形成一定的画像、分群,在这之上,来提升客户的转化率。
这是在营销分析方面的一些探索。
基于大数据底层的技术,在云计算上,我们也需要基于这些分布式的技术,帮助我们做一套底层的基础设施,然后来支撑我们对所有数据的处理、分析。
这是我们在尝试的一些课题的研究。
最后简单介绍一下大数据金融研究中心,我们金融研究中心主要是基于这几块数据进行的专题研究,第一块是信贷数据,刚才也讲了一些例子,基于征信和信用评分,我们现在在大数据的场景下,包括和监管机构、商业银行和一些沪金平台在形成一些合作。
另外,基于金融市场数据,包括对宏观经济的一些分析,在量化投资里怎么通过多因子模型,或者是一些大数据因子的加入,来帮助我们提高收益率。
最后一块是用户行为数据,刚才说了智能反欺诈,以及在用户画像的场景里,我们都用到了很多,比如说客户在手机行为端的一些数据,在行内的数据,来帮助我们形成对欺诈风险的一些判断。谢谢大家!
责任编辑:黄玉叶