中国民生银行王彦博:以客户为中心的商业银行数据挖掘技术应用(附PPT)
导读:4月14日下午,数据观-清华大数据“技术·前沿”思享会在北京互联网金融中心成功举办,本期活动主题为“大数据分析与挖掘”。此次活动由2016数博会组委会主办,中国大数据产业观察网、清华大数据产业联合会承办,中关村大数据产业联盟协办。
在活动中,中国民生银行公司业务战略规划部数字化管理中心总经理王彦博发表了主题为“以客户为中心的商业银行数据挖掘技术应用”的演讲。
王彦博,英国利物浦大学计算机科学博士、曼彻斯特大学计算机科学博士后,现任职中国民生银行公司业务战略规划部数字化管理中心总经理,从事数据挖掘科研及应用工作十余年,具有丰富的信息化智能分析经验,推行“智慧银行”大数据金融战略。入职民生银行以前,曾任英国国家文本挖掘研究中心副研究员,兼任美国IGI Global出版社《知识社区与社会网络进展》系列丛书副主编、ACM《智能系统与技术》、英国剑桥大学《知识工程回顾》、印度DIVA《数据挖掘与新兴技术》、德国IBAI“业界数据挖掘”、IEEE“计算机应用与系统建模”等国际期刊、学术会议论文审稿专家,并担任IBAI“业界数据挖掘”业界分会场主席。王彦博博士发表著作1部、著作章节3篇、学术论文40余篇、参与编写金融专业书刊2部,获国家专利1项、国家级奖励1项、省部级奖励5项。
从题目来看,此次分享所涉及的技术内容是大数据领域中的“数据挖掘”;而在应用层面,我们聚焦于“面向客户的商业银行”应用。首先,我们来看数据挖掘在大数据领域中的定位。
大数据应用基本框架
我们给出一个大数据应用基本框架,从上至下来看:
1.不论任何行业或企业,与客户接触的方式已经从原来的“传统线下业务模式”转化为“互联网业务模式”,甚至还有“O2o2O线上线下相结合模式”,这产生了不同的业务应用场景;
2.随后我们需要对客户市场进行细分,预测客户的需求,掌握客户对产品的响应情况,开展定价分析,激发交叉销售,关注客户的投诉,及时进行客户流失预警及相关风险预测、欺诈识别等;
3.底层是大数据所提供的基础支撑:一是“业务驾驭能力”,或者称为数据与业务的对接能力;二是帮助我们更加直观有效的理解数据所带来的业务洞察,因此我们需要“信息可视化能力”;三是“多类型数据处理能力”,因为我们可能需要涉及对非结构性(文本、图像、音频、视频等各种类型)数据的处理和分析,而不是仅仅专注于结构性(库表类)数据;四是“分布式数据计算能力”,比如我们经常提到的Hadoop框架,主要包含分布式存储和并行计算两部分内容,它可以被看作是开展大数据应用的“加速器”;五是最为关键的“数据挖掘分析能力”,因为即便其他能力均已具备,若缺少有效的数据挖掘模型和算法,就好比“空有体表(业务、可视化)和骨架(多类型数据、分布式并行计算)而缺失灵魂(数据挖掘)”,所以我们说:数据挖掘是大数据应用的核心驱动力。
商业银行大数据金融四层级框架体系
更进一步,结合金融行业应用实践,尤其是面向商业银行大数据应用,我们提出了四层级框架体系,从下至上来看:
1.所谓“巧妇难为无米之炊”,既然要做大数据金融,肯定得先有大数据以及用以承载大数据的平台,我们称之为“数据基础层”,包括IT基础设施、数据采集、数据存储、数据管控与治理、数据标准化、数据加工处理等内容;
2.往上一层是“数据模型层”,反映了知识探索所通用的四大方法论(逻辑证明、假设检验、仿真模拟、数据挖掘),以及在此基础上数据科学的主要技术展现(固定报表、即席查询、灵活图表、数理统计、分析预测、人工智能、虚拟现实);
3.再往上一层是“业务模型层”,在商业银行应用中,主要会运用经济、金融、市场、管理四大理论体系,用以支撑银行运营中的客户管理、产品管理、渠道管理、营销管理、风险管理、绩效管理、人力资源管理、财务成本管理等方面;
4.最顶端“业务应用层”是按照市场进行划分的公司银行、零售银行、金融市场三大业务板块,以及与客户直接进行接触的分支行营业网点、事业部一线团队、电子银行与直销银行。
当这四个层级被完全打通之后,即可实现真正意义上的商业银行大数据金融。在四层级框架体系中,数据挖掘仅为“数据模型层”中的一个重要部分,但有时也可用来泛化理解为整个“数据模型层”,起到了对整体框架体系上下贯穿的重要作用。
既然“数据挖掘”在大数据领域中如此重要,下面我们就来剖析一下数据挖掘的理论与内涵。
数据挖掘的定义
经过长时间的学习与实践,我们认为数据的核心思想就是“面向具体业务应用,按照一定的知识发现模式,从海量积累数据中挖掘萃取出一切存在的、有价值的、但人类无法用肉眼识别的各类隐藏规律、规则、趋势等,并加以有效应用,从而达到‘总结过去、预测未来’的智能效果”。尤其从商业银行这个角度来看,我们认为不存在独立于业务的“纯粹”技术,所以一定要面向具体的业务应用来做数据挖掘。数据挖掘的主要任务在数据之中发现潜在的规则,从而更好地描述数据和预测数据。
数据挖掘标准流程
有人说数据挖掘是一门科学,也有人说它美如艺术,但其实每个数据挖掘项目都是一项工程。既然是工程就应该按照标准化的作业流程予以实施,这就需要我们按照“业务理解”、“数据理解”、“数据准备”、“建模”、“评估”、“发布”的流程将数据挖掘落地并实现价值。
数据挖掘的起源
数据挖掘(Data Mining)或称“数据知识发现(Knowledge Discovery in Data,KDD)”这一术语早已让人耳熟能详。然而,作为计算机科学发展中“最年轻”的分支领域,数据挖掘仅有不到30年的发展历史。数据挖掘的概念最早出现在1989年8月于美国底特律召开的第11届国际人工智能联合会议上。在此次国际会议中,召开了一个题为“数据库知识发现(Knowledge Discovery in Databases)”的小型专题研讨会,从此为计算机科学理论研究与应用领域掀开了一个新的篇章。在之后的2-3年中,很多计算机科学家陆续发表多篇论文,对“数据库知识发现”(即“数据挖掘”)概念予以肯定,并投身于数据挖掘科研领域。
数据挖掘的发展历程
在过往的工作和学习中,我们尝试对整个数据挖掘发展历程进行总结归纳,我们认为数据挖掘从最初发展至今经历了五个阶段,分别为:“数据挖掘启蒙阶段”、“知识模式发展阶段”、“数据类型发展阶段”、“应用领域发展阶段”、“大数据发展阶段”。
首先、数据挖掘启蒙阶段(1989至1995年):
第二、知识模式发展阶段(1996至2000年):
第三、数据类型发展阶段(2001至2007年):
第四、应用领域发展阶段(2008至2012年):
第五、大数据时代发展阶段(2013至今):
以上,我们以点盖面地对整个数据挖掘领域的发展历程做了一个“脉络性”梳理,越是在发展初期阶段,相关内容越容易整理,重要事件也列得比较全,但随着发展进入到应用领域阶段,数据挖掘呈现出“遍地开花”之势,我们梳理的内容可能只是数据挖掘无限广阔应用中的“冰山一角”。此外,当发展进入到下一阶段并不代表上一阶段的发展内容就不再继续了,只是人们所关注的重点发生了转变,比如:进入到“数据类型发展阶段”仍然会有新的知识模式被提出;进入到“应用领域发展阶段”仍然也会探索对新的数据类型进行处理和挖掘。
今天我们已经进入到了大数据时代,所谓“无处不数据”,到处都可以采集、处理、分析和挖掘数据,实现数据的价值。接下来,我们主要针对数据挖掘中的聚类和分类技术进行探讨,其目的不是要阐述数据挖掘能为银行做什么,而是要从根本逻辑上探讨数据挖掘是如何实现银行智能化应用的。
聚类技术与示例
聚类技术基于“物以类聚、人以群分”的朴素思想,依据数据特征属性对数据样本划分类别,实现分群。尤其当不知道数据样本所带有的类别标签时,可以使用聚类技术促使带有相同潜在类别标签的数据样本与其他(标签)的数据样本相分离。聚类是一种“无监督”学习过程。当类别中数据样本的相似性越大,类别间数据样本的差异性越大,聚类的效果就越好。如果一个对象不属于任何类别,那么该对象是基于聚类的离群点。
在聚类技术中,K-means算法最为经典,我们选取商业银行客户细分的一个示例,即自动将A-I共9名客户按照他们与银行的往来期(1、1、2、3、4、9、10、12、12个月)分为两群,实际上银行业务层面可能会考虑以“是否开户满6个月”进行划分。我们将K-means算法得到同一结果的计算过程演示如下:
分类技术与示例
分类技术要解决的问题是为一个数据样本归类,即确定一个特定的样本属于哪一类别。为达成将样本准确归类的目标,我们需要构建一个分类模型(或称“分类器”)。分类模型是通过对已知的历史数据进行学习和训练出来的,所以分类是一种“有监督”学习过程。这里用于建立模型的数据称为学习集(或称“训练集”),通常是已经掌握的历史数据。在学习集中每个数据样本都被赋予一个类别标记,不同的类别具有不同的标记,如“违约”和“不违约”。因此,在已知客户是否违约、是否流失等类标的情况下,通常采用分类技术对客户数据进行挖掘和分析,并对未知类标的(新)客户进行类别预测。
在分类技术中,决策树算法最为经典,我们选取商业银行客户信用风险预测的一个示例,即基于14个客户样本,采集客户年龄、性别、月收入、行业信息以及类标信息(是否发生违约),构建决策树用以预测新客户是否存有信用风险。我们将决策树算法的计算过程演示如下:
决策树可以很好地对数据库表进行归纳性描述。未来当面对一名新客户(年龄不高于30岁、男性、月收入高、从事皮具行业)时,我们则先看其月收入信息,如果“高”则再看其行业信息,如果“皮具”则判断他未来会发生“违约”,即预测其存在信用风险。
“以客户为中心”的指导原则
商业银行大数据金融建设应遵循“以客户为中心”的指导原则。实际上,我们以上给出的两个示例均为“以客户为中心”的银行数据挖掘技术应用,即面向客户采集信息,每个数据样本都表示一名客户,我们对所采集的客户信息进行分析和挖掘,总结归纳相关规律,用以指导银行未来的客户管理工作。
对于商业银行来说,我们总是应该将客户摆在第一位,要充分了解客户的需求,这样才能为客户提供及时有效的产品和服务。接下来,我们需要考虑渠道,即通过什么样的途径与客户接触。当客户、产品、渠道结合在一起就形成了营销管理的概念。但是营销对于商业银行整体业绩来说只是一个方面,因为金融行业还应充分考虑风险,营销创造价值,但同时还要防范风险带来的不确定性和潜在的损失。将营销管理和风险管理结合在一起可以有效评价绩效,将绩效管理分解到每一名员工来进行人力资源管理,同时人力成本也是银行财务与成本管理的一个重要组成部分。而在“平衡计分卡”的逻辑中,财务承接战略。
实际上,我们从更细粒度以及逻辑层面阐述了人们较为广泛认知的商业银行大数据应用的四个方面:(1)营销支持(客户管理、产品管理、渠道管理、营销管理),(2)风险管控(风险管理),(3)精细化管理(绩效管理、人力资源管理),(4)决策支持(财务管理)。
高端客户细分与潜在提升识别
关于“以客户为中心”的商业银行数据挖掘技术应用实践,我们介绍如下:
面向应用的“混合数据挖掘”
在“高端客户细分与潜在提升识别”应用实践过程中,我们通过混合使用聚类技术(K-means算法)和分类技术(决策树算法),实现对目标客户的科学细分,并发掘潜在客户群的业务需求,形成银行的商业机会,与客户实现共赢!
原本在聚类层面我们能够看到每个类别的“类核”,即对每个类别进行群体描述,但类核并不足以帮助我们对每个类别进行丰富的客户特征识别,因此我们在聚类结果的基础上构建决策树分类,开展规则描述,这使我们有能力按照规则对每个(新)客户个体进行类别预测,并阐述判别缘由以便后续制定行动策略。
今天,面对日益复杂的应用场景,仅使用单一的数据挖掘技术已经难以满足应用需要,我们将“混合数据挖掘”(Hybrid Data Mining)定义为:面向业务应用场景,将多种数据挖掘模型和算法综合运用,以实现应用价值。关于“混合数据挖掘”我们早期的一些工作可以参阅以下文献:
1.Y. J. Wang, Q. Xin, F. Coenen: Hybrid Rule Ordering in Classification Association Rule Mining. Trans. MLDM 1(1): 1-15 (2008)
2.Y. J. Wang, F. Coenen, R. Sanderson: A Hybrid Statistical Data Pre-processing Approach for Language-Independent Text Classification. ADMA 2009: 338-349
3.Y. J. Wang, F. Li, F. Coenen, R. Sanderson, Q. Xin: Hybrid DIAAF/RS: Statistical Textual Feature Selection for Language-Independent Text Classification. ICDM 2010: 222-236
4.J. Lei, G. Di, F. Coenen, Y. J. Wang: A Hybrid LR/DT Classification Approach for Customer Attrition Risk Prediction in Retail Banking. Industrial Conference on Data Mining - Poster and Industry Proceedings 2012: 95-100
5.杨璇:基于数据挖掘的商业银行高端客户细分模型实证研究,硕士论文,对外经贸大学,北京,2015
注:本文系数据观原创稿件,转载请注明来源,数据观微信公众号(ID:cbdioreview)
责任编辑:陈近梅