大数据驱动下的银行应用——广发银行数据挖掘分析平台实践
文/广发银行股份有限公司信息技术部开发中心总经理 吕志刚
编者按 :广发银行结合信息资源大集中、大整合、共分享、重安全的IT战略,经过严谨的调研论证,启动实施、搭建了全行数据挖掘分析平台,实现全行数据分析资源集中优化管理,提升数据分析的处理性能,满足不断增长的数据分析需求,实现了全行数据分析挖掘的灵活扩展。“全行统一数据挖掘分析平台”项目让广发银行与SAS携手荣膺《亚洲银行家》“2015年度最佳数据与分析项目”大奖。
传统银行的转型实战:看工商银行如何利用大数据洞察客户心声?
西太平洋银行:用大数据提升产品推荐接受度达50%
董俊峰:银行可运用大数据为客户构建360度画像
民生银行的“大数据”加工厂
随着互联网金融的兴起,传统金融企业与互联网企业竞合加剧,越来越多的传统银行通过整合数据资源,加强数据挖掘,提升数据分析效率,助力业务转型、创新和发展,提高精细化营销、管理和决策水平。
广发银行很早就认识到数据挖掘分析在客户维护、营销推广、风险管理等领域的核心价值和战略意义。由于各业务部门业务发展需求差异,从2002年起,信用卡、零售、风险管理、小企业金融等部门先后各自建立了数据挖掘分析系统,带来了重复部署投入、资源使用不均、系统扩展性不强、数据共享性差等问题。随着各业务条线的需求日益清晰、对数据挖掘资源需求趋于共性,考虑到集中管理、数据等资源共享、平台扩展、信息安全等诸多因素,急需对全行数据挖掘分析资源进行整合并统筹分配使用,以节约资源投入、提升数据挖掘分析效率,实现数据共享、灵活扩展。
2014年,广发银行结合信息资源大集中、大整合、共分享、重安全的IT战略,经过严谨的调研论证,启动实施、搭建了全行数据挖掘分析平台,实现全行数据分析资源集中优化管理,提升数据分析的处理性能,满足不断增长的数据分析需求,实现了全行数据分析挖掘 的灵活扩展。该平台荣获《亚洲银行家》颁发的“2015年度最佳数据与分析项目”大奖。
一、统一数据挖掘分析平台方案概述
全行统一数据挖掘分析平台利用SAS网格技术的资源集中管理、负载均衡、架构灵活和高可用性等特点,规范管理数据分析,实现了全行数据分析资源的集中优化管理、数据的有效治理及共享,提高数据分析处理效率,合理控制了全行数据分析挖掘工具及系统资源的重复投入,不仅很好地满足全行各业务条线的数据分析需求,还可针对未来爆发增长的数据服务需求进行灵活扩展。广发银行全行统一数据挖掘分析平台技术架构如图1所示。
二、统一数据挖掘分析平台技术特点
经过7个月的建设实施,广发银行统一数据挖掘分析平台顺利投产,系统使用效果完全达到预期目标,平台自身一些独特的技术特点也大幅提升了数据挖掘分析效率。
1.资源集中管理、调配和共享
(1)集中管理
平台实现了广发银行数据分析资源的集中管理和分配,包括分析平台的数据安全集中管理,用户访问权限集中管理,资源分配集中管理,任务调度集中管理等,支持全行的数据分析应用按作业、队列、主机和用户进行管理,进行不同作业的优先级设定,基于事先制定的规则排队作业,更好地利用计算资源,支持自动识别、分配、管理和优化计算资源和程序流,用户和应用程序可以利用所有的计算资源,进行更大型、更复杂的数据挖掘分析。
(2)负载均衡
平台实现了分析平台资源的动态优化管理,通过负载均衡管理技术,实现了数据分析多任务的均衡处理,缩短了业务分析总体处理时间,降低了单节点主机资源的消耗,满足了业务分析峰值的负载要求,提升了分析平台的处理性能。平台可以自动为应用程序生成多线程和分布式处理,在多个计算资源上运行,从而加速应用程序的运行效率,更有效地利用计算资源。
(3)高可用
平台提供高可用性手段来支持关键的应用服务,使用网格节点作为容灾热备节点,进行无中断的运行维护。自动检测网格中的软硬件故障并及时恢复,确保运行作业能够及时完成。借助于网格计算架构的作业检查点、重启特性,实现成功检查点自动重启作业。
(4)灵活扩展
平台的技术架构支持计算资源的动态扩展,可灵活地逐步添加硬件资源,以应对不断增加的用户数量和业务需求。允许网格环境中的服务器脱机而不中断业务,从而方便地进行硬件服务器的维护。专业分析工具的配置充分考虑了全行各业务发展目前及未来的数据分析需求,通过灵活的分析产品配置,运用许可分阶段更新激活的方式,实现了分析平台在数据分析、数据挖掘功能方面的灵活扩展。
2.数据统一、规范使用
(1)统一数据视图
广发银行数据仓库平台(EDW)已经将分散在各个应用平台中的数据信息按客户、账户、产品、渠道等多个主题的方式进行有效的组织和存储,统一数据挖掘分析平台以EDW作为主要数据源,针对各业务部门的数据需求,统一数据加工规则,统一处理,提供给各业务部门统一的数据视图,避免了各业务部门由于数据加工口径不同带来的数据差异。
(2)规范使用
在统一数据挖掘分析平台的实施过程中,联合数据管控平台、信息安全处、稽核等部门,健全了配套的数据使用管理规范制度,制定了《数据工作间管理办法》、《数据挖掘需求管理办法》和《统一数据挖掘平台运营办法》等相关管理制度,使数据挖掘分析的流程固化,改变了之前数据挖掘分析松散、模糊的工作模式,使数据挖掘分析工作有章可依,提升了数据安全性。
(3)数据共享
统一数据挖掘分析平台保存了各业务部门的共性数据和个性数据,统一进行数据加工处理,在平台集中管理下,可以根据业务发展需要,有针对性地开放和共享跨业务条线的业务数据,快速满足跨业务条线的数据挖掘分析需求,有效支持了交叉营销、客户维护等方面的工作。
(4)高效数据处理
整合优化既有的数据ETL处理模式,实现了规范化的统一数据抽取、转换和加载处理,实现每天可以提供T-1的业务数据,数据处理时间控制在2.5小时之内,提升了业务数据分析的实效性。
三、统一数据挖掘分析平台实施经验
1.分批次实施平滑切换
此前广发银行数据挖掘分析系统由各部门独立建设,主要应用于目标客户群定位、客户准入、额度核定、风险控制、催收、定价及贷后风险监测等领域,为广发银行的各类差异化产品及金融服务设计、营销提供决策支持。因此,全行统一数据挖掘分析平台的建设要有序实施这些应用的改造及迁移,减少对正常业务管理的影响。在平台实施中,通过与数据分析人员逐一细致分析各应用的有效性、重要性,在充分验证数据满足度、准确性基础上,分批实施数据挖掘应用的改造及迁移。
2.数据处理优化与数据治理双管齐下
在平台实施过程中,我们发现各部门原有数据挖掘分析系统数据处理效率不高,无法保障数据供给及时性,为此统一数据挖掘平台专门成立了数据优化小组,对各业务部门的SAS数据ETL处理模式进行整合和流程再造,形成全行统一的数据处理规范,不仅大幅提升了数据处理效率,并且有效解决了数据供给时效性不强,数据处理时间过长等问题,使业务分析人员从繁杂的数据处理工作中解放出来,将更多精力聚焦在数据分析和数据建模等提升业务价值领域的工作。
数据优化小组的另外一项主要工作是提升数据质量,在各业务部门进行数据核对检查的过程中,存在数据质量问题,这是影响数据分析效果的关键问题,为解决这一问题,统一数据挖掘分析平台联合数据管控平台,采取多种策略进行数据治理,对于发现的业务系统数据质量问题,督促业务系统整改,确保从源头解决问题。对于数据加工口径引起的数据质量问题,和相关业务部门沟通确定数据加工口径,确保数据处理规则的权威性。针对管控平台上已制定数据规范的数据,与业务部门讨论,在统一数据挖掘分析平台上落地数据规范,针对还未制定数据规范的数据,和相关业务部门讨论沟通确定各个数据的规则,补充制定相应的数据规范。通过这种“多管齐下”、“多头治理”的方式,有效提升了数据质量。
四、平台分析应用实践
统一数据挖掘分析平台在推动广发银行经营管理和业务绩效提升方面发挥的重要作用主要体现在以下三个方面。一是通过对绩效考核指标的分析和挖掘,实现对分支行机构、客户经理、员工的精细化科学管理,优化内部管理和考核机制;二是通过加强对客户的分析和洞察,丰富客户全景视图,制定个性化的客户维护策略,提高客户的获取率和留存率,活跃客户的激活率和持续力,提高客户交叉销售效能,提升客户整体价值,实现对银行客户关系的精准管理;三是通过建立相应挖掘模型实现对客户信用风险、操作风险、市场风险等主要风险的计量,根据广发银行的风险偏好选择发展最优业务,在降低资本占用的同时提升全行风险管控水平。具体案例如下。
1.官网首页金融超市理财产品精准营销案例
为了更好地销售理财产品,广发银行官网首页于2014年3月新增了金融超市功能,为每位访问官网首页的客户固定推荐三款在售理财产品。考虑到每个客户理财偏好的差异,金融超市基于统一数据挖掘分析平台和企业级数据仓库整合的客户“360度”信息,对全行个人网银客户的理财产品偏好度进行深度分析挖掘,为访问官网的客户精准推荐定制化理财产品,有效提高理财产品的签约率和销售效率。分析平台实施前后的理财产品推荐方式对比如图2所示。
2.对公客户担保圈图形化识别案例
近年来,关联担保、互保、联保授信风险事件频发,担保圈授信风险愈加凸显,为此银监会专门下发通知要求商业银行加强企业担保圈贷款风险防范和化解工作。在此背景下,广发银行启动了担保圈专项检查工作,对全行有信贷余额的客户进行风险排查。相比较而言,分支行掌握的信息有限,总行拥有全行所有客户的数据,更具数据及技术优势,所以工作模式是由总行生成客户清单及担保圈明细,下发各分行,由分行逐一进行风险排查。由于担保圈可能涉及数十甚至上百家企业,并且企业间关系错综复杂、种类繁多,文字或表格描述的方式难以让分行完整理解和掌握担保圈的传递途径,需用一种简单、直观、易于理解的图形化展示方法。
本案例对1741个担保圈,使用统一数据挖掘分析平台提供的SAS DS2CONST分析方法生成相应的HTML文件,用线条箭头描述担保方向、线条颜色描述企业间的关联关系、线条虚实描述有无资金往来、节点颜色/形状/大小描述企业的风险情况,鼠标置于企业简称上方显示企业全称、信贷余额、广发银行及他行的风险分类、风险预警信号,更简单、直观的表现出企业间的关系。分析平台实施前后的对公客户担保圈展现方式对比如图3所示。
五、统一数据挖掘平台发展展望
统一数据挖掘平台的建立为广发银行的数据分析团队打造了一个稳定、灵活的工作平台,不仅大幅提高了数据分析效率,还可以灵活扩展。未来,统一数据挖掘分析平台希望实施数据沙箱、分布式存储等技术,以满足爆炸式的数据存储分析需求。
1.利用数据沙箱技术,深挖数据价值
银行不缺数据,关键是对海量数据的整合和运用。广发银行企业级数据仓库平台已经将分散在各个应用平台中的数据信息按标准化主题的方式进行有效的组织和存储,如何挖掘出这些数据的最大价值、快速把价值传递到对客户的服务中尤为关键,利用数据沙箱技术,可以减少系统间的数据传递消耗,进一步提升数据价值传递的效率。在EDW中建立数据沙箱,统一数据挖掘分析平台可以直接基于数据沙箱进行个性化数据探索、临时性数据分析、共性数据需求提炼、概念验证、自主分析等数据试验室类分析应用,不仅减少了EDW和统一数据挖掘平台之前的数据传递消耗,还可有效降低统一数据挖掘分析平台对存储空间的需求。
2.建立分布式存储,满足“大数据”应用需求
大数据是重塑金融竞争格局的重要支撑,为金融企业带来创新动能,善于高效运用大数据的金融机构,将在未来的竞争中脱颖而出,大数据的应用水平也将成为金融企业打造差异化竞争优势的重要支柱。但机遇与挑战并存,面对大数据挑战,传统IT架构亟待转型。目前广发银行统一数据挖掘分析平台已经具备了一定的数据处理能力,但要面对未来爆炸式的数据量增长,还需进一步优化,可利用分布式存储技术,使用集群应用、网络技术,分布式文件系统等功能,将网络中各种不同类型的存储设备集合起来协同工作,共同对外提供数据存储及业务访问功能,在提升系统I/O读写性能、数据高可用性和管理复杂性的同时,有效降低存储成本。
End.