中国联通研究院魏进武:电信行业大数据发展及平台技术演进
导读: 4月20-21日,2016中国信息大数据通信大数据大会在京召开。中国联通研究院魏进武在会上发表了以“电信行业大数据发展及平台技术演进”为主题的演讲。其中,魏进武讲到,云计算和大数据也是我们IDC的一个主要承载的内容,在这种模式之下,IDC以大数据和云计算为核心的,可能会支撑下一步整个通信网络的变革
以下为中国联通研究院魏进武的发言实录:
魏进武: 各位来宾,下午好!我代表我们项目组,向大家介绍一下中国联通在大数据的一些平台技术方面做的事情和下一步的演进的思路。另外一块,就是围绕平台这一块的开放合作这方面的一些想法,给大家做一个介绍。
是三个方面,一个是我们围绕大数据的一些思考,确定发展目标。另外一块就是围绕这个目标,我们当前发展到了什么地步。第三块就是一个开放合作的想法。从这个背景上来讲,目前配合咱们大会的主题和产业的发展来看,开放和合作也是整个 大数据产业 化发展的一个基础,从开放这一块,我们13年就已经定了开放和合作的想法。我们把它分为三个圈来看,内部可能是一个大数据的核心圈,主要是由拥有大数据的人来主持,主要这一块有最内层的数据的基础平台,还有一些开放的能力来构成。中间这一块可能是我们一些结果数据,或者能够开放给行业,供行业融合数据的一个供给圈。最外层也就是辐射出去之后,能够向产业融合之后,提供围绕着数据增值化这一块的数据增值圈,大数据产业要有基于开放+合作,大数据整个产业经历这么一个过程。
前几年大家集中做核心圈这种事情,都在建自己大数据平台的能力,做各种各样的数据采集工作。现在也在做一些数据能力的开放,下一步我认为在开放和共享这个环节上,可能会重点促进供给圈的工作,把拥有数据的,以能力的方式,以结构数据的方式,脱敏数据的方式开放出来,寻求面向各个行业和产业增值化的服务,可能是我们下一个阶段主要的任务。在这个过程当中,我们发现整个通讯行业也在发生变化。搞通讯的都知道,我们通讯基本上过程是这样的,我们有网源设备,完成了端到端的信息交互。随着OTT技术的发展,随着3G、4G的技术,可能不是端到端了,而是从端到数据中心,就完成了这种交换。也就是说把整个端到端的通信劈成了两块,先由端到数据中心,再由数据中心到另外一个端,在这种情况下,我们认为以端到端的管道化的通信模式,可能在向以IDC数据中心为核心的方式来转变。云计算和大数据也是我们IDC的一个主要承载的内容,在这种模式之下,IDC以大数据和云计算为核心的,可能会支撑下一步整个通信网络的变革。这是两个背景。
在这两个背景的考量之下,我们要围绕这个来考虑我们大数据平台整个开放合作的体系。我们联通这一块有四种大数据合作模式,其中一种就是大数据创新实验室的合作模式。在这个体系里面,我们首先要构建为满足未来两级IDC核心的一个基础框架下的大数据能力开放,我们这一块是把大数据和 云计算 整合起来发展。一级这一块重点是提供能力和资源,二级这一块重点是提供应用和能力接入的,这么一个思路在做开放的基础创新体系。
在这个体系里面,我们希望和产业界的合作伙伴形成一个最开放的,架构最新的,技术最全的,样本数据维度最全的一个开放创新的孵化环境,能够在孵化这个环节上尽可能促进整个跨行业的样本数据的融合和场景的融合。这是我们围绕创新体系这一块,我们平台想支撑起来的一件事情。另外一块就是围绕应用这一块,我们目前已经做到的有这么一些应用体系。比如面向征信的,面向金融营销的,面向各种行业发展指数的,还有就是能力开放的四个产品体系。经过前两年的探索,我们也发展了一些合作对象,合作内容。围绕这四类,基本涵盖了整个互联网金融,涵盖了我们一些政府,涵盖了一些银行、保险这样一些行业,在做这个数据能力的开放的尝试。
从开放的模式上来说,从我们生产开放模式这块主要有四类模式,一类模式就是数据特区的这种模式。就是我们提供一个资源和数据的特区,大家来加工。另外一块可能就是实时接口的模式,第三块就是提供精准营销服务的模式,还有一块就是共建实验室的模式。下面我们给大家重点讲的是共建实验室的模式,要支持这种共建实验室的模式,又要考虑到支撑未来通信行业IDC的变革,我们平台这一块也要向两极化发展。一级重点是提供大数据基础能力的,目前我们能提供的资源的供给能力、数据的存储能力、数据的加工能力还有数据开放挖掘能力,以及合规审核能力这么五大类基本的能力。在二级这一块,可能要完成一个大数据的产品化运营管理平台的东西,由平台能力提供变成产品的制作,大数据产品的制作和大数据产品的运营计量,而且这一块要实现一个异地的接入和物理分散的一个部署。在这个大规模部署的情况下,再开展更广域的合作应用,这是我们围绕开放创新平台的一个目标架构。
围绕这个,我们联通做到什么程度呢?联通从2000年就开始在做数据,真正大数据时代从2001年来做。经历的过程来看,一开始我们做的全网全域的数据集中,目前联通已经做到了全网全域的数据一点集中,这是区别于其他地方的一个基础。目前这一块数据规模上已经达到了21个PB以上,两千多台节点的处理,大概月增量在600个TB以上。还有日处理的上网记录、通话记录大概都是上亿条,千亿条。从服务能力这块来讲,截止去年12月份的数据,我们现在支持一万个以上的数据并发,自然利用率达到30%以上,能识别八万多个终端型号,APP识别率也达到了90%以上,这是我们目前大数据能达到的规模和能力。
平台这一块,我们大数据在集团内部也不是孤立存在的,我们是放在一个大的IT架构里面来考量这件事情的。底层我们有统一的系统来保障,中间是一个基础的数据加工的平台,上面是一个数据的能力开放平台,是这么一个方式,来构建我们联通的一级大数据能力平台。开放技术架构这一块,面向五层的开放,包括底层数据的存储加工,中间的数据建模,上层的数据应用。数据加工这一块包括了我们的建模,包括多租户的管理,包括数据的挖掘,包括我们结果数据的输出和行业应用融合的合规审核这种基础。这是目前已经具备这方面的能力了,所以总结一下,从联通大数据来看,我们可能有这么几个优势。
第一个优势,全网全域,数据是一点集中的,另外一个优势,就是数据加工是由统一平台来承载一体化加工。第三从运营这块,经过两年的尝试,这块积累了一定产品化运营的经验。第四个,就是数据质量和数据管控体系上来看,从12年开始,我们就在做全集团的统一的原数据和数据质量的管控体系。这是联通大数据平台,我认为相对于其他的基本的四个优势。
围绕这一块已经取得的成果和下一步能支撑数据通信网络的变迁,以及开放创新体系这一块来说,下一步这个平台还要朝四个方面来做继续的演进。第一个,刚才IBM的专家也讲了,我们这一块也要充分引进和运用微服务架构,能够实现我们大数据平台应用能力在物理上的一个分布,能力实现一个集中的运营,满足两级数据开放运营体系。联通虽然我们数据是一点集中的,全部物理集中在北京,但是集中起来之后,发现我们的开放成了一个难题。我们数据在集中了之后,能力怎么开放出来,让全国的或者不同地域的专属应用能够访问得到,这是我们现在面临的一个问题。第二个,也要构建基于容器+资源和能力两层调度的新的体系,促进云和大数据的融合。在2.0的框架之下,实现能力访问的跨域接入,实现能力的集中运营,从而在属地化运营和我们统一运营上实现协同化的发展,这是第二块。
第三块,从数据本质上来说,也会引入认知计算,使得计算能够渗透在大数据应用当中各个环节。为什么这么讲?因为现在我们的 数据分析 或者数据应用大部分还停留在可视化这个环节,停留在知道这个环节。但是我们可能对数据的期望不仅仅是知道,而是知道了,你下一步该干什么,或者在知道它有问题的情况下,提前采取什么样的措施来规避最不好的情况出现,这可能是我们想引入过程计算的一个思想和出发点。
第四就是充分利用机器学习,来开发非传统经验的算法。为什么这么讲?因为原来我们在玩数据游戏,我们都从概念模型出发,最后通过数据来证实了一下这个概念模式。非传统经验,我们希望从数据事实来出发,通过数据的事实,通过算法的计算,发现某些事实。有些事实用物理概念能解释,有些事实用物理概念解释不了,我们在现有的基础上,在平台和数据本身上进一步发展演进的方向。
围绕开放合作,我们现在会以联通的样本数据或者联通的自有数据开放出来,和各个行业来实现国际国内的跨行业的合作。从模式上来说,刚才有四种模式,围绕着开放创新实验室这种模式,可能会围绕三方面来做合作。一个就是平台技术,第二个就是应用孵化,第三就是具体的建模算法。最深度的一个合作,也希望和大家能联合起来做合作研发的工作。
谢谢大家!
责任编辑:王培