杨明川:中国电信灯塔大数据应用实践
2016年9月4日,CDAS2016第三届中国数据分析师行业峰会在北京国际会议中心成功举办,中国电信云计算重点实验室执行副主任杨明川主任,在峰会上做了题为《中国电信灯塔大数据应用实践》的主题演讲,以下是演讲实录:
大家好,非常高兴今天有机会能够跟大家分享一下《中国电信灯塔 大数据应用 实践》,我本人是中国电信北京研究院负责云计算和大数据部门的负责人。我们也开发了灯塔大数据系统,这个系统是我们面向整个大数据领域做的探索和创新。
我今天介绍的内容有几方面,首先简单分析一下大数据最新的行业背景,从我们角度来看,最近行业有哪些点是我们比较关注的。第二方面,我们也想介绍一下我们正在做的一些事情。最后有几个案例,借这个机会给大家分享。也想通过这个分享能够看看大家能不能找到共同感兴趣的话题,或者大家共同在这个领域一起合作研究的机会。
这是大数据从开始到现在最新的发展历程,大数据的整个发展周期也会经历起起伏伏的发展,比如说去年挺热,但去年整个大数据业务还没有真正起来,今年之后,大数据在各个领域深度研究和深度跟行业结合,能够找到真正有价值的点才刚刚开始起来。我想未来几年应该是大数据领域真正能够找到他自身价值,而不仅仅是炒作的阶段。
另外一个方面我们觉得比较关注的应该是从2014年最早开始,但从去年到今年,国家逐渐把大数据上升成为国家战略,这里面几个方面,包括“十三五”规划,包括国务院印发的“ 互联网+ ”、大数据等等一系列相关政策和产业上的一些主导。大数据逐渐上升到国家战略之后,对我们产业来讲是非常大的促进,这个促进一方面会带来很多,比如说政府大数据相关领域的机会,同时,从国家层面也会促进给大数据营造比较健康的产业环境。比如大家比较关注大数据的隐私保护、安全法律等等问题,大数据不同行业不同领域之间大数据的交易市场,大数据的融合等等,更加规范的问题。所以我想大数据上升为国家战略之后,会为产业发展带来新的机会,也会给大数据的产业发展带来更多健康有序的空间。
真正大数据的空间,未来大数据发展还是要围绕着“互联网+”来讲,“互联网+”最基本的概念是连接,“互联网+”它的真正含义,一方面是连接,什么样的连接呢?低成本连接,通过大规模协同进行连接,更多的通过移动互联网去连接等等。我想大数据是在连接基础上去打破信息壁垒,也就是说,打一个不恰当的比方,在“互联网+”早期阶段,我们更多是把不同环节通过互联网的方式把它连接起来。大数据要做的是第二阶段,我不但要把不同环节连接起来,而且我要让不同阶段他们的信息不对称,他们的信息壁垒要通过大数据去打破。比如说通过大数据,让相互之间信息更加透明,更加有效,更加可信,某种意义上也涵盖了大数据未来发展的一个要点。我的观点是,大数据未来真正的空间要和“互联网+”进行更加有效的结合,特别是大数据怎么应用在那些互联网还不够发达的行业,怎么样通过和这些行业大数据进一步深入分析和拓展,能够打造更加有效的“互联网+”。
整个产业是有两个线条,我们去分析这个线条的构成其实也是在找我们的定位,我们觉得整个大数据产业结构,数据一条线,技术一条线。在数据这条线,比如说数据的基础设施,各个运营商,各个银行,各个大的互联网公司等等。再往上数据开放,比如从去年开始非常火热的数据交易市场,包括很多政府主导的数据交易市场。再往上是面临“互联网+”的大数据行业。再往上是数据算法能力这条线。这两条线互相交织,构成大数据产业结构,在未来我们面向更加智能化的发展,面向更大的空间,我觉得刚开始阶段大家比较注重的是左下角阶段,我们怎么样更多的获取数据,未来整个产业会不断的向上发展,比如说大数据和“互联网+”融合,我们需要和行业进行深度融合。原有大数据更多的是通过机器学习、商业智能等等手段,未来会不会和 人工智能 技术,比如深度学习、物联网、区块链等等技术去进行合作,进行更深的结合。通过这样的结合我相信大数据领域的发展会从一个比较低的数据汇集,原来是谁有数据谁就能够在这个领域占据主导,未来不是这样,我们会向上不断延伸。
从灯塔大数据角度讲,我们希望我们定位为行业大数据解决方案提供者以及在大数据关键技术,特别是算法能力方面的创新者和开拓者,后面我分享的案例会有简单的介绍。
回到运营商来讲,大家都认为运营商具有最广泛的数据,也有最海量的数据,运营商来讲做大数据应该是具有很好的条件的。我们也是通过几年的不断研究和探索,我们也遇到很多困惑,真正大数据发展起来,在后面发展过程中,我们还是会发现遇到很多的问题,很多的障碍,这个障碍各个层面的。比如说数据的完整性,不同来源数据之间的关联,实时的数据怎么样能够有效的获取,在纷杂的数据中,大量的数据污染,大量无效的数据和错误的数据噪声怎么样去除,这些数据能不能连续,行业知识怎么和数据进行有效结合,当然,大家都会比较关注的安全隐私怎么保护。
我们怎么样能够一方面做 大数据分析 和挖掘,一方面又能够避免这个行业走向全社会不愿意看到的一些隐患。对我们来讲就是两个方面,一个是技术创新,一个是应用创新,这二者之间形成双螺旋的关系。技术创新加上应用创新,再加上前面数据和技术的产业链条相结合,我想可能是我们在大数据行业里面进行不断研究,不断深化的一些主线条。
我们认为大数据未来的发展空间在于“互联网+”,结合我们自己研究的实践,我们觉得迈向“互联网+”有哪些大数据相关的关键问题,我们也进行了分析。
比如说数据拼接,其实我们有不同来源的数据,任何一家都不可能拥有所有的数据,我们会有不同的数据,来自于我们采集的数据,爬虫的数据,来自于互联
网公司各种各样的,包括APP的数据,包括RTB的数据,包括行业数据。但是这些数据他们的质量不一,表示方法也不一样,特别是他们缺乏很有效的统一标识,怎么样能够通过有效的技术手段去把不同的数据有效的拼接起来,我觉得这是大数据面临的一个关键问题,我们在这方面也进行了探索。
第二个问题是深度标签技术,包括以前的互联网广告里面也会给每个人做画像,也会给每个人打标签,但这样的标签通常意义来讲都是比较浅层次的标签,我看了什么网页,我可能关注了什么商品。我觉得大数据未来的发展可能我们需要去挖掘用户行为背后的东西,比如说真正的消费意识是什么,你的消费能力是什么,你在某一个事情上的偏好是什么等等,隐藏在大量日常行为背后的东西,甚至是你的一些动机,你的一些模式,我们希望把这些东西通过我们的大数据技术算法提取出来,我们称之为深度标签技术。
第三个是行业知识建模技术,这些技术它解决的问题是光有用户行为数据是不够的,特别是我们要面向“互联网+”的话,我们必须把这些数据和我们的领域知识进行有效对应,才能发现它真正的背后价值和意义。第四个是场景智能推荐技术。第五个是数据源很大的时候,数据降维和关联分析。第六个是大规模交互式数据可视化技术。第七个是数据安全和隐私保护。这些技术也是我们灯塔大数据重点研究的方向。我们希望通过技术创新能够发现一些比较好的有意思的东西。
后面是我们的不同探索。比如数据拼接技术,在灯塔里面,除了运营商内部的数据资源以外,我们也通过数据爬虫,通过和其他大数据团队、公司之间的合作,也有很多第三方的数据源,我们怎么通过这些事情把不同来源数据进行有效拼接呢?比如我们在一些地区,我们怎么样去打通手机号、邮箱号、淘宝号等等它们之间的关联关系,打破它们之间的关系,让不同来源的数据有效拼接在一起。这里采取了不同的技术模型,模型我不细讲了,大家感兴趣以后我们可以交流。
深度标签技术,这里我们也列举了算法,也跟一些高校在合作。打个比方,我们怎么样判断一个人的消费行为,大家如果做消费行为分析的时候就会知道,男士和女士他们的消费行为是不一样的,有一些典型的消费行为。当然也有一些人的消费行为介于男士和女士之间。我们做分析并不是通过原始数据发现比如你这个消费者是男性还是女性,而是通过你的消费行为,比如你买了什么东西,你关注什么新闻,你关注什么样的帐号,通过这样的行为去推测这个人的性别行为。这个性别行为和一个人的真实是有差异的,但一个人生理上的性格和真正购物时做决策的行为之间哪个更准不好说。
通过这样的深度标签方法,能够发现一个人行为背后的东西,比如说可变的性别行为,还有一个人的购买力,他购买的偏好,购买力的偏好也是不一样的。有些人可能收入不高,但是购买模式是比较喜欢消费奢侈品,或者中高端商品,也有深入高的,但是他的消费模式不一样等等。更多的是通过算法发现背后的东西。知识建模,比如我们通过行业信息爬取,我们构建更加丰富的行业知识模型,比如说电商的知识图,我们把电商的商品信息,特别是不同电商他们同一款商品可能有不同的表示,有不同的型号,他们可能就是一款商品,我们怎么样把不同电商里面的商品进行对齐,以及比如说影视相关的信息,汽车、房地产,我们能不能通过外部的行业知识去构建一个行业的知识图谱,而且这个知识图谱可能不仅仅是一个支点式的知识图谱,未来通过知识图谱技术,通过图的技术,我们能够把这些分离的知识再能够关联起来,形成很大的知识图,不同的电影,不同的人,不同的物之间,它们能够通过巨大的图谱连接起来,再把这个东西和我们前面讲的数据进行有效连接。还有其他技术,比如对地理信息的挖掘,基于位置信息,以及对于这个位置区域的人口属性分析,我们去挖掘异常行为。后面我也会讲到我们给政府解决方案过程中会用到这样的方法,做位置分析。
第二部分,介绍一下我们灯塔大数据。我们自己的定位还是在应用创新方面,中国电信也有很多做大数据的,我们作为研究院,我们希望能够更多的把我们的精力放在应用创新、技术创新、算法创新方面。
我们自己也整合了一些数据,比如我们内部数据,当然,也考虑到安全隐私,其实内部数据不涉及到内部比较核心的和用户隐私相关的数据,我们更多的是外部的,我们内部采集到的用户行为相关的数据,比如DPI等等数据。第二方面我们更多采集了互联网数据,比如我们通过爬虫,我们对不同行业信息,前面讲知识图谱,我们更多把行业信息爬取出来,通过我们的算法,构建行业知识图谱,以及社交媒体,微博、微信等等,还有视频方面的信息,我们后面有一个例子就讲我们怎么样把视频的信息和我们的行为数据进行有效的结合,打造价值指数。
当然,还有第三方数据,这个是和合作伙伴进行数据方面的合作产生的。我们在几个层面上,比如不同数据来源的整合,而且我想整合的目的不是把这些数据都加起来,而是我们把这些数据拼接起来之后,能够产生更全更新的数据,我们希望把不同来源数据整合起来之后能够让这些数据增值,这是一部分。二是构建大数据分析算法的能力,最后在一些领域进行尝试和探索。
具体讲几个案例,第一个案例是我们面向政府做的,随着国家大数据战略的实施,可能政府大数据,政务云,在这方面会受到越来越多的关注,我们也和电信的省公司合作,推进政府大数据项目。
比如说从政府角度讲,他们有很多关注点,比如城市人口的综合视图,城市管理、综合发展的管理决策,比如社会治安,比如重点人群监测,异常行为的监测,比如外来人口等等,这个点有很多,我们只是列举其中的几个点。
比如人口密度综合视图,政府都比较关注,比如人口分布、外来人口、当前活动视图等等,我们也提供这样的解决方案。比如说人口的基础设施规划,我们现在也在做基于区域的。
又如我们可以在地图上任意划定一块区域,我们可以监测这个区域人群的情况,包括人群的数量,人群的分布,以及这个人群内部,结合前面讲的用户人群画像特征,我们可以做这个区域的人群分布,甚至更复杂的事情,比如这个区域里边外来人口的比例等等事情。
还有一块,重点外来人口,这个可能和某些地方是有关的。外来人口变化和监测,我们自己也做了一些相关的大数据分析,能够动态的检测部分地区他的外来人口来源和比例。这个更多是跟公安部门合作,比如通过用户信息、通话信息、位置信息做综合处理和深度挖掘,能够提升舆情研判,帮助预警。还有人口普查,这是简单的案例来说明我们怎么样能够通过我们的数据和一些算法上的能力,能够针对比如说政府管理部门他们的大数据需求,开展相关的解决方案工作。
案例二,分享一下网络视频节目观众商业价值指数。前面讲了我们也构建了行业知识图谱,比如说在视频领域,现在视频分成几种,一种是互联网视频,各大视频网站的视频,还有电视台播放的TV视频,这些视频有不同的视频节目,视频节目本身也有电影、影视、综艺节目,我们想分析一个问题。视频节目都在做广告,衡量一个视频节目广告价值量以前相对比较单纯,就是它的收视率,如果是电视台的话就看收视率,或者说就看点击量,这个简单的方法是有一定问题的。同样一个电视节目可能他的收视率一样,但是我们会深入的去分析,同样是1000万人看了这个节目,但是这1000万人他的年龄结构、消费水平、行为爱好、行为习惯都不一样,比如我看电视的时候我会不会上网等等,这些情况不一样,导致一个电视节目同样1000万人看,但是它的商业价值有很大差异。
对于有的电视节目同样的收视率下,他的收看人群,收入水平比较高,消费意愿比较强,在线购物活跃度比较大,这些节目潜在的商业价值肯定要比观看年龄结构,相对购买意愿没那么强的节目来得大。从这个角度出发,我们结合多方数据,比如影视方面的知识图谱,我们把线上线下的收视行为进行打通,我们再把影视的观看行为和用户的购物行为,和用户其他的行为,比如相关的特殊行业,房地产、汽车等等这方面领域的深度关联和分析,我们想打造影视行业的价值指数,这个价值指数不同于传统上收视率的价值,我们希望通过这个指数能够帮助到电视台他去衡量一个电视节目真正的价值,能够帮助在电视上投放广告的商家,能够帮助他们发现什么样的节目可能他的广告价值会更高等等。
这些是我们做出来的一些结果,比如说2015年-2016年,我们对45个热播节目进行了分析,包括有电视剧,有综艺节目,也有网络节目,它们的收视率情况不一样,但是它们的价值指数分析,比如我们有这样一些维度,观看过程中最近一次购买的时间,购买的频率,购买的总额等等,通过这样一些对应关系分析,我们有这样一些结论。比如说节目观众的商业价值,长尾程度,节目收视率和观众的商业价值之间不存在正向相关性,观众的潜在商业价值和已有商业价值呈现显著相关性,电视剧的观众商业价值明显高于综艺节目和网络化节目,高价值观众一般在夜间和上午时段观看视频节目。大家如果对这个感兴趣可以关注我们公众号。
我们还有一些其他的案例。
比如市场研究,这是我们之前做的市场研究报告。
还有消费者决策路径。前面有嘉宾分享也提到了,现在在网络时代,大家的消费决策过程跟以前是不一样的,我觉得最大的好处是在购买比较贵重商品的时候,这个决策链条我们可以通过网上行为进行更加有效的跟踪,我们把它叫决策路径跟踪,如果大家要买房或者买汽车的话,决策时间超过一个月,在这一个月里面不同的时段他会有不同的行为,不同的时段也有影响他的不同方式等等。通过这样一些决策路径研究,我们能够更加清楚的知道可能任何一个消费者他现在处于什么样的阶段,我们应该用什么样的方式对他施加影响,未来我们可能会把这个进行更加深度的建模,能够发现用户在消费过程当中他的行为模式。
这是一个企业征信分析,这个也是我们通过网络其他的行为,不同于原来我们讲的这个企业收入是多少,负债是多少,现金流是多少等等这样的行为,我们通过别的行为。比如这个企业里面企业员工收入水平怎么样,比如这个员工是不是有离职意愿,这些员工工作时间都在干吗等等这样一些其他的信息,能够构建其他的模型,对企业整体运行状况,特别是这个模型更加有助于企业未来发展发生的情况,能够做出一个比较有意思的预测。
以上简单分享了我们的一些案例,在这个过程当中我们也在不断探索,希望有更多的合作 伙伴跟我们一块儿去探索,谢谢大家!
张峰: 谢谢杨主任的分享。下面有两个提问的机会。
提问: 你现在做了很多研究,基于电信运营数据,是从各个省汇集到你这,还是你只能一个省一个省去弄?
杨明川: 我们现在不是做各个省的汇聚,这个工作不是我们的重点工作,我们的重点是和省公司合作,跟省里合作。
提问: 如果想做全国分析,目前的数据源还达不到是吧?
杨明川: 现在还达不到,但我们现在能够做重点城市分析。
提问: 所以你和上海合作只能做上海的?
杨明川: 不是上海,我们现在有很多重点城市,不仅仅是一个地方,可能有六七个地方。
提问: 您提到对重点人群违法行为的关注和分析,能否介绍一下咱们这块分析用的什么数据源,以及通过哪些行为分析判断他是违法用户,或者做一些违法事情。
杨明川: 我们这里做的不是特别强的分析,我们有两方面的结合。一方面我们会和拥有这方面的数据公司合作,比如拥有犯罪记录,这些数据我们是没有的。我们能做的另外一方面的信息,比如违法方面的倾向,这里面需要构建一些算法模型。
提问: 这是用的咱们通信里的数据源吗?
杨明川: 不是通信数据,更多用的是网络数据。但是这块我们也在研究,但更多用的是网络数据来看他的倾向性的东西。当然,两方面数据我们都会结合,如果很强的数据这方面我们没有,我们更多是判断中间地带。
提问: 刚才有张PPT讲视频节目价值,我想问一下,您这个分析是基于移动网还是移动网和固定网都有?
杨明川: 都有,固移融合。
提问: IPTV有吗?
杨明川: IPTV有一部分,但不全。
提问: 这个数据量很大,以省份为试点?
杨明川: 对,但是我相信这种研究我们做的数据量已经足够大了,做这种研究我们一定要把全国所有人都拿出来做分析,这个没有必要,一个城市的数据价值做出来的结果已经足够好了。比如我在一个城市做的话,这个人口量级可能是百万级,千万级的。数据拼接的时候我们有一个ID关联,我们会把不同ID提取出来,做一个映射关系。比如说移动网里面有一些ID的特征,打个比方,跟手机相关的一些信息,在固网里面会有另外的特征,比如他其他的帐号等等,其他ID的特征,这个特征和移动网的一些特征做匹配,谢谢大家。
注:本文摘自数据观入驻自媒体—灯塔大数据,转载请注明来源,微信搜索“数据观”获取更多大数据资讯。
责任编辑:陈卓阳